SlideShare uma empresa Scribd logo
1 de 12
Применение шаблонов при выделении коллокаций Жильцов Д.И. (МИЭМ)
Что такое шаблон? Под шалоном будем понимать комбинацию состоящую из нулей и единиц длиной k. Где k – длина словосочетания, а 1 в определенной позиции соответствуетслову из словосочетания в той же позиции, по которому будем объединять. Порог шаблона – такое число единиц, при котором шаблон считается валидным. В данной работе пороговое значение равно 50% от k. Коэффициент нормализации шаблона – значение равное количеству нулей. Пример: k = 6; порог = 3; 000111/001011/001101/…
Материал и методика В качестве основного материала использовался неразмеченный корпус текста “РИА Новости”, содержащий более 200000000 словоупотреблений. На этапе морфологического анализа если наблюдалась омонимия, то использовалась первая из предложенных лемм, т.е. неодназначность разбора игнорировалась. MI или t-score? 	За счет того, что t-score является лишь несколько модифицированным ранжированием словосочетаний по частоте(Ягунова 2010), основной мерой была взята MI.
Материал и методика.MI для словосочетаний длиной k n – слово                     - частота словосочетания 	- абсолютная частота слова      в корпусе N – количество словоупотреблений в корпусе
Материал и методика.S-MI для словосочетаний длиной k 	   Алгоритм состоит из следующих этапов: С помощью морфологического анализа приводим все слова к каноническому виду, объединяя их в словосочетания и распределяя по правилам (группам) относительно их словоизменительной парадигмы. Состоявляем шаблоны для длины k с заданным порогом объединения. Для каждого словосочетания из правила вычисляем шаблон. Если количество сочетаний, входящих  в шаблон, больше 3, переходим к 4 пункту, иначе – переходим к следующему словосочетанию или шаблону. Относительно полученного шаблона вычисляемдля каждого словосочетания меру MI и ищем сочетания с максимальной мерой. Назовем его - “главный представитель” шаблона. Вычисляем сумму частот всех словосочетаний и делим ее на коэфициент нормализации. Для главного представителя, предполагая, что не объединенные слова являются синонимами в данном контексте(корпусе), вычисляем меру MI, заменяя при этом собственную частоту на сумму из 5 пункта.
Материал и методика.S-MI для коллокаций длиной k В результате получаем файл(ы) вида:
Результаты.Коллокации без знаков препинания.Длина 3.
Результаты.Коллокации со знаками препинания. Длина 3.
Результаты.Коллокации со знаками препинания. Длина 4.
Что остается за бортом?
В дальнейшем планируется: Найти связь между шаблоном длиною k и словосочетаниями большей и меньшей длины, за счет фиксированной части шаблона. Опробовать алгоритм для словоформ. Произвести не только количественную оценку, но и качественную - абстагироваться от частоты и уделить больше внимания правилам.
Спасибо за внимание!

Mais conteúdo relacionado

Destaque

Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008
mobileconnect
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
Lidia Pivovarova
 
Web 2.0 for Financial Institutions
Web 2.0 for Financial InstitutionsWeb 2.0 for Financial Institutions
Web 2.0 for Financial Institutions
Emprende Futuro
 
Text Pattern Formation For Information Extraction
Text Pattern Formation For Information ExtractionText Pattern Formation For Information Extraction
Text Pattern Formation For Information Extraction
Lidia Pivovarova
 
Coaching Movie Ppt Version Sample
Coaching Movie Ppt Version SampleCoaching Movie Ppt Version Sample
Coaching Movie Ppt Version Sample
Andrew Schwartz
 
Martin karlssons vykortssamling st per
Martin karlssons vykortssamling   st perMartin karlssons vykortssamling   st per
Martin karlssons vykortssamling st per
hembygdsigtuna
 
Porla Paz
Porla PazPorla Paz
Porla Paz
rbartel
 

Destaque (15)

Olympic Games
Olympic GamesOlympic Games
Olympic Games
 
Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008
 
Nieuwe Marketing En Communicatieconcepten Arnhem 29 november 2007
Nieuwe Marketing En Communicatieconcepten  Arnhem 29 november 2007Nieuwe Marketing En Communicatieconcepten  Arnhem 29 november 2007
Nieuwe Marketing En Communicatieconcepten Arnhem 29 november 2007
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Twitter User Hype Cycle
Twitter User Hype CycleTwitter User Hype Cycle
Twitter User Hype Cycle
 
INFORED RURAL
INFORED RURALINFORED RURAL
INFORED RURAL
 
Montpellier - Flex UG
Montpellier - Flex UGMontpellier - Flex UG
Montpellier - Flex UG
 
Web 2.0 for Financial Institutions
Web 2.0 for Financial InstitutionsWeb 2.0 for Financial Institutions
Web 2.0 for Financial Institutions
 
Text Pattern Formation For Information Extraction
Text Pattern Formation For Information ExtractionText Pattern Formation For Information Extraction
Text Pattern Formation For Information Extraction
 
Fm Mc Presentation Ria2008
Fm Mc   Presentation Ria2008Fm Mc   Presentation Ria2008
Fm Mc Presentation Ria2008
 
Coaching Movie Ppt Version Sample
Coaching Movie Ppt Version SampleCoaching Movie Ppt Version Sample
Coaching Movie Ppt Version Sample
 
Mentes Famosas
Mentes FamosasMentes Famosas
Mentes Famosas
 
Использование Гамма распределения при решении задачи классификации
Использование Гамма распределения при решении задачи классификацииИспользование Гамма распределения при решении задачи классификации
Использование Гамма распределения при решении задачи классификации
 
Martin karlssons vykortssamling st per
Martin karlssons vykortssamling   st perMartin karlssons vykortssamling   st per
Martin karlssons vykortssamling st per
 
Porla Paz
Porla PazPorla Paz
Porla Paz
 

Semelhante a применение шаблонов при выделении 2коллокаций

Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
Irene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
Yury Katkov
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделирование
Lidia Pivovarova
 

Semelhante a применение шаблонов при выделении 2коллокаций (12)

МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
clasification
clasificationclasification
clasification
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделирование
 
collocations in search
collocations in searchcollocations in search
collocations in search
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 

Mais de Lidia Pivovarova

Mais de Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

применение шаблонов при выделении 2коллокаций

  • 1. Применение шаблонов при выделении коллокаций Жильцов Д.И. (МИЭМ)
  • 2. Что такое шаблон? Под шалоном будем понимать комбинацию состоящую из нулей и единиц длиной k. Где k – длина словосочетания, а 1 в определенной позиции соответствуетслову из словосочетания в той же позиции, по которому будем объединять. Порог шаблона – такое число единиц, при котором шаблон считается валидным. В данной работе пороговое значение равно 50% от k. Коэффициент нормализации шаблона – значение равное количеству нулей. Пример: k = 6; порог = 3; 000111/001011/001101/…
  • 3. Материал и методика В качестве основного материала использовался неразмеченный корпус текста “РИА Новости”, содержащий более 200000000 словоупотреблений. На этапе морфологического анализа если наблюдалась омонимия, то использовалась первая из предложенных лемм, т.е. неодназначность разбора игнорировалась. MI или t-score? За счет того, что t-score является лишь несколько модифицированным ранжированием словосочетаний по частоте(Ягунова 2010), основной мерой была взята MI.
  • 4. Материал и методика.MI для словосочетаний длиной k n – слово - частота словосочетания - абсолютная частота слова в корпусе N – количество словоупотреблений в корпусе
  • 5. Материал и методика.S-MI для словосочетаний длиной k Алгоритм состоит из следующих этапов: С помощью морфологического анализа приводим все слова к каноническому виду, объединяя их в словосочетания и распределяя по правилам (группам) относительно их словоизменительной парадигмы. Состоявляем шаблоны для длины k с заданным порогом объединения. Для каждого словосочетания из правила вычисляем шаблон. Если количество сочетаний, входящих в шаблон, больше 3, переходим к 4 пункту, иначе – переходим к следующему словосочетанию или шаблону. Относительно полученного шаблона вычисляемдля каждого словосочетания меру MI и ищем сочетания с максимальной мерой. Назовем его - “главный представитель” шаблона. Вычисляем сумму частот всех словосочетаний и делим ее на коэфициент нормализации. Для главного представителя, предполагая, что не объединенные слова являются синонимами в данном контексте(корпусе), вычисляем меру MI, заменяя при этом собственную частоту на сумму из 5 пункта.
  • 6. Материал и методика.S-MI для коллокаций длиной k В результате получаем файл(ы) вида:
  • 11. В дальнейшем планируется: Найти связь между шаблоном длиною k и словосочетаниями большей и меньшей длины, за счет фиксированной части шаблона. Опробовать алгоритм для словоформ. Произвести не только количественную оценку, но и качественную - абстагироваться от частоты и уделить больше внимания правилам.