03 кластеризация документов

Lidia Pivovarova
Lidia PivovarovaPostdoctoral Researcher, University of Helsinki em University of Helsinki
Кластеризация документов Лидия Михайловна Пивоварова Системы понимания текста
Введение ,[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка качества кластеризации ,[object Object],[object Object],[object Object],[object Object]
Матрица несоответствий ,[object Object],8 0 0 c 0 2 2 b 0 2 2 a C B A К Л А С Т Е Р Ы КЛАССЫ
Метрики заимствованные из информационного поиска ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],tn fn Ненайденные fp tp Найденные Нерелевантные Релевантные
Применительно к кластеризации ,[object Object],[object Object],[object Object]
Чистота ,[object Object],[object Object],[object Object]
Энтропия ,[object Object],[object Object]
Взаимная информация ,[object Object],[object Object],n Класс n h n h,l   Кластер n l
Стабильность ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Векторная модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Предобработка  ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Иерархическая кластеризация ,[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
«Разделяющая» кластеризация ,[object Object],[object Object],[object Object],[object Object]
Недостатки  kmeans ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Генеративные алгоритмы ,[object Object],[object Object]
Гауссова модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Гауссова модель ,[object Object],P(d|  θ ) -  вероятность того, что документ  d  принадлежит кластеру  θ , m –  размерность пространства,  μ  – центроид,  Σ  – матрица ковариации.  Общая вероятность (правдоподобие того, что данный документ описывается моделью): Задача кластеризации: максимизировать это число, максимизировав каждое из слагаемых (т.е. найдя наилучшее среднее и матрицу ковариации для каждого кластера).
Expectation maximization  ( EM -алгоритм) ,[object Object],[object Object],[object Object],[object Object]
EM -алгоритм ,[object Object],[object Object],[object Object],[object Object]
Модель фон Мисес-Фишера ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Спектральная кластеризация ,[object Object],[object Object],[object Object],[object Object]
Алгоритм  divide & merge ,[object Object],[object Object],[object Object],[object Object]
Алгоритм  divide & merge
Нечеткая совместная корреляция ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Снижение размерности ,[object Object],[object Object]
Метод главных компонентов ( PCA) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Метод главных компонентов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Неотрицательная факторизация  (NMF) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Мягкая спектральная кластеризация ,[object Object],[object Object]
Мягкая спектральная кластеризация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Lingo ,[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Модели с учетом порядка слов ,[object Object],[object Object],[object Object]
Кластеризация на основе суффиксных деревьев ,[object Object],[object Object],[object Object],[object Object],dog chased cat ,  dog chased mailman
Кластеризация на основе суффиксных деревьев ,[object Object],[object Object],[object Object],[object Object],[object Object]
Граф документа ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Заключение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Источники ,[object Object]
1 de 46

Recomendados

clasification por
clasificationclasification
clasificationNLPseminar
750 visualizações28 slides
02 классификация документов por
02 классификация документов02 классификация документов
02 классификация документовLidia Pivovarova
1.6K visualizações14 slides
Sem01 naivebayes por
Sem01 naivebayesSem01 naivebayes
Sem01 naivebayesBulat Suleymanov
130 visualizações62 slides
Моделирование Гуманитарных процессов. Лекция 6 por
Моделирование Гуманитарных процессов. Лекция 6Моделирование Гуманитарных процессов. Лекция 6
Моделирование Гуманитарных процессов. Лекция 6Andrei V, Zhuravlev
3.6K visualizações21 slides
интелектуальный анализ экономических данных в системе каркас por
интелектуальный анализ экономических данных в системе каркасинтелектуальный анализ экономических данных в системе каркас
интелектуальный анализ экономических данных в системе каркасVladimir Burdaev
436 visualizações33 slides
Java. Наследование. por
Java. Наследование.Java. Наследование.
Java. Наследование.Unguryan Vitaliy
9.6K visualizações23 slides

Mais conteúdo relacionado

Mais procurados

Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры" por
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Anamezon
305 visualizações30 slides
20111202 machine learning_nikolenko_lecture08 por
20111202 machine learning_nikolenko_lecture0820111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture08Computer Science Club
307 visualizações49 slides
Java. Вложенные классы и интерфейсы. por
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Unguryan Vitaliy
10.3K visualizações39 slides
Рефлексия в java por
Рефлексия в javaРефлексия в java
Рефлексия в javaUnguryan Vitaliy
2.4K visualizações10 slides

Mais procurados(9)

Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры" por Anamezon
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Anamezon305 visualizações
20111202 machine learning_nikolenko_lecture08 por Computer Science Club
20111202 machine learning_nikolenko_lecture0820111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture08
Computer Science Club307 visualizações
Java. Вложенные классы и интерфейсы. por Unguryan Vitaliy
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.
Unguryan Vitaliy10.3K visualizações
Рефлексия в java por Unguryan Vitaliy
Рефлексия в javaРефлексия в java
Рефлексия в java
Unguryan Vitaliy2.4K visualizações
Java. Полиморфизм. por Unguryan Vitaliy
Java. Полиморфизм.Java. Полиморфизм.
Java. Полиморфизм.
Unguryan Vitaliy10.5K visualizações
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про... por ЗПШ СПбГУ
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
ЗПШ СПбГУ226 visualizações

Destaque

עיר הטילים בצפון סוריה por
עיר הטילים בצפון סוריהעיר הטילים בצפון סוריה
עיר הטילים בצפון סוריהguestac9594
671 visualizações33 slides
Pecha Kucha Slideshow por
Pecha Kucha SlideshowPecha Kucha Slideshow
Pecha Kucha SlideshowPharuben
202 visualizações15 slides
Autopagerize on Firefox and Google Chrome por
Autopagerize on Firefox and Google ChromeAutopagerize on Firefox and Google Chrome
Autopagerize on Firefox and Google Chromeswdyh
1.4K visualizações41 slides
M1. sem web & ontology introd por
M1. sem web & ontology introdM1. sem web & ontology introd
M1. sem web & ontology introdMichele Missikoff
415 visualizações44 slides
PLC-Word Choice por
PLC-Word ChoicePLC-Word Choice
PLC-Word ChoiceHoly Trinity RCSSD #22
2.1K visualizações15 slides
1 por
11
1newprofitinc
557 visualizações10 slides

Destaque(20)

עיר הטילים בצפון סוריה por guestac9594
עיר הטילים בצפון סוריהעיר הטילים בצפון סוריה
עיר הטילים בצפון סוריה
guestac9594671 visualizações
Pecha Kucha Slideshow por Pharuben
Pecha Kucha SlideshowPecha Kucha Slideshow
Pecha Kucha Slideshow
Pharuben202 visualizações
Autopagerize on Firefox and Google Chrome por swdyh
Autopagerize on Firefox and Google ChromeAutopagerize on Firefox and Google Chrome
Autopagerize on Firefox and Google Chrome
swdyh1.4K visualizações
M1. sem web & ontology introd por Michele Missikoff
M1. sem web & ontology introdM1. sem web & ontology introd
M1. sem web & ontology introd
Michele Missikoff415 visualizações
1 por newprofitinc
11
1
newprofitinc557 visualizações
Aapt 2008 por Rudy Garns
Aapt 2008Aapt 2008
Aapt 2008
Rudy Garns510 visualizações
Challenging employeesmodernsamplefinal por Andrew Schwartz
Challenging employeesmodernsamplefinalChallenging employeesmodernsamplefinal
Challenging employeesmodernsamplefinal
Andrew Schwartz478 visualizações
Polovinka Lm Prezentaciya Vchitelya por LarisaMP
Polovinka Lm Prezentaciya VchitelyaPolovinka Lm Prezentaciya Vchitelya
Polovinka Lm Prezentaciya Vchitelya
LarisaMP199 visualizações
Norway PowerPoint Content por Andrew Schwartz
Norway PowerPoint Content Norway PowerPoint Content
Norway PowerPoint Content
Andrew Schwartz1K visualizações
Olympic Games por gueste8cfa7
Olympic GamesOlympic Games
Olympic Games
gueste8cfa7464 visualizações
Knowledge management: Inspire Part 2 por MattthewParsons
Knowledge management: Inspire Part 2Knowledge management: Inspire Part 2
Knowledge management: Inspire Part 2
MattthewParsons342 visualizações
De Ale Ingerilor por Florin Stoica
De Ale IngerilorDe Ale Ingerilor
De Ale Ingerilor
Florin Stoica960 visualizações
Do s2015 08 por Melanio Florino
Do s2015 08Do s2015 08
Do s2015 08
Melanio Florino211 visualizações
La5 Programming por Cma Mohd
La5 ProgrammingLa5 Programming
La5 Programming
Cma Mohd503 visualizações
Cand... por Florin Stoica
Cand...Cand...
Cand...
Florin Stoica709 visualizações
孩子的心 por nonnon
孩子的心孩子的心
孩子的心
nonnon701 visualizações
Vidadedecasado 1 2 3 4 por Henry Pimentel Abud
Vidadedecasado 1 2 3 4Vidadedecasado 1 2 3 4
Vidadedecasado 1 2 3 4
Henry Pimentel Abud254 visualizações

Similar a 03 кластеризация документов

Karkas интеллектуальный анализ por
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализVladimir Burdaev
327 visualizações20 slides
Введение в машинное обучение por
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
2.4K visualizações111 slides
Практический курс «Основы Data Mining для всех» por
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»ScienceHunter1
333 visualizações45 slides
Geo sib 2012 por
Geo sib 2012Geo sib 2012
Geo sib 2012InterExpo Geo-siberia
328 visualizações26 slides
Алгоритмы классификации в машинном обучении por
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииWitology
2.4K visualizações28 slides
Razinkov por
RazinkovRazinkov
Razinkovsirchaplin
163 visualizações32 slides

Similar a 03 кластеризация документов(20)

Karkas интеллектуальный анализ por Vladimir Burdaev
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализ
Vladimir Burdaev327 visualizações
Введение в машинное обучение por Grigory Sapunov
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
Grigory Sapunov2.4K visualizações
Практический курс «Основы Data Mining для всех» por ScienceHunter1
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
ScienceHunter1333 visualizações
Алгоритмы классификации в машинном обучении por Witology
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обучении
Witology2.4K visualizações
Razinkov por sirchaplin
RazinkovRazinkov
Razinkov
sirchaplin163 visualizações
Razinkov por sirchaplin
RazinkovRazinkov
Razinkov
sirchaplin269 visualizações
L7:Задача кластеризации. Метрики качества por Technosphere1
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
Technosphere11.7K visualizações
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами por Yandex
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Yandex1.5K visualizações
Лекция 6_принципы ООП : инкапсуляция, наследование por metaform
Лекция 6_принципы ООП : инкапсуляция, наследованиеЛекция 6_принципы ООП : инкапсуляция, наследование
Лекция 6_принципы ООП : инкапсуляция, наследование
metaform6.9K visualizações
Типы данных por MonsterXX
Типы данныхТипы данных
Типы данных
MonsterXX167 visualizações
основы ооп por Dmitry Savin
основы оопосновы ооп
основы ооп
Dmitry Savin1.5K visualizações
Конспект лекций по курсу "Шаблоны разработки ПО" por Sergey Nemchinsky
Конспект лекций по курсу "Шаблоны разработки ПО"Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"
Sergey Nemchinsky7.9K visualizações
Deep Learning and Convolutional Networks por AlignedResearch
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
AlignedResearch282 visualizações
лекция 2.docx por ssuser090a572
лекция 2.docxлекция 2.docx
лекция 2.docx
ssuser090a57211 visualizações
Классификация текстовых документов на естественных языках por Сергей Пономарев
Классификация текстовых документов на естественных языкахКлассификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языках
Сергей Пономарев281 visualizações
Технологический стек классификации текстов на естественных языках por Сергей Пономарев
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
Сергей Пономарев2.3K visualizações

Mais de Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering... por
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
189 visualizações39 slides
Convolutional neural networks for text classification por
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
1.3K visualizações24 slides
Grouping business news stories based on salience of named entities por
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
204 visualizações27 slides
Интеллектуальный анализ текста por
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
986 visualizações52 slides
AINL 2016: Yagunova por
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: YagunovaLidia Pivovarova
549 visualizações29 slides
AINL 2016: Kuznetsova por
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: KuznetsovaLidia Pivovarova
407 visualizações29 slides

Mais de Lidia Pivovarova(20)

Classification and clustering in media monitoring: from knowledge engineering... por Lidia Pivovarova
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
Lidia Pivovarova189 visualizações
Convolutional neural networks for text classification por Lidia Pivovarova
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
Lidia Pivovarova1.3K visualizações
Grouping business news stories based on salience of named entities por Lidia Pivovarova
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
Lidia Pivovarova204 visualizações
Интеллектуальный анализ текста por Lidia Pivovarova
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
Lidia Pivovarova986 visualizações
AINL 2016: Yagunova por Lidia Pivovarova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
Lidia Pivovarova549 visualizações
AINL 2016: Kuznetsova por Lidia Pivovarova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
Lidia Pivovarova407 visualizações
AINL 2016: Bodrunova, Blekanov, Maksimov por Lidia Pivovarova
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
Lidia Pivovarova615 visualizações
AINL 2016: Boldyreva por Lidia Pivovarova
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
Lidia Pivovarova389 visualizações
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr... por Lidia Pivovarova
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
Lidia Pivovarova400 visualizações
AINL 2016: Kozerenko por Lidia Pivovarova
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
Lidia Pivovarova399 visualizações
AINL 2016: Shavrina, Selegey por Lidia Pivovarova
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
Lidia Pivovarova154 visualizações
AINL 2016: Khudobakhshov por Lidia Pivovarova
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
Lidia Pivovarova340 visualizações
AINL 2016: Proncheva por Lidia Pivovarova
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
Lidia Pivovarova404 visualizações
AINL 2016: por Lidia Pivovarova
AINL 2016: AINL 2016:
AINL 2016:
Lidia Pivovarova235 visualizações
AINL 2016: Bugaychenko por Lidia Pivovarova
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
Lidia Pivovarova354 visualizações
AINL 2016: Grigorieva por Lidia Pivovarova
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
Lidia Pivovarova224 visualizações
AINL 2016: Muravyov por Lidia Pivovarova
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
Lidia Pivovarova464 visualizações
AINL 2016: Just AI por Lidia Pivovarova
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
Lidia Pivovarova508 visualizações
AINL 2016: Moskvichev por Lidia Pivovarova
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
Lidia Pivovarova381 visualizações
AINL 2016: Goncharov por Lidia Pivovarova
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
Lidia Pivovarova379 visualizações

03 кластеризация документов