2. А. Федоровский Методы кластеризации
Обучение без учителя
Группировка объектов по похожести.
Задача кластеризации обычно поставлена нечетко:
• Неизвестны свойства классов
• Неизвестно их количество
• Неизвестно, есть ли они вообще
• Нет обучающей выборки
• Нет очевидных критериев качества
• Зато обычно есть множество эвристик
3. А. Федоровский Методы кластеризации
Результат
• Разбиение объектов на группы
• Нахождение типичных точечных представителей
классов (объекты, центроиды)
• Нахождение нетипичных представителей классов
(выбросы)
• Построение полной иерархии групп объектов
(таксономия)
5. А. Федоровский Методы кластеризации
Уменьшение размерности
Для большинства алгоритмов слишком большая
размерность критична.
Какие есть способы снижения размерности?
6. А. Федоровский Методы кластеризации
Уменьшение размерности
Для большинства алгоритмов слишком большая
размерность критична.
• Выбор признаков
• Частотность слов
• Information gain
• Feature extraction
7. А. Федоровский Методы кластеризации
Виды кластеров
• Сферические
• Гауссовы
• Ленточные
• Содержащие перемычки
• Содержащие фон
• Перекрывающиеся
20. А. Федоровский Методы кластеризации
Муки выбора
Иерархический лучше, когда нужна таксономия.
Кстати, она позволяет менять k на лету.
K-means – когда есть оценка числа кластеров и/или кластера
сферические. И лучше провести несколько раундов с разными
начальными значениями и разными k.
DBSTAT – кластера ленточные или линейно неразделимые
и/или сильно зашумленные данные.
Помогут также пре-кластеризация, такая как canopy clustering
или гибридные методы.
Если есть возможность получить обучающую коллекцию –
надо брать.
21. Вопросы?
Андрей Федоровский
fedorovsky@gmail.com