2. Термин Data Mining часто
переводится как:
• добыча данных
•извлечение информации
•раскопка данных
•интеллектуальный
анализ данных
•средства
поиска закономерностей
•извлечение знаний
•анализ шаблонов
•раскопка знаний в
базах данных
•информационная
проходка данных
4. Статистика
• Базируется больше на
теории
•Более сосредоточено на
проверке гипотез
Машинное обучение
•Более эвристично
•Концентрируется на
улучшении работы
агентов обучения
Data Mining
•Интеграция теории и
эвристик
•Единый процесс
анализа данных,
включает
очистку данных,
обучение, интеграцию и
визуализацию
5. Возникновение и развитие Data Mining обусловлено различными
факторами, основными среди которых являются следующие:
•совершенствование аппаратного и
программного обеспечения;
•совершенствование технологий
хранения и записи данных;
•накопление большого количества
ретроспективных данных;
•совершенствование алгоритмов
обработки информации.
6. Суть и цель технологии Data
Mining можно охарактеризовать так:
это технология, которая
предназначена для поиска в больших
объемах данных неочевидных,
объективных и полезных на
практике закономерностей.
Data Mining - это процесс обнаружения в сырых данных ранее
неизвестных, нетривиальных, практически полезных и
доступных интерпретации знаний, необходимых для принятия
решений в различных сферах человеческой деятельности.
7. Неочевидных - это значит, что
найденные закономерности не
обнаруживаются стандартными
методами обработки информации или
экспертным путем.
Объективных - это значит, что
обнаруженные закономерности бу
дут полностью соответствовать
действительности, в отличие от
всегда субъективного экспертного
мнения
Практически полезных - это
значит, что выводы имеют
конкретное значение, которому
можно найти практическое
применение.
Знания -
совокупность
сведений, которая
образует целостное
описание,
соответствующее
некоторому уровню
осведомленности об
описываемом
вопросе, предмете,
проблеме и т.д.
Использование знаний -
действительное применение
найденных знаний для
достижения конкретных
преимуществ.
8. В основу технологии Data
Mining положена
концепция шаблонов (patterns),
которые представляют собой
закономерности, свойственные
подвыборкам данных, кои могут
быть выражены в форме, понятной
человеку.
"Mining" по-
английски
означает "добыча
полезных
ископаемых", а
поиск закономерн
остей в огромном
количестве
данных действите
льно сродни
этому процессу.
Цель
поиска закономер
ностей -
представление да
нных в виде,
отражающем
искомые
процессы.
9. Агентство Gartner Group, занимающееся
анализом рынков IT, в 1980-х ввело
термин "Business Intelligence" (BI), деловой
интеллект или бизнес-интеллект.
Этот термин предложен для описания
различных концепций и методов, которые
улучшают бизнес решения путем
использования систем поддержки
принятия решений.
Классификация
аналитических
систем
10. Понятие BI объединяет
в себе различные
средства и технологии
анализа и
обработки данных масш
таба предприятия. На
основе этих средств
создаются BI-системы,
цель которых -
повысить качество
информации для
принятия
управленческих
решений.
BI-системы также
известны под
названием Систем
Поддержки Принятия
Решений (СППР, DSS,
Decision Support
System). Эти системы
превращают данные в
информацию, на
основе которой можно
принимать решения,
т.е. поддерживающую
принятие решений.
11. Gartner Group определяет состав рынка систем Business
Intelligence как набор программных продуктов следующих
классов: •информационно-
аналитические
системы (Enterprise
Information Systems, EIS);
•средства
интеллектуального
анализа данных (data
mining);
•инструменты для
выполнения запросов и
построения отчетов
(query and reporting tools).
•средства
построения
хранилищ данных (da
ta warehousing, ХД);
•системы
оперативной
аналитической
обработки (OLAP);
12. Классификация Gartner
базируется на методе
функциональных задач,
где программные
продукты каждого класса
выполняют
определенный набор
функций или операций с
использованием
специальных
технологий.
13. Перспективы технологии Data Mining
Потенциал Data Mining дает "зеленый свет" для расширения границ применения
технологии. Относительно перспектив Data Mining возможны следующие направлени
развития:
выделение типов
предметных областей с
соответствующими им
эвристиками, их
формализация
создание
формальных
языков и
логических
средств их
автоматизация
для
формализации
рассуждений
преодоление
существенного отставания
возможностей
инструментальных
средств Data Mining от
теоретических достижений
создание методов Data
Mining, способных не
только извлекать
из данных закономернос
ти, но и формировать
некие теории,
опирающиеся на
эмпирические данные
14. В долгосрочной перспективе будущее Data
Mining является действительно
захватывающим - это может быть поиск
интеллектуальными агентами как новых
видов лечения различных заболеваний, так и
нового понимания природы вселенной.
Если рассматривать будущее Data Mining в краткосрочной перспективе,
то очевидно, что развитие этой технологии наиболее направлено к
областям, связанным с бизнесом.
В краткосрочной перспективе
продукты Data Mining могут стать
такими же обычными и
необходимыми, как электронная
почта, и, например, использоваться
пользователями для поиска самых
низких цен на определенный товар
или наиболее дешевых билетов.
15. Однако Data Mining таит в себе и потенциальную опасность - ведь все большее
количество информации становится доступным через всемирную сеть, в том
числе и сведения частного характера, и все больше знаний возможно добыть из
нее:
Новая методика позволяет прогнозировать будущие запросы на основании
фактов покупок и делать выводы об их назначении. Цель данной методики -
получение как можно большего количества информации о клиентах, в том числе
и частного характера.
Не так давно крупнейший онлайновый
магазин "Amazon" оказался в центре
скандала по поводу полученного им
патента "Методы и системы помощи
пользователям при покупке товаров",
который представляет собой продукт Data
Mining, предназначенный для сбора
персональных данных о посетителях
магазина.
16. •требуют решений, основанных
на знаниях;
•имеют изменяющуюся окружающую
среду;
•имеют доступные, достаточные и
значимые данные;
•обеспечивают высокие дивиденды от
правильных решений.
Исследования отмечают, что существуют как успешные решения,
использующие Data Mining, так и неудачный опыт применения этой
технологии. Области, где применения технологии Data Mining, скорее
всего, будут успешными, имеют такие особенности:
17. Практическое применение.
Мне показалось интересным рассмотреть применение Data Mining на
примере сервиса вебинаров, интегрированных с социальными
сетями.
Но интеграция с
социальными
сетями открывает
как перед
пользователями,
так и перед
компаниями
многочисленные
новые
возможности,
усиливая тем
самым ранее
существовавшие.
Сама по себе идея
вебинара не является
новой. Сейчас в России
и заграницей
существуют уже
сформировавшиеся
рынки компаний,
предоставляющих
подобный сервис.
18. На сегодняшний день
более 10 000 компаний
заводят свои профайлы на
Facebook.com. Такая
популярность объясняется
тем, что пользователи все
больше привыкают к
использованию социальных
сетей в качестве
своеобразного портала с
множеством возможностей,
покрывающих практически
все потребности.
Интеграция с вебинарами
является отражением этой
наиболее сильной
тенденции.
На данный момент сервисы
вебинаров,
интегрированные с
социальными сетями,
отсутствуют.
19. Задачи, решаемые c
помощью Data Mining
1. Классификация аудитории
и контента
2. Кластеризация
3. Сокращение описания
4. Ассоциация
5. Прогнозирование
6. Анализ отклонений
7. Визуализация.
20.
21. Заключение
В условиях увеличения активности Интернет-пользователей компаниям
необходимо кардинально менять свои стратегии развития, особенно связанные с
маркетингом. Для определения лучшего курса развития аналитики должны
обрабатывать огромное количество информации, что является очень
трудозатратным и малоэффективным процессом.
Использование технологии Data
Mining позволит значительно
сократить временные и денежные
затраты на выполнение этого
процесса, а также значительно
повысить это эффективность.
Это приведет к гораздо лучшему
осознанию потребностей клиентов,
в том числе потенциальных
пользователей, и приведет к
успешному развитию компании как в
плане интенсивного, так и за счет
экстенсивного роста