5. Применения датамайнинга:
• Бизнес
• Наука(CERN, например)
• Медицина
• Системы поддержки принятия решений
• Еще много разных применений…
6. Бизнес применение
• Любой современный бизнес порождает огромное
количество информации, содержащей в себе знания
• Если информацию правильно обработать или даже просто
представить, можно узнать о своей компании много
крайне интересных вещей и даже принять какие-то
важные решения
7. Научное применение
Там, где проводят эксперименты, всегда много данных,
которые надо обработать и слишком мало людей, которые
разбираются в данных.
8. Процесс датамайнинга
• Выбор данных
• Препроцессинг(подготовка данных)
• Датамайнинг
• Проверка
• Интерпретация/использование
9. Виды датамайнинга
Виды задач, которые обычно связывают с понятиями
датамайнинга и KDD:
• Выявление аномалий.
• Поиск внутренних зависимостей.
• Кластеризация.
• Классификация.
• Статистика, OLAP.
Люди(Человечество) накапливает информацию веками.Зачем оно это делает? Сама по себе информация не является ценностью – ценностью является то знание, которое она в себе содерждит. Информация содержит в себе знание.Знания люди используют для:Принятие решений.Опыт.Довольно долгое время у человечества всё было плохо с накоплением и хранением информации.Накопление большого количества информации затребовало методов её обработки – так появилась математическая статистика.
Ситуация начала меняться с появлением систем, которые могли бы ХРАНИТЬ И ОБРАБАТЫВАТЬ информациюПоявились базы данных.Вот тут статистика встретилась с алгоритмами.Внезапно узнать среднюю температуру по больнице стало возможным не за пару дней(перебирая амбулаторные карты больных), а за пару секунд(сделав SELECT AVG(t))
Поле пересечения компьютер-сайнс и статистики, процесс нахождения шаблонов в больших наборах данныхДатамайнинг использует техники из разделов искуственного интеллекта, машинного обучения, статистики и баз данных.Общая цель процесса датамайнинга - получить информацию из набора данных и преобразовать её в понятный вид для последующего использования.Помимо непосредственной аналитики используются такие вещи, как препроцессинг данных(подготовка) и визуализация.В жизни датамайнинг - это полностью автоматический или управляемый анализ большого количества данных с разными целями - извлечение прежде неизвестных интересных шаблонов, аномальных записей, зависимостей.
Мы с вами обязательно коснемся всех этих разделов.
Применения:Выявление мошеннических транзакцийВыявление интересных с научной точки зрения объектовВыявление ошибок
Основано на вероятностном анализе.«Рекомендательные системы»«Купите еще и это»
Разбиение товаров на группыАнализ социальных сетей – выявление сообществРаспределение процессов в многопоточных системах