SlideShare uma empresa Scribd logo
1 de 25
Baixar para ler offline
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ПЛАН КУРСА 
• Введение в Data Mining 
• Узнаем больше о своих данных 
• Подготовка данных (preprocesing) 
• Хранилища данных 
• Поиск шаблонов в данных 
• Методы классификации 
• Методы кластеризации
ВВЕДЕНИЕ В DATA MINING
ЧТО ТАКОЕ DATA MINING 
• Data mining (с англ.) - добыча данных 
• Data mining - поиск знаний (или интересных 
шаблонов и закономерностей) в данных 
• Data mining - процесс поиска интересных 
шаблонов и новых знаний из большого 
количества данных
ПРОЦЕСС ПОЛУЧЕНИЯ 
ЗНАНИЙ ИЗ ДАННЫХ 
Хранилище Data mining Шаблоны 
данных 
БД 
файлы 
Знание
ОСНОВНЫЕ ЭТАПЫ 
• Очистка данных 
удаление шумов и противоречивых данных 
• Интеграция данных 
объединение данных из различных источников данных 
• Выбор данных 
только данные, имеющие отношение к поставленной задаче 
• Трансформация данных 
представление данных в формах, удобных для анализа и аггрегаций 
• Data mining 
применение различных методов для выделение шаблонов данных 
• Изучение шаблонов 
идентификация важных шаблонов, содержащих новые знания 
• Презентация знаний 
использование визуализации и других техник представления 
полученных знаний
КАКИЕ ШАБЛОНЫ МОГУТ 
БЫТЬ НАЙДЕНЫ? 
• описательные 
Описательные шаблоны характеризуют свойства 
данных в анализируемом наборе данных 
• предсказывающие 
Предсказывающие шаблоны позволяют 
используя анализируемый набор данных делать 
предсказания для других наборов данных
ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ 
Описание некоторого класса или концепции с помощью 
краткого и выразительного набора терминов 
• Такое описание может быть получено: 
• при помощи характеризации данных, путем краткого 
представления данных рассматриваемого класса (target 
class) в общих терминах 
• путем сравнения рассматриваемого класса с одним или 
несколькими альтернативными классами - дискриминация 
данных
ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую 
задачу: Описать характеристики клиентов, 
которые потратили больше $5000. 
• Результат: возраст 40-50 лет, работающие и 
имеющие высший кредитный рейтинг
ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую задачу: 
Сравнить характеристики пользователей, покупающих 
некоторую группу товаров часто (чаще 2 раз в месяц), и 
пользователей, которые покупают очень редко (менее 3 
раз в год). 
• Результат: 80% частых покупателей данной группы 
товаров имеют возраст 20-40 лет и высшее образование, 
в то время как 60% нечастых покупателей - пенсионеры 
или люди до 18 лет и без высшего образования. При 
более детальном анализе, например, можно сказать, что 
отличия двух рассматриваемых групп - уровень дохода.
ЧАСТЫЕ ШАБЛОНЫ 
Шаблоны, которые часто встречаются в данных: 
• подмножества 
Пример: хлеб и молоко покупаются вместе 
• последовательности 
Пример: сначала покупается ноутбук, потом цифровая камера, а 
потом карта памяти 
• структурные шаблоны (могут включать в себя последовательности 
и подмножества) 
Пример: покупается ноутбук вместе с чехлом, потом сканер, 
принтер или мфу, причем если купили принтер или мфу - то 
покупается бумага ежемесячно.
ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ 
• Менеджер рассматривает такую задачу: Найти товары, 
которые часто покупаются вместе. 
• Результат: 
покупка(X, “компьютер”) => покупка(X, “ПО”) 
[supp = 1%, conf = 50%] 
т.е. 1% всех покупок включает компьютер и ПО вместе, в 
50% случаев при покупке компьютера покупается и ПО. 
• supp(A) - относительное количество случаев, когда 
правило A выполняется (support) 
• conf(A=>B) - относительное количество случаев, когда 
выполняется B после A (confidence). conf(A=>B) = p(B|A)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Классификация - процесс поиска модели 
(или функции), которая описывает и отличает 
классы или концепции в данных 
• Пример: 
возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) 
возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) 
возраст(X, “средний”) => class(X, “C”) 
возраст(X, “старый”) => class(X, “C”)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Регрессионный анализ - статистическая методология, 
используемая для численного предсказания. 
• При классификации предсказывают сатегории (дискретные и без 
определенного порядка), а модели регрессии - непрерывные 
функции 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
КЛАСТЕРНЫЙ АНАЛИЗ 
• Кластерный анализ - процесс анализа данных 
без использования информации о их классах 
(например, когда такой информации просто нет) 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
ПОИСК АНОМАЛИЙ 
• Данные могут содержать элементы, которые не 
отвечают общему поведению или модели данных 
- аномалии (outliers). 
• Пример: 
100 
40 
1
КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС 
Интересные шаблоны должны: 
• быть легко понимаемы для человека 
• быть верными и для тестовых данных с некоторой степенью 
достоверности (valid) 
• быть потенциально полезными в решении рассматриваемой 
задачи (useful) 
• нести новое знание для исследователя (novel) 
• давать возможность предпринимать дейсвие на основе 
полученного знания (actionable)
ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ 
Machine Learning 
Data Mining 
Статистика 
Базы данных 
Хранилища 
данных 
Информационный 
поиск 
Приложения 
Распознание 
шаблонов 
Визуализация 
Алгоритмы 
HP 
вычисления
СТАТИСТИКА 
• Статистика изучает вопросы сбора, анализа, интерпретации 
и презентации данных 
• Статистическая модель - это набор математических 
функций, описывающий поведение объектов в 
рассматриваемом классе в терминах случайных переменных 
и их вероятностные распределения 
• Статистические модели могут быть результатом Data 
Mining 
• Статистические методы применяются для проверки и 
обоснования результатов Data Mining
MACHINE LEARNING 
• Machine Learning рассматривает вопросы как 
компьютер может учиться (или улучшать свою 
эффективность) основываясь на данных 
• Supervised learning - обучение с учителем. 
Рассматриваются в основном задачи классификации. 
И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е 
(классифицированные) данные. 
• Unsupervised learning - самостоятельное обучение. 
Рассматриваются в основном задачи кластеризации.
ОСНОВНЫЕ ПРОБЛЕМЫ 
DATA MINING 
• Разработка методологий 
• Взаимодействие с пользователем 
• Эффективность и масштабируемость 
• Разнообразие типов данных 
• Data Mining и общество
РАЗРАБОТКА МЕТОДОЛОГИЙ 
Исследователи, разрабатывая новые методы, 
учитывают следующие аспекты: 
• Получение новых типов знаний 
• Получение данных в пространствах многих 
измерений 
• Интеграция методов из многих дисциплин 
• Обработка зашумленных и неполных данных
ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ 
Пользователь играет одну из важных ролей в 
процессе Data Mining. Основными вопросами 
исследований являются: 
• Как взаимодействовать с системой Data Mining? 
• Как интегрировать предметные знания 
пользователей в процесс Data Mining? 
• Как представить и визуализировать результаты?
ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ 
Вопросы эффективности и масштабируемости всегда 
рассматриваются при сравнении различных алгоритмов Data Mining. 
• Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о 
масштабируемыми, чтобы иметь возможность добывать 
информацию из огромного количества данных. Время выполнения 
должно быть предсказуемо, ограничено и приемлемо для 
приложений 
• Map/Reduce. Часто применяется техника разделения данных на 
части, каждая из которых обрабатывается параллельно 
несколькими процессами (с возможностью взаимодействия). 
После обработки полученные шаблоны объединяются.
ЛИТЕРАТУРА 
• https://ru.wikipedia.org/wiki/Data_mining 
• Дюк В.А., Самойленко А.П. Data Mining. Учебный 
курс 
• Ситник В. Ф., Краснюк М. Т. Інтелектуальний 
аналіз даних (дейтамайнінг): Навч. посібник. 
• J. Han, M. Kamber, J. Pei Data Mining: Concepts and 
Techniques

Mais conteúdo relacionado

Mais procurados

Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиППAndrey Urusov
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Gleb Zakhodiakin
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийSergey Soshnikov
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)Technosphere1
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»ScienceHunter1
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение Anton Anokhin
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: ЗаключительнаяTechnosphere1
 

Mais procurados (10)

Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
 

Destaque

Detecting logged in user's abnormal activity
Detecting logged in user's abnormal activityDetecting logged in user's abnormal activity
Detecting logged in user's abnormal activityArvids Godjuks
 
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилData Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилBitworks Software
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Newprolab
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
 
Data-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningTsvetelina Miteva
 
Asturiasnaturalezaviva 24 10 07 An
Asturiasnaturalezaviva 24 10 07 AnAsturiasnaturalezaviva 24 10 07 An
Asturiasnaturalezaviva 24 10 07 Anguest23830b
 
Test driven infrastructure development (2 - puppetconf 2013 edition)
Test driven infrastructure development (2 - puppetconf 2013 edition)Test driven infrastructure development (2 - puppetconf 2013 edition)
Test driven infrastructure development (2 - puppetconf 2013 edition)Tomas Doran
 
Formula 1
Formula 1Formula 1
Formula 1albil
 
Επενδυτικός Νόμος
Επενδυτικός ΝόμοςΕπενδυτικός Νόμος
Επενδυτικός ΝόμοςAll about Business
 
10 errores a evitar en tu reputación online
10 errores a evitar en tu reputación online10 errores a evitar en tu reputación online
10 errores a evitar en tu reputación onlineVíctor Puig
 
Wat scheelt er met koning Filip?
Wat scheelt er met koning Filip?Wat scheelt er met koning Filip?
Wat scheelt er met koning Filip?Thierry Debels
 
Insider's Guide to SXSW-i
Insider's Guide to SXSW-iInsider's Guide to SXSW-i
Insider's Guide to SXSW-iMSL
 
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 201497th Floor
 
The Breaking Bad Guide to Storytelling
The Breaking Bad Guide to StorytellingThe Breaking Bad Guide to Storytelling
The Breaking Bad Guide to StorytellingKapost
 
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...David Novillo Ortiz, MLIS, PhD
 

Destaque (20)

Петров
Петров Петров
Петров
 
Detecting logged in user's abnormal activity
Detecting logged in user's abnormal activityDetecting logged in user's abnormal activity
Detecting logged in user's abnormal activity
 
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилData Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Data-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data mining
 
Asturiasnaturalezaviva 24 10 07 An
Asturiasnaturalezaviva 24 10 07 AnAsturiasnaturalezaviva 24 10 07 An
Asturiasnaturalezaviva 24 10 07 An
 
Test driven infrastructure development (2 - puppetconf 2013 edition)
Test driven infrastructure development (2 - puppetconf 2013 edition)Test driven infrastructure development (2 - puppetconf 2013 edition)
Test driven infrastructure development (2 - puppetconf 2013 edition)
 
Formula 1
Formula 1Formula 1
Formula 1
 
Επενδυτικός Νόμος
Επενδυτικός ΝόμοςΕπενδυτικός Νόμος
Επενδυτικός Νόμος
 
10 errores a evitar en tu reputación online
10 errores a evitar en tu reputación online10 errores a evitar en tu reputación online
10 errores a evitar en tu reputación online
 
Wat scheelt er met koning Filip?
Wat scheelt er met koning Filip?Wat scheelt er met koning Filip?
Wat scheelt er met koning Filip?
 
Insider's Guide to SXSW-i
Insider's Guide to SXSW-iInsider's Guide to SXSW-i
Insider's Guide to SXSW-i
 
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
 
The Breaking Bad Guide to Storytelling
The Breaking Bad Guide to StorytellingThe Breaking Bad Guide to Storytelling
The Breaking Bad Guide to Storytelling
 
Quick mockup
Quick mockupQuick mockup
Quick mockup
 
MADLat 2014 keynote
MADLat 2014 keynoteMADLat 2014 keynote
MADLat 2014 keynote
 
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
 
fidel casa
fidel casafidel casa
fidel casa
 
Leveraging social media for your marketing strategy
Leveraging social media for your marketing strategyLeveraging social media for your marketing strategy
Leveraging social media for your marketing strategy
 

Semelhante a Data Mining - lecture 1 - 2014

Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
 
Подход КРОК к построению MDM
Подход КРОК к построению MDMПодход КРОК к построению MDM
Подход КРОК к построению MDMКРОК
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data ScientistLeonid Zhukov
 
презентация 6 июля 2012
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012Sergiy Gladkyy
 
Структура и этапы проведения исследования
Структура и этапы проведения исследованияСтруктура и этапы проведения исследования
Структура и этапы проведения исследованияИрина Галкина
 
Технологии анализа и обработки данных
Технологии анализа и обработки данныхТехнологии анализа и обработки данных
Технологии анализа и обработки данныхКристина Обломова
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4 Valeriy Titov
 
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...Ирина Галкина
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Maxim Skryabin
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организацииAlexey Fedorischev
 
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsAlena Begler
 
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOXРоль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOXOWOX
 
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub-IT-School
 
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...Ирина Галкина
 
Internet life. Selfemployment in research
Internet life. Selfemployment in researchInternet life. Selfemployment in research
Internet life. Selfemployment in researchYaroslav Karasev
 

Semelhante a Data Mining - lecture 1 - 2014 (20)

Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
D1.03 ppt market research-v5
D1.03 ppt market research-v5D1.03 ppt market research-v5
D1.03 ppt market research-v5
 
Подход КРОК к построению MDM
Подход КРОК к построению MDMПодход КРОК к построению MDM
Подход КРОК к построению MDM
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
 
презентация 6 июля 2012
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012
 
Структура и этапы проведения исследования
Структура и этапы проведения исследованияСтруктура и этапы проведения исследования
Структура и этапы проведения исследования
 
Технологии анализа и обработки данных
Технологии анализа и обработки данныхТехнологии анализа и обработки данных
Технологии анализа и обработки данных
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4
 
01 введение 2012
01 введение 201201 введение 2012
01 введение 2012
 
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организации
 
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushrooms
 
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOXРоль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
 
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
 
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
 
Internet life. Selfemployment in research
Internet life. Selfemployment in researchInternet life. Selfemployment in research
Internet life. Selfemployment in research
 

Mais de Andrii Gakhov

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureAndrii Gakhov
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Andrii Gakhov
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Andrii Gakhov
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaAndrii Gakhov
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsAndrii Gakhov
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityAndrii Gakhov
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyAndrii Gakhov
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityAndrii Gakhov
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данныхAndrii Gakhov
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksAndrii Gakhov
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start GuideAndrii Gakhov
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlightsAndrii Gakhov
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcasesAndrii Gakhov
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferretAndrii Gakhov
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Andrii Gakhov
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Andrii Gakhov
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Andrii Gakhov
 

Mais de Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 1 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ПЛАН КУРСА • Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации
  • 4. ЧТО ТАКОЕ DATA MINING • Data mining (с англ.) - добыча данных • Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных • Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных
  • 5. ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ Хранилище Data mining Шаблоны данных БД файлы Знание
  • 6. ОСНОВНЫЕ ЭТАПЫ • Очистка данных удаление шумов и противоречивых данных • Интеграция данных объединение данных из различных источников данных • Выбор данных только данные, имеющие отношение к поставленной задаче • Трансформация данных представление данных в формах, удобных для анализа и аггрегаций • Data mining применение различных методов для выделение шаблонов данных • Изучение шаблонов идентификация важных шаблонов, содержащих новые знания • Презентация знаний использование визуализации и других техник представления полученных знаний
  • 7. КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ? • описательные Описательные шаблоны характеризуют свойства данных в анализируемом наборе данных • предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных
  • 8. ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов • Такое описание может быть получено: • при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах • путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных
  • 9. ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000. • Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг
  • 10. ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год). • Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.
  • 11. ЧАСТЫЕ ШАБЛОНЫ Шаблоны, которые часто встречаются в данных: • подмножества Пример: хлеб и молоко покупаются вместе • последовательности Пример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти • структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.
  • 12. ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ • Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе. • Результат: покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%] т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО. • supp(A) - относительное количество случаев, когда правило A выполняется (support) • conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)
  • 13. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных • Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”) возраст(X, “старый”) => class(X, “C”)
  • 14. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Регрессионный анализ - статистическая методология, используемая для численного предсказания. • При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 15. КЛАСТЕРНЫЙ АНАЛИЗ • Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет) 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 16. ПОИСК АНОМАЛИЙ • Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers). • Пример: 100 40 1
  • 17. КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС Интересные шаблоны должны: • быть легко понимаемы для человека • быть верными и для тестовых данных с некоторой степенью достоверности (valid) • быть потенциально полезными в решении рассматриваемой задачи (useful) • нести новое знание для исследователя (novel) • давать возможность предпринимать дейсвие на основе полученного знания (actionable)
  • 18. ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ Machine Learning Data Mining Статистика Базы данных Хранилища данных Информационный поиск Приложения Распознание шаблонов Визуализация Алгоритмы HP вычисления
  • 19. СТАТИСТИКА • Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных • Статистическая модель - это набор математических функций, описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения • Статистические модели могут быть результатом Data Mining • Статистические методы применяются для проверки и обоснования результатов Data Mining
  • 20. MACHINE LEARNING • Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных • Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные. • Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.
  • 21. ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING • Разработка методологий • Взаимодействие с пользователем • Эффективность и масштабируемость • Разнообразие типов данных • Data Mining и общество
  • 22. РАЗРАБОТКА МЕТОДОЛОГИЙ Исследователи, разрабатывая новые методы, учитывают следующие аспекты: • Получение новых типов знаний • Получение данных в пространствах многих измерений • Интеграция методов из многих дисциплин • Обработка зашумленных и неполных данных
  • 23. ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются: • Как взаимодействовать с системой Data Mining? • Как интегрировать предметные знания пользователей в процесс Data Mining? • Как представить и визуализировать результаты?
  • 24. ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining. • Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о масштабируемыми, чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений • Map/Reduce. Часто применяется техника разделения данных на части, каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.
  • 25. ЛИТЕРАТУРА • https://ru.wikipedia.org/wiki/Data_mining • Дюк В.А., Самойленко А.П. Data Mining. Учебный курс • Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. • J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques