SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Data mining

Дмитрий Никотин
http://meetmarket.ru/
dmitrynikotin@gmail.com
Данных все больше и больше
Управленец
не может вручную обработать большие
массивы данных и принять решение
Проблема
Проблема
имеется достаточно крупная база данных
Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*
«скрытые знания»*
1.

ранее не известные — то есть такие знания, которые должны
быть новыми (а не подтверждающими какие-то ранее
полученные сведения);

2.

нетривиальные — то есть такие, которые нельзя просто так
увидеть (при непосредственном визуальном анализе данных или
при вычислении простых статистических характеристик);

3.

практически полезные — то есть такие знания, которые
представляют ценность для исследователя или потребителя;

4.

доступные для интерпретации — то есть такие знания, которые
легко представить в наглядной для пользователя форме и легко
объяснить в терминах предметной области.
Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*

Цель
Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*

Цель
Обнаружить «знания»*, скрытые в больших объёмах
исходных «сырых» данных
«знания»*

• исходные данные (сырые данные) – необработанные массивы
данных, получаемые в результате наблюдения за некой
динамической системой (например, данные о котировках акций за
прошедший год);
• информация – обработанные данные, которые несут в себе некую
информационную ценность для пользователя; сырые данные,
представленные в более компактном виде;
• знания —отображают скрытые взаимосвязи межу объектами,
которые не являются общедоступными (в противном случае, это
будет просто информация).
Data mining
Data mining
Извлечение знаний
Задачи, решаемые методами
Data Mining
• Классификация — отнесение входного вектора (объекта, события,
наблюдения) к одному из заранее известных классов.
• Кластеризация — разделение множества входных векторов на группы
(кластеры) по степени «похожести» друг на друга.
• Сокращение описания — для визуализации данных, упрощения счета и
интерпретации, сжатия объемов собираемой и хранимой информации.
• Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых
связей в корзине покупателя».
• Прогнозирование – нахождение будущих состояний объекта на основании
предыдущих состояний (исторических данных)
• Анализ отклонений — например, выявление нетипичной сетевой активности
позволяет обнаружить вредоносные программы.
• Визуализация данных.
Инструменты
Data Mining
В опросе приняли участие
1880 специалистов
Самый большой объем данных для анализа?
Применение
Data mining
Пример 1. Ритейл (торговые сети)

Дано:
1. Большая торговая сеть имеет сотни магазинов по всей РФ,
десятки тысяч активных товаров.
2. Данные о продажах каждого товара в каждом конкретном
магазине в каждый момент времени (день или час) хранится в
учетной системе компании.
3. Торговая сеть ежедневно должна заказывать товары в свои
магазины.
Проблема:
Ежедневно в матрице, например [5000 Х 10 000] должно стоять
значение — сколько везти этого товара?
Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.

Источник:
www.walmart.com
Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.

Никакая армия аналитиков и товароведов
не справятся с решениям такой задачи.
Источник:
www.walmart.com
Зачем?
1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за
дефицита (и потеряет наценочную стоимость).

2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит
УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств,
порчи товара после истечения срока годности.
В цифрах
ФАКТ: улучшение прогнозирующей модели способно снизить
издержки торговой сети на 1-2 процента от оборота.

Оборот

▲ $408,1 млрд (2010 год)

2% - 8,160,000,000
2% - 8,160,000,000
Олег Владимирович Дерипаска - 14 место среди миллиардеров России
Пример 2. Образование

Educational Data Mining
Пример 2. Образование

Educational Data Mining
методы исследования данных, использующихся в образовательных
целях, для принятия решений в сфере образования.
Цель
улучшить образовательный процесс
Цель
улучшить образовательный процесс
•
•
•

направить студентов в нужное русло
дать рекомендации преподавателям
понять феномен образования
Как?
Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)
Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)

Традиционная система
(университет,школа)
Тоже возможно, но в данном случае мы обладаем очень разобщенной и
недостаточной информацией на данный момент
Методы
Помимо стандартных методов :
• кластеризации
• классификации
• регрессии
• корреляции
• визуализации
• Статистики
В EDM используются и некоторые специфичные, например, из
области психометрики.
Зачем?
помогают разбивать студентов на группы
по восприятию информации*
позволяет адаптировать образовательный
процесс под студента
подбирать соответствующий тип контента и
определённым образом его организовывать
Проект в сфере онлайн-образования, основанный профессорами Стэнфордского
университета Эндрю Нг и Дафной Келлер.
Посещаемость – 2.7 млн человек
Текущий статус – публичное бета тестирование
Целевая аудитория
У нас есть студент, который хочет понять как
управлять персоналом.
Когда студент хочет получить знания в интернете – он использует
образовательную онлайн систему.
Она взаимодействует со студентом, обеспечивая
индивидуализированный контент и адаптированную помощь.

Источник: информация об обучении и его личных данных, которые он
заполняет в профиле или из ответов на анкеты курсов.
Система собирает детализированную информацию о том, какой контент
студент открывает чаще всего (задание, видео, текст).
А также скорость, длительность и частоту его просмотра.
После сохраняет в базу данных.
Полученная информация обрабатывается и основываясь на полученных
моделях обучения, система пытается наилучшим образом адаптировать
курс под студента.
Также система может дать рекомендации других курсов. Существует
огромное количество рекомендационных алгоритмов*, которые можно
использовать.
Если система видит, что студент очень быстро справляется с домашними
заданиями, быстро проматывает учебный материал, то она может
предложить ему “обходные” (сокращённые) пути прохождения курса —
более сложные задания, прохождение на более сложную ступень при
сдаче экзамена и пр.
В ином случае она поможет сгенерировать адаптированную
подсказку.
Если у студента возникли проблемы с какой-то частью курса ( это
можно понять на основе ошибок в домашних заданиях и вопросам на
форуме)

Система может дать рекомендацию по дополнительному материалу
или перенаправить его на соответствующую главу.
У нас есть преподаватель, который хочет улучшить
курс.
При создании курса, основываясь на анализе уже имеющихся курсов,
преподаватель сможет заранее предсказывать поведение студента и
адаптировать материал под его нужды.
Во время курса очень важно получать фитбек (ответную реакцию) о
процессе обучения. Например, это может быть интегральная оценка или
динамика работы студентов по курсу.
Также у преподавателя есть возможность классифицировать обучающихся
по группам, например, по успеваемости, активности, полу, возрасту,
бекграунду и пр.
Система предоставляет инструменты для частоты и распределения
ошибок, которые совершают студенты.
С помощью дополнительных параметров, например таких как
просмотренные темы, предыдущие оценки, возможно понять причины
ошибок.
Автоматически создавать модели студента и наставника.
Основываясь на данных о преподавателях и студентах, здесь как раз помогут
психометрики, можно подбирать наилучшие комбинации студент-наставник, что
должно повысить усваиваемость материала.
В заключение об использовании EDM
Основные направления, по которым ведутся разработки, можно посмотреть на
диаграмме. Данные собраны по 300 работам до 2009 года.
Пример 3. Data mining на службе у HR

Microsoft и IBM и Google сейчас используют программы для математического
анализа ценности каждого отдельного сотрудника.

Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и
прочих каналов коммуникации — с распознаванием эмоций, поведенческих
привычек и прочих невербальных характеристик каждого пользователя.
Data mining
Будущее здесь
Обсудим?
• vk.com/dmitry_nikotin
• facebook.com/dmitry.nikotin
• twitter.com/Dmitry_Nikotin

dmitrynikotin@gmail.com

Mais conteúdo relacionado

Mais procurados

L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
Technosphere1
 
Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...
Андрей Четвериков
 

Mais procurados (13)

Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
 
Прогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementПрогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand Management
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
 
Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014
 

Destaque

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Стас Поломарь
 
Mining Methods
Mining MethodsMining Methods
Mining Methods
VR M
 

Destaque (9)

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
 
YOCoin PowerPoint Presentation
YOCoin PowerPoint PresentationYOCoin PowerPoint Presentation
YOCoin PowerPoint Presentation
 
POTENTIAL ENVIRONMENTAL IMPACTS OF MINING
POTENTIAL ENVIRONMENTAL IMPACTS OF MININGPOTENTIAL ENVIRONMENTAL IMPACTS OF MINING
POTENTIAL ENVIRONMENTAL IMPACTS OF MINING
 
Cryptocurrencies - A Serious Introduction
Cryptocurrencies - A Serious IntroductionCryptocurrencies - A Serious Introduction
Cryptocurrencies - A Serious Introduction
 
Understanding Cryptocurrency
Understanding CryptocurrencyUnderstanding Cryptocurrency
Understanding Cryptocurrency
 
Aflowt by Vzljot Group
Aflowt by Vzljot GroupAflowt by Vzljot Group
Aflowt by Vzljot Group
 
Mining
MiningMining
Mining
 
Mining ppt 2014
Mining ppt 2014Mining ppt 2014
Mining ppt 2014
 
Mining Methods
Mining MethodsMining Methods
Mining Methods
 

Semelhante a Data mining

десять шагов, которые потрясли мир
десять шагов, которые потрясли мирдесять шагов, которые потрясли мир
десять шагов, которые потрясли мир
Елена Смутнева
 
презентация 6 июля 2012
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012
Sergiy Gladkyy
 
Prezentatsia
PrezentatsiaPrezentatsia
Prezentatsia
sanchoys
 
Microsoft сниппп казань
Microsoft сниппп казаньMicrosoft сниппп казань
Microsoft сниппп казань
Airat Yusupov
 
Юлюшин Л.С. - Критерии оценки исследовательских проектов
Юлюшин Л.С. - Критерии оценки исследовательских проектовЮлюшин Л.С. - Критерии оценки исследовательских проектов
Юлюшин Л.С. - Критерии оценки исследовательских проектов
Школьная лига РОСНАНО
 
теорії навчання2012 ru
теорії навчання2012 ruтеорії навчання2012 ru
теорії навчання2012 ru
Vladimir Kukharenko
 

Semelhante a Data mining (20)

Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
 
24.практическая работа по информатике «работа с www. поиск информации в интер...
24.практическая работа по информатике «работа с www. поиск информации в интер...24.практическая работа по информатике «работа с www. поиск информации в интер...
24.практическая работа по информатике «работа с www. поиск информации в интер...
 
десять шагов, которые потрясли мир
десять шагов, которые потрясли мирдесять шагов, которые потрясли мир
десять шагов, которые потрясли мир
 
Перспективы развития исследований и принципы работы с информацией
Перспективы развития исследований и принципы работы с информациейПерспективы развития исследований и принципы работы с информацией
Перспективы развития исследований и принципы работы с информацией
 
презентация 6 июля 2012
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»
 
методология Rapid foresight
методология Rapid foresightметодология Rapid foresight
методология Rapid foresight
 
Prezentatsia
PrezentatsiaPrezentatsia
Prezentatsia
 
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushrooms
 
обоснование нирм
обоснование нирмобоснование нирм
обоснование нирм
 
Microsoft сниппп казань
Microsoft сниппп казаньMicrosoft сниппп казань
Microsoft сниппп казань
 
Проектирование программных систем. Занятие 2
Проектирование программных систем. Занятие 2Проектирование программных систем. Занятие 2
Проектирование программных систем. Занятие 2
 
Как заставить работать статистику интернет магазина: технологии DataMining
Как заставить работать статистику интернет магазина: технологии DataMiningКак заставить работать статистику интернет магазина: технологии DataMining
Как заставить работать статистику интернет магазина: технологии DataMining
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
 
икт в нач школе 2011
икт в нач школе 2011икт в нач школе 2011
икт в нач школе 2011
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)
 
Юлюшин Л.С. - Критерии оценки исследовательских проектов
Юлюшин Л.С. - Критерии оценки исследовательских проектовЮлюшин Л.С. - Критерии оценки исследовательских проектов
Юлюшин Л.С. - Критерии оценки исследовательских проектов
 
вебинар плдо в 2012-13 уч
вебинар плдо в 2012-13 учвебинар плдо в 2012-13 уч
вебинар плдо в 2012-13 уч
 
теорії навчання2012 ru
теорії навчання2012 ruтеорії навчання2012 ru
теорії навчання2012 ru
 
протасов
протасовпротасов
протасов
 

Mais de Dmitry Nikotin

Образовательный проект Дмитрия Никотина
Образовательный проект Дмитрия НикотинаОбразовательный проект Дмитрия Никотина
Образовательный проект Дмитрия Никотина
Dmitry Nikotin
 
Студенческие проекты в Волгоградском филиале РАНХиГС
Студенческие проекты в Волгоградском филиале РАНХиГССтуденческие проекты в Волгоградском филиале РАНХиГС
Студенческие проекты в Волгоградском филиале РАНХиГС
Dmitry Nikotin
 

Mais de Dmitry Nikotin (20)

Президентские праймериз в США 2016
Президентские праймериз в США 2016Президентские праймериз в США 2016
Президентские праймериз в США 2016
 
Конкурсы в социальных сетях - кейсы и советы
Конкурсы в социальных сетях - кейсы и советыКонкурсы в социальных сетях - кейсы и советы
Конкурсы в социальных сетях - кейсы и советы
 
Юзабилити или как сделать ваш сайт идеальным
Юзабилити или как сделать ваш сайт идеальнымЮзабилити или как сделать ваш сайт идеальным
Юзабилити или как сделать ваш сайт идеальным
 
Эволюция контента в Social Media
Эволюция контента в Social MediaЭволюция контента в Social Media
Эволюция контента в Social Media
 
Youtube Marketing - my fantastic results
Youtube Marketing - my fantastic resultsYoutube Marketing - my fantastic results
Youtube Marketing - my fantastic results
 
Война брендов: бизнес на костях
Война брендов: бизнес на костяхВойна брендов: бизнес на костях
Война брендов: бизнес на костях
 
Теории происхождения человека
Теории происхождения человекаТеории происхождения человека
Теории происхождения человека
 
Social media is dead - перевод на русский язык
Social media is dead - перевод на русский языкSocial media is dead - перевод на русский язык
Social media is dead - перевод на русский язык
 
Luxury branding
Luxury brandingLuxury branding
Luxury branding
 
Product Placement
Product Placement Product Placement
Product Placement
 
Избирательная кампания Алексея Навального (выборы мэра Москвы 2013)
Избирательная кампания Алексея Навального (выборы мэра Москвы 2013)Избирательная кампания Алексея Навального (выборы мэра Москвы 2013)
Избирательная кампания Алексея Навального (выборы мэра Москвы 2013)
 
Персональный брендинг
Персональный брендингПерсональный брендинг
Персональный брендинг
 
Харизма стартапа
Харизма стартапаХаризма стартапа
Харизма стартапа
 
Маркетинг и фиолетовая корова
Маркетинг и фиолетовая короваМаркетинг и фиолетовая корова
Маркетинг и фиолетовая корова
 
К чертям разговоры или как выступать публично
К чертям разговоры или как выступать публичноК чертям разговоры или как выступать публично
К чертям разговоры или как выступать публично
 
Выступай как артист
Выступай как артистВыступай как артист
Выступай как артист
 
Social Media: новая надежда для бизнеса?
Social Media: новая надежда для бизнеса?Social Media: новая надежда для бизнеса?
Social Media: новая надежда для бизнеса?
 
Образовательный проект Дмитрия Никотина
Образовательный проект Дмитрия НикотинаОбразовательный проект Дмитрия Никотина
Образовательный проект Дмитрия Никотина
 
Студенческие проекты в Волгоградском филиале РАНХиГС
Студенческие проекты в Волгоградском филиале РАНХиГССтуденческие проекты в Волгоградском филиале РАНХиГС
Студенческие проекты в Волгоградском филиале РАНХиГС
 
Логотип - сердце корпоративной индивидуальности
Логотип - сердце корпоративной индивидуальностиЛоготип - сердце корпоративной индивидуальности
Логотип - сердце корпоративной индивидуальности
 

Data mining

  • 3. Управленец не может вручную обработать большие массивы данных и принять решение
  • 6. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»*
  • 7. «скрытые знания»* 1. ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения); 2. нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик); 3. практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя; 4. доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
  • 8. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»* Цель
  • 9. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»* Цель Обнаружить «знания»*, скрытые в больших объёмах исходных «сырых» данных
  • 10. «знания»* • исходные данные (сырые данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой (например, данные о котировках акций за прошедший год); • информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде; • знания —отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация).
  • 14. • Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. • Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. • Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации. • Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя». • Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных) • Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. • Визуализация данных.
  • 16. В опросе приняли участие 1880 специалистов
  • 17. Самый большой объем данных для анализа?
  • 19. Пример 1. Ритейл (торговые сети) Дано: 1. Большая торговая сеть имеет сотни магазинов по всей РФ, десятки тысяч активных товаров. 2. Данные о продажах каждого товара в каждом конкретном магазине в каждый момент времени (день или час) хранится в учетной системе компании. 3. Торговая сеть ежедневно должна заказывать товары в свои магазины. Проблема: Ежедневно в матрице, например [5000 Х 10 000] должно стоять значение — сколько везти этого товара?
  • 20. Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара? например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит более 10130 магазинов. • Walmart - имеет более 1.000.000 наименований продукции. Источник: www.walmart.com
  • 21. Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара? например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит более 10130 магазинов. • Walmart - имеет более 1.000.000 наименований продукции. Никакая армия аналитиков и товароведов не справятся с решениям такой задачи. Источник: www.walmart.com
  • 23. 1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за дефицита (и потеряет наценочную стоимость). 2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств, порчи товара после истечения срока годности.
  • 25. ФАКТ: улучшение прогнозирующей модели способно снизить издержки торговой сети на 1-2 процента от оборота. Оборот ▲ $408,1 млрд (2010 год) 2% - 8,160,000,000
  • 26. 2% - 8,160,000,000 Олег Владимирович Дерипаска - 14 место среди миллиардеров России
  • 28. Пример 2. Образование Educational Data Mining методы исследования данных, использующихся в образовательных целях, для принятия решений в сфере образования.
  • 30. Цель улучшить образовательный процесс • • • направить студентов в нужное русло дать рекомендации преподавателям понять феномен образования
  • 32. Онлайн система Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)
  • 33. Онлайн система Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое) Традиционная система (университет,школа) Тоже возможно, но в данном случае мы обладаем очень разобщенной и недостаточной информацией на данный момент
  • 34. Методы Помимо стандартных методов : • кластеризации • классификации • регрессии • корреляции • визуализации • Статистики В EDM используются и некоторые специфичные, например, из области психометрики.
  • 35. Зачем? помогают разбивать студентов на группы по восприятию информации*
  • 36. позволяет адаптировать образовательный процесс под студента подбирать соответствующий тип контента и определённым образом его организовывать
  • 37. Проект в сфере онлайн-образования, основанный профессорами Стэнфордского университета Эндрю Нг и Дафной Келлер. Посещаемость – 2.7 млн человек Текущий статус – публичное бета тестирование
  • 39. У нас есть студент, который хочет понять как управлять персоналом.
  • 40. Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь. Источник: информация об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.
  • 41. Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст). А также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.
  • 42. Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.
  • 43. Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов*, которые можно использовать.
  • 44. Если система видит, что студент очень быстро справляется с домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.
  • 45. В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в домашних заданиях и вопросам на форуме) Система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.
  • 46. У нас есть преподаватель, который хочет улучшить курс.
  • 47. При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.
  • 48. Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу.
  • 49. Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.
  • 50. Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как просмотренные темы, предыдущие оценки, возможно понять причины ошибок.
  • 51. Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость материала.
  • 52. В заключение об использовании EDM Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Данные собраны по 300 работам до 2009 года.
  • 53. Пример 3. Data mining на службе у HR Microsoft и IBM и Google сейчас используют программы для математического анализа ценности каждого отдельного сотрудника. Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и прочих каналов коммуникации — с распознаванием эмоций, поведенческих привычек и прочих невербальных характеристик каждого пользователя.
  • 55. Обсудим? • vk.com/dmitry_nikotin • facebook.com/dmitry.nikotin • twitter.com/Dmitry_Nikotin dmitrynikotin@gmail.com