Mais conteúdo relacionado
Semelhante a 3 krot riw_2015_3 (12)
3 krot riw_2015_3
- 9. ©"Билайн",БЕРоссия2015
Best Practice Workflow: сбор и подготовка данных
9
• Сбор и подготовка данных (ETL-процесс)
• Агрегация данных из разных источников (биллинг,
геоданные, интернет-события, данные о качестве
сервиса, CRM, пополнения/списания, etc.)
• Очистка данных и выделение признаков
• Используем Hive, Pig, Apache Spark
- 10. ©"Билайн",БЕРоссия2015
Best Practice Workflow: сбор и подготовка данных
10
• Построение алгоритма
• Проверка простых гипотез, создание новых признаков,
выбор модели
• Используем Python (pandas, scikit-learn), Apache
Spark, Vowpal Wabbit
- 13. ©"Билайн",БЕРоссия2015
Подготовка специалистов: Data Scientist
13
• Data Scientist – отбираем и подготавливаем самостоятельно
• Образование: МФТИ, МГУ, ШАД
• Опыт: победитель соревнований Kaggle, Tunedit,
соревнований по программированию ACM, а также
математических олимпиад
• Навыки:
• Python (pandas, scikit-learn)
• Hadoop (Pig, Hive)
• Apache Spark, Vowpal Wabbit
• Social Network Analysis
• Data Visualization