TDC2016SP - SparkMLlib Machine Learning na Prática

Globalcode – Open4education
Apache SparkMLlib
Machine Learning na Prática
Eiti Kimura
Trilha: Machine Learning
Coordenador de Desenvolvimento
Flávio Clésio
Core Machine Learning

Quem sou eu?
• Arquiteto de software e Coordenador de TI na Movile
• Apache Cassandra Developer 1.1 Certified (2013)
• Apache Cassandra MVP (2014/2015 e 2015/2016)
• Apache Cassandra Contributor (2015)
• Cassandra Summit Speaker (2014 e 2015)
• Cassandra Summit Reviewer (2016)
Eiti Kimura
eitikimura

Quem sou eu?
Flávio Clésio
• Core Machine Learning na Movile
• Coordenador de Revenue Assurance na Movile
• Mestre em Inteligência Computacional(Aplicação no
Mercado Financeiro)
• Especialista em Data Mining e Business Intelligence com
mais de 8 anos de experiência
• Autor do blog Mineração de Dados (http:
//mineracaodedados.wordpress.com)
flavioclesio

A Movile é a empresa por
trás das apps que fazem
sua vida mais fácil!

O Melhor conteúdo para Crianças

Líder em delivery de
comida no Brasil

Agenda
• O caso do sistema de tarifação da Movile
• Apresentando o Watcher-ai
• Um pouco de teoria sobre a regressão linear
• Utilização de um modelo treinado em uma
aplicação Java
Objetivos

• Apresentar o uso prático de Machine Learning
focado em um caso de uso real usando spark-
notebook para processar e testar modelos de ML e
então implementar esse modelo em uma
plataforma Java.
Objetivos

Problema: Monitoramento
Plataforma de tarifações da Movile
Como podemos checar se a plataforma está
funcionando baseado apenas em análise de
dados?
Que tal pedir ajuda a um sistema inteligente?

Clientes assinam um produto ou serviço
A assinatura é persistida em um banco de dados
A assinatura é tarifada
A plataforma gerencia o ciclo de vida da assinatura
Plataforma de tarifação
em sua forma mais simples

Trabalhando com Dados
plataforma de tarifação (0-6h)
Últimos 3 dias de análise de cada uma das operadoras

Arquitetura do Watcher-AI

Notificação
única
Notificações
agrupadas

Natureza dos Dados ou:
O que eu quero saber?
Dado um vetor de dados
Amostra de dados de número de tentativas:
2.623.447, [4.0, 17h, 3.0]
Amostra de dados de número de tentativas com sucesso:
61.083, [4.0, 17h, 3.0, 1259.0, 24.751.650 , 2.193.67, 26.314.551]
Número esperado de Tentativas de Tarifação
Número Esperado de Sucessos
características
label
# success carrier_id hour week response_time no_credit errors attempts
carrier_id hour week
APRENDIZADO SUPERVISIONADO
Regressão Linear

Qual algoritmo selecionar?
Sebastian Raschka - Livro Python Machine Learning
Quando envolvido em problemas de aprendizagem supervisionada,
o meu conselho é começar com a mais simples hipótese em
primeiro lugar. Isto é, tentar um modelo linear, como regressão
logística.
Se não funcionar "bem" (isto é, ele não atende expectativas ou
critério de desempenho definido anteriormente), então passe para
um próximo experimento.

Spark MLlib
Seu objetivo é fazer com que a aprendizagem máquina seja
escalável e fácil.
Consiste de algoritmos comuns de aprendizagem e
utilitários, incluindo a classificação, regressão, clusterização,
filtragem colaborativa, redução de dimensionalidade,
pipelines.

• Model Linear com Stochastic Gradient Descent (SDG)
• Lasso com Modelo SGD (Regularização L1)
• Regressão Ridge com Modelo SGD (Regularização L2)
• Árvore de Decisão com Regressão
Algoritmos testados
Apache MLlib

Um pouco de teoria sobre
Regressão...
A Regressão Linear é um método
estatístico que investiga o relacionamento
e interdependência entre variáveis para
obtenção de um resultado numérico.

Um pouco de matemática
y = α + (β1 * x1) + (β2 * x2) + (βn * xn) + ε
y = Valor a ser previsto (variável dependente)
α = Intercepto (onde a reta da regressão atinge o eixo Y e o valor de x = 0) - Fatores
Endógenos
β = Coeficientes Regressores
x1...xn = Valores das variáveis independentes (e.g. colunas de um banco de dados)
ε = Erros residuais ou erros não explícitos - Fatores Exógenos
Em que:

Um pouco de matemática
(Modelo de uma operadora)
Sucessos = (1.38 * Operadora)
+ (0.70 * Hora do Dia)
+ (1.63 * Semana do Mês)
+ (0.47 * Tempo de Resposta)
+ (0.40 * Tentativas sem crédito)
+ (0.70 * Erros de tentativas)
+ (0.40) * Número de Tentativas)
coeficientes β obtidos do modelo treinado

Vamos falar sobre Regularização
• Um problema comum com os problemas de
regressão é a alta dimensionalidade da base de
dados (ex: Projeto Genoma em que a base de dados
tem mais de 5000 variáveis)
• A equação se torna tão complexa que converge
muito rápido para o Overfitting!

Vamos falar sobre
Regularização
• Para evitar esse tipo de problema o Spark MLlib incorpora
alguns métodos de regularização como o LASSO(L1) e Ridge
(L2).
• A regularização LASSO (L1) adiciona a penalização
equivalente ao valor absoluto da magnitude dos coeficientes
• Já utilizando a regularização Ridge(L2) a penalização é
equivalente à magnitude dos coeficientes elevada ao
quadrado.

É um método em que diversos parâmetros de um modelo são
ajustados de maneira iterativa para minimizar a função de erro.
Essa abordagem é feita usando aproximação estocástica para
minimizar alguma função objetivo.
A função objetivo nesse caso é para reduzir o erro cumulativo
nas instâncias de treinamento e teste. A abordagem estocástica
é usada devido ao fato de que a base de dados é muito grande, e
essa abordagem aleatória acelera a função de minimização.
Gradiente Descendente

Gradiente Descendente Estocástico
Fazendo um terno no alfaiate
Exemplo: Stochastic Gradient Descent (Fazendo terno no alfaiate)
1) O alfaiate faz uma estimativa inicial
2) Um cara aleatório (de um pequeno grupo ou do conjunto de
completo de pessoas) veste o terno e dá o feedback (e.g. está
apertado, folgado, etc)
3) O alfaiate faz um pequeno ajuste de acordo com o feedback
passado; e
4) Enquanto o alfaiate tem tempo disponível, ele volta para o passo
2 e refaz o processo.

•
Regressão usando Árvores de
Decisão

A única métrica que importa ou OMTM (One Metric That
Matters)
Verificar Desempenho
Modelos de regressão
Mean Squared Error (MSE)
É a soma da raiz quadrada da
média em relação às diferenças
entre os valores previstos (y) e
os valores originais de um
conjunto de teste (x).

Spark Notebook
http://spark-notebook.io/
spark-notebook-0.6.2$ ./bin/spark-notebook
Walkthrough

Avaliação de Desempenho
Algoritmos de Aprendizado
Particionamento dos dados
70% para treinamento
30% para testes
val labelsAndPredictions = test.map { point =>
val carrier = point.features.apply(0)
val model = mapModel(carrier)
val prediction = model.predict(point.features)
(point.label, prediction)
}
trecho de código em Scala

Watcher-ai Tecnologias
Gradle
gestão de dependência, build, deploy
Spring
injeção de dependência, setup rápido
Spark MLlib
carga de modelos, previsão de dados
Pushbullet API
envio de notificações
$ echo "Olá! "
$ echo "sou o Watcher-ai!"
https://github.com/eiti-kimura-movile/spark-mllib-sample

Watcher-ai
Registros de Ativação
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5

CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5

Resultados Preliminares
• Usado como última barreira de monitoramento
• Ajudou a diagnosticar problemas nos últimos 2
meses
• Detectou problemas nos sistemas de
monitoramento
• Detecta discrepância nos números hora-a-hora
• Os modelos devem ser treinados
frequentemente

Dicas Práticas
• Defina a medida de desempenho do modelo
• Se pergunte: qual o desempenho desejado? que
hardware será necessário? quando o projeto precisa
terminar?
• Inicie com o modelo mais simples que conseguir
• Se não atingir o objetivo, tente modelos mais
complexos (se possível)
Sebastian Raschka - Livro Python Machine Learning

É só o começo…
• Usar os próprios dados coletados para alimentar o
modelo
• Treinar o modelo automaticamente
• Analisar os erros e tempos de resposta para prever
se trata-se de um problema coma operadora
• Alertar mais pessoas e times específicos
• Muito mais para melhorar...

MUITO OBRIGADO!
eitikimura eiti-kimura-movile eiti.kimura@movile.com
flavioclesio fclesio flavio.clesio@movile.com
talentos@movile.com

Referências
Basics
http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/
Reference Books
http://www.amazon.com/Machine-Learning-Spark-Powerful-Algorithms/dp/1783288515
https://www.packtpub.com/big-data-and-business-intelligence/python-machine-learning
Machine Learning Datasets Repository
http://archive.ics.uci.edu/ml/

TDC2016SP - SparkMLlib Machine Learning na Prática

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a TDC2016SP - SparkMLlib Machine Learning na Prática

Mais de tdc-globalcode

Último

TDC2016SP - SparkMLlib Machine Learning na Prática