Data science no marketing - Estatistica e Computacao para entender o Consumidor
1. DATA SCIENCE NO MARKETING Estatística e Computação para
entender o consumidor
2. POR QUE PRECISAMOS DE DATA
SCIENCE NO MARKETING?
Leo Naressi
Leo@dp6.com.br
CIO na DP6
Professor ESPM
3. PARA DESCREVER, ANALISAR E ENTENDER
Estatística descritiva
Distribuição
Dispersão, Média, Mediana, Desvio-Padrão
Reporting
Geração de relatórios
Agrupamentos, Drill-down
Dashboards
Alertas visuais
Data Visualization
Análise gráfica
4. PARA PROJETAR O FUTURO
Análise de Séries Temporais
ARIMA
Regressão
Simples
Multivariada
Decomposição
Tendência
Sazonalidade
Erro
5. PARA ESTIMAR RESULTADOS E RELAÇÕES
Regressão linear
Simples
Multivariada
Regressão Logística
Conjoint Analysis
Precificação baseada em valor
6. PARA CLASSIFICAR MENSAGENS
Classificação de conteúdo em redes
sociais
Categorias e Sentimentos
SVM – Support Vector Machines
Identificar SPAM
Naive Bayes
Árvores de decisão, Random Forests, etc
7. PARA AGRUPAR CONSUMIDORES
Identificar automaticamente elementos
em comum
Agrupamento hierárquico
Identificar grupos diferentes
naturalmente
k-Means
8. PARA SUGERIR PRODUTOS
Identificar compras comuns
Basket Analysis
Regras de associação
Identificar preferências comuns
Filtragem colaborativa
12. O RESULTADO SÃO PARÂMETROS QUE PERMITEM
PREVER O RESULTADO DE ACORDO COM O
INVESTIMENTO
Vendas =
5.000 (base)
+ 0.0067 * Investimento TV
+ 0.0375 * Investimento Online
+ 0.0082 * Investimento Social
13. QUE DADOS INCLUIR NO M.M.M?
Media
Mix
Model
Dados de
Investimento
(quebrado por dia,
hora, canal, região,
etc)
Dados relacionados
(sazonalides,
programações,
eventos
importantes, etc)
Dados de
resultados
(conversões,
compras, receita)
Ferramenta para
análise estatística
(Excel, Google
Sheets, R, etc)
15. ENTRANDO A FUNDO NO CICLO DIGITAL, VEMOS QUE
O ÚLTIMO PASSO NÃO É O ÚNICO RESPONSÁVEL PELA
DECISÃO Last Click
Banner
no Portal
X
Acessou Fan
Page
Clicou em
link no
twitter
Procurou no
Google
Link
Patrocinado
Comprou
o
produto
16. CADA MODELO DEVE SER ESCOLHIDO DE ACORDO
COM A IMPORTÂNCIA DA ETAPA NA JORNADA
Primeiro clickÚltimo click Linear
Posicional Desvalorização Temporal Personalizado
17. E SE COLOCARMOS INTELIGÊNCIA ARTIFICIAL PARA
ENCONTRAR O MODELO PERFEITO PARA NOSSO
PRODUTO?
18. VISUAL IQ: MÉTRICAS ON E OFF-LINE COM MACHINE
LEARNING PARA RECOMENDAR O INVESTIMENTO IDEAL
22. O PROBLEMA: TRANSFORMAR OS TEXTOS EM NÚMEROS
Texto 3 Texto N
Texto 2Texto 1
Categorias
Sentimentos
Tópicos
Temas
Padrões de classificação
Classificação
manual
Categoria 1 Categoria 2 Categoria 3 Categoria N
Transformando
palavras em
números
Centenas, Milhares
de menções, posts
25. MAS PODEMOS FAZER MELHOR!
Texto 3 Texto N
Texto 2Texto 1
Centenas, Milhares
de menções, posts
Categoria 1 Categoria 2 Categoria 3 Categoria N
Transformando
palavras em
números
Classificação
automática
26. Método Supervisionado
Processamento de
linguagem natural
(NLP)
Filtro por palavras-
chave
Análise semântica Base ontológica
Utiliza algoritmos e estatística para avaliar o significado
de palavras e suas relações em uma sentença
Necessita de atualização da base de dados utilizada
TÉCNICAS COMUNS
27. MACHINE LEARNING: COMPUTADORES TRABALHANDO COMO NÓS E PARA NÓS…
k-Means
Naive Bayes
Árvores de decisão
Singular Value Decomposition (SVD)
Support Vector Machines (SVM)
TF-IDF
Semântica latente
= Algoritmos e técnicas
de Data Mining /
Text Mining para
processar conteúdo
28. QUE FERRAMENTAS ESTÃO DISPONÍVEIS?
Ferramentas
Open-Source
Ferramentas
Comerciais
Frameworks
Deep Learning
29. DESAFIOS DA CLASSIFICAÇÃO DE TEXTOS E
DOCUMENTOS
*Mais desafios em: A Review of Machine Learning Algorithms forText-DocumentsClassification – A. Kahn, B. Baharudin, L. Hong Lee, K. Khan
Tokenização, ou a correta
divisão das frases em palavras
simples ou compostas que façam
sentido.
“pau de selfie”
Características do discurso,
clareza da informação.
Regionalismos, uai!
Ironias, Sarcasmos e #sqn
Contexto do conteúdo: político,
econômico, social, midiático
#meuamigosecreto
Gramática e Sintaxe,
normalização para agrupar
sinônimos e erros de grafia.
Manga, Manga e Mangá.
Você, Voce e Vc
Entidades do conteúdo:
Hashtags, Geotags, Nomes,
Links, etc
http, checkins,
#oqueeuquisdizernumahashtag
32. CLASSIFICAMOS 1MIL MENÇÕES E COMPARAMOS:
• Baseada em NLP
Ferramenta de
Monitoramento
• NLP avançadoSemantria
• Algoritmo de classificação em multi-
categorias
Google
Prediction
Bases Históricas
• Base1: 15 mil
• Base2: 100mil
Classificação
• Sentimento em 4 classes
• Positivo, Negativo, Neutro, Inválido
33. OS RESULTADOS
Ferramenta de
monitoramento
Base: 2,6MM
14%
Semantria (NLP)
Análise semântica
e ontológica –
tamanho da base
desconhecida
41%
Google Prediction
Base: 15mil
56%
Google Prediction
Base: 100mil
64%
Tempo para classificação automática (1 mil menções): real-time
Acurácia comparada à classificação manual
Tempo para classificação manual (1 mil menções): 3 horas
36. UMA CHAMADA TREINA O MODELO, A OUTRA
REALIZA A CLASSIFICAÇÃO
Treino Classificação
37. COMO FAZER O PROCESSO COMPLETO?
Coleta de dados
de redes sociais
Amostragem
aleatória
Classificação
humana da
amostra
Criação de
Modelo Preditivo
Treinamento do
modelo com os
dados
classificados
Validação da
performance do
Modelo
Análise preditiva
baseada no
modelo
39. CLOUD VISION API: DEEP LEARNING PARA
IMAGENS
Permite processar imagens em tempo
real
Identifica:
Elementos
Textos
Faces
Pontos Turísticos
Logomarcas
Características da imagem