2. 1. Não entender bem o contexto e definições
adotadas antes de iniciar a Análise dos Dados
○ Quem está pedindo?
Para quê? Para quando?
○ Definições adotadas
(ex. O que é uma venda?
- Quando fecha o pedido?
- Quando fatura?
- Quando recebe o dinheiro?
- Quando o cliente retira?)
○ O que espera de entrega?
■ (Tipo) Análise Descritiva,
Diagnóstica, Preditiva, Prescritiva?
■ (Formato) Apresentação,
Relatório, Dashboard, Planilha?
3. 2. Não ter bem claro o problema inicial e não
identificar as possíveis causas raízes
Os 5 porquês (5 whys)
4. 3. Não ter as hipóteses bem definidas e como
poderão ser validadas
5. 4. Não validar as premissas e resultados com um
especialista da área analisada
6. 5. Utilizar dados de má qualidade, enviesados,
formulários que induzem respostas, etc
LIXO
entra
LIXO
sai
7. 6. Fazer a análise buscando o que está de acordo
com a sua opinião (Viés de Confirmação)
Fatos
Suas
crenças
O que você vê
8. 7. Considerar para uma análise geral apenas dados
que sobreviveram por algum processo e
desconsiderar os demais (Viés de Sobrevivência)
Durante a 2ª guerra mundial, os aviões
americanos voltavam para a base cheios de
furos de bala. Os mecânicos colocaram
blindagem extra nessas áreas.
O matemático Abraham Wald disse que isso
estava errado. Estavam olhando apenas os
aviões que sobreviveram aos ataques e
conseguiram pousar.
Melhor seria pensar nos aviões que não
conseguiram voltar à base e reforçar as outras
partes, que quando atingidas podem ter
provocado a queda dos aviões.
9. 8. Confundir Correlação com Causalidade, e não
atentar para os diferentes tipos relações de
causalidade e dependência
10. 9. Atribuir uma única causa para o efeito, quando
é resultado de várias causas
11. 10. Desconsiderar influências externas nos
resultados (sazonalidades, feriados, intervenções,
outras variáveis ocultas…)
Vendas
12. 11. Não considerar o custo x benefício antes de
realizar uma análise ou obter uma informação
13. 12. Tentar analisar coisas demais e ficar atolado, ou
dar uma solução complexa enquanto algo mais
simples serviria
Solução mínima e rápida, que
entrega a maior parte do valor
14. 13. Ter uma definição ineficaz das métricas e
indicadores
○ Não entender o real significado da métrica e a composição
dos indicadores (variáveis, cálculo e pesos)
○ Focar em Métricas de Vaidade ou que tem um crescimento
intrínseco.
○ Não focar em métricas ligadas ao objetivo e que
levem a tomada de ações
○ Usar apenas 1 métrica, desconsiderando outras importantes
○ Concentrar-se apenas em Lagging metrics
(indicam que algo aconteceu - ex. churn) e não
em Leading metrics (indicam que algo vai acontecer
- ex. risk churn)
○ Não olhar as métricas de forma comparativa / relativa
15. 14. Analisar algo de forma isolada, sem fazer
comparações ou comparar elementos muito
diferentes
16. 15. Agrupar ou Desagrupar os dados de forma
ineficaz (veja também: Paradoxo de Simpson)
18. 17. Considerar a Média sem olhar quantidades,
desvio padrão e outliers (importante também ver a
distribuição dos dados, mediana, moda, percentis…)
Altura das pessoas em uma sala
A pessoa mais alta “puxa”
a média para cima
Moda: Valores mais frequentes
Mediana: Valor que divide ao
meio os dados ordenados
Média: Soma dos valores,
dividida pelo nº de elementos
19. 18. Não investigar os outliers de forma adequada
(para ver se faz sentido descartar, manter, corrigir,
segmentar…)
20. 19. Usar estudos e dados de terceiros sem se
preocupar com a origem e com a metodologia
empregada
21. 20. Não ter (ou compor errado) grupos de controle
em experimentos
22. 21. Testar muitas variáveis nos experimentos e não
conseguir isolar os efeitos
23. 22. Generalizar conclusões a partir de amostras
muito pequenas (sem significância estatística),
experiências individuais e resultados pontuais
População total
Amostra observada
24. 23. Confundir probabilidades com certezas e não
deixar claro o nível de confiança e a margem de erro
das estimativas.
(1)
Certeza
Absoluta
Valor da
Estimativa
(4:5)
Provável
(1:2)
Chances iguais
(1:5)
Improvável
(0)
Impossível
Nível de Confiança
25. 24. Considerar que um resultado aleatório segue um
padrão, e o contrário, considerar como aleatório algo
que não é
26. 25. Pensar que os padrões do passado certamente
seguirão no futuro
Bem-estar
Dias
Surpresa!
1001 dias de vida de um Peru de Natal
28. 27. Elaborar uma Visualização e/ou Comunicação
ineficaz da análise
○ Não se informar sobre o público e supor que o
público “já sabe”
○ Apresentar somente dados, não destacar
insights e próximas ações
○ Utilizar um tipo de gráfico inadequado, muitas
cores e elementos desnecessários (ex.
Gráficos de Pizza, gráficos com efeitos 3D…)
○ Usar visualização que distorce a interpretação
(escala dos eixos, tamanho das áreas)
○ Não revisar junto com um colega
30. 29. Não atentar para erros tipo 1 (Falsos Positivos) e
erros tipo 2 (Falsos Negativos)
Verdadeiro
Positivo
Falso
Negativo
Falso
Positivo
Você está
grávida!
Você está
grávido!
Você NÃO
está
grávida!
Verdadeiro
Negativo
Você NÃO
está
grávido!
Erro tipo 2
Erro tipo 1
Hipótese
Nula
Valor
crítico
Hipótese
Alternativa
Decisão correta
Efeito Existe
Decisão correta
Efeito não Existe
Erro
tipo 2
Falso Negativo
Erro
tipo 1
Falso Positivo
31. 30. Não identificar a distribuição dos dados, nem
sempre seguirá uma curva normal
Curva normal
32. Bônus | Outros problemas comuns em análise de
dados, que vale a pena buscar saber mais ;)
○ Overfitting
○ P-hacking
○ Data
leakage
○ Dados
desbanlanceados