Este documento discute os tipos de gráficos que são úteis para visualização de dados e análise, como barras, histograma, dispersão, densidade, caixa e bigodes. A autora explica como configurar plots para melhorar a visualização e dá dicas sobre rótulos, escalas e como evitar enganar com estatísticas. O objetivo é ajudar cientistas de dados a escolher a ferramenta gráfica apropriada para cada situação.
Estudando Espaço e Forma através do Scratch - Trabalho Final de Informática E...
Com que gráfico eu vou? Uma análise, um gráfico
1. Com que gráfico eu
vou? Uma análise, um
gráfico
Por Ludimila Gonçalves
E-mail: ludigoncalves.11@gmail.com
Linkedin: www.linkedin.com/in/ludimilagonçalves
Github: github.com/ludigoncalves
2. Bio
Uma Humaitaense em Cape
Town!
ANTERIORMENTE...
● Bacharel em Ciência da Computação -
UFAM 2010
● Mestre em Informática - UFAM 2013
○ Ênfase em Sistemas de Recomendação
● Doutorado em Informática cursado,
porém não finalizado :(
○ Ênfase em Detecção de Rotina
● Data Scientist na Bemol (part-time)
ATUALMENTE!
● AI Engineer na Bemol Digital (Remota)
3. Momento reflexão...
O que eu preciso aprender pra
ser uma DS melhor?
Onde procurar?
Achei! E agora,
o que fazer?
9. Um contexto
Desafio realizado para um processo seletivo [disponível em
https://github.com/ludigoncalves/customer-segmentation-challenge]
● O objetivo: Segmentar uma lista de clientes com base em suas transações
● A base
○ Online Retail [https://www.kaggle.com/hellbuoy/online-retail-customer-clustering]
○ Transações dentro do período de 01/12/2010 à 09/12/2011
○ 38 países distintos
○ Vende presentes exclusivos para todas as ocasiões
○ Clientes são em parte atacadistas
● A ferramenta: Colaboratory
Por que este contexto?
11. Configurando plots
● Figure Aesthetic
○ Background
○ Axes
● Color Palette
○ Qualitative Color Palette: melhor para dados categóricos
○ Sequential Color Palette: bom para expressar distribuição
○ Diverging Color Palette: ideal para dados divergentes
12. Gráficos do dia
Bar Plot
Relação entre variáveis categóricas e contínuas e também
para computar estatísticas
Histogram
Representa distribuição de dados através da formação de
bins
Scatter Plot
Relação entre variáveis
Density Curve
Densidade de probabilidade de uma variável contínua
13. Gráficos do dia
Box-and-Whisker Plot
Distribuição de dados através de quartiles
Heatmap
Mapa de calor para destacar magnitude de fenômeno
Line Plot
Relações entre eixo x e y
Link para o repositório com os códigos
apresentados!
15. Dicas da alegria
● Sempre ter atenção aos valores do eixo y quando se está comparando
gráficos
● Rótulos são vida! E da vida não podemos esquecer :D
● Documentação online das ferramentas, i.e.
https://seaborn.pydata.org/tutorial/color_palettes.html
● Como Mentir com Estatística - livro de Darrell Huff (1954!)
16. É ISSO GENTE!!
E-mail: ludigoncalves.11@gmail.com
Linkedin: www.linkedin.com/in/ludimilagonçalves
Github: github.com/ludigoncalves