2. OBJETIVOS DA AULA
• Apresentar a primeira etapa do processo de
transformação de dados em informação
• Descrever os diferentes níveis de agregação de
dados
• Exibir erros comuns na análise de dados agregados
3. NÍVEIS DE AGREGAÇÃO
Fato Série Multi-série
Multi-série
somável
Registros
de sumário
Transações
individuais
Habilidade para explorar os dados
- +
5. FATO
• Um fato (factoid) é um ponto único de informação
• Calculado a partir dos dados crus, é escolhido para
enfatizar um ponto específico
• Não possibilita qualquer exploração dos dados
!
36.7% do café vendido em 2000 foi consumido por mulheres.
6. SÉRIE
• Apresenta um tipo de informação (variável
dependente) comparado com outra (variável
independente)
• Frequentemente a variável independente é o
tempo
7. SÉRIE
• Neste exemplo, o total de vendas depende do ano
• Ou seja, o ano é independente (escolha um ano) e
o total de vendas é dependente (baseado nesta
escolha, o consumo foi de x)
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
8. SÉRIE
• Uma série também pode ser baseada em valores
contínuos, como temperatura.
Temperatura da Água (C) Tempo até uma
queimadura de 1o grau
116 35 minutos
122 1 mínuto
131 5 segundos
140 2 segundos
149 1 segundo
154 Instantâneo
9. SÉRIE
• Ou ser uma seqüência de
valores não-contíguos, mas
relacionados em uma
mesma categoria
Planeta Massa relativa á
da Terra
Mercúrio 0.0553
Vênus 0.815
Terra 1
Marte 0.107
Júpiter 317.8
Saturno 95.2
Urano 14.5
Netuno 17.1
10. SÉRIE
• Em muitos casos uma série possui apenas uma variável
dependente para cada variável independente
• Em outras palavras, há apenas um valor para o
consumo total de café para cada ano
• Este tipo de informação geralmente é exibido
utilizando um gráfico de barras, de colunas ou de série
temporal
12. MULTI-SÉRIE
• Uma multi-série é um conjunto de dados que possui vários itens
de informação dependente para um único item de informação
independente
• Com esse conjunto de dados sabemos que em 2001 foram
servidas 16.452 doses de café para homens e 14.021 doses de café
regular (com cafeína e açúcar)
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
13. MULTI-SÉRIE
• Porém, não sabemos como combinar essas duas informações
de forma útil: elas não são relacionadas!
• Não temos como dizer qual o percentual de cafés regulares
servidos para homens
• Multi-série são simplesmente várias séries em um mesmo gráfico
ou tabela
• Podemos exibi-las juntas mas não temos como combiná-las de
forma significativa
15. MULTI-SÉRIE SOMÁVEL
• Como o próprio nome já sugere, uma multi-série
somável diz respeito a uma estatística em
particular (sexo, tipo de café) segmentada em
subgrupos
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
16. MULTI-SÉRIE
SOMÁVEL
• Como sabemos que um
bebedor de café é homem
ou mulher, podemos somar
estes valores para obter uma
observação sobre o total de
consumo e com isso exibir
porcentagens
Consumo de Café por sexo em
2001
28%
72%
Homem Mulher
17. MULTI-SÉRIE SOMÁVEL
Consumo total de café, por sexo
0
35000
70000
105000
140000
2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino Feminino
18. MULTI-SÉRIE SOMÁVEL
• Um desafio ao se utilizar multi-séries é entender quais séries podem
ser combinadas.
• Não há nada nesta tabela que nos diga como combinar estas
informações - processamento humano!
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657
Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
19. É DIFÍCIL EXPLORAR DADOS
RESUMIDOS
• 36.7% das cafés vendidos em 2000 foram
consumidos por mulheres
• Foram vendidos 9.929 cafés regulares em 200
• Portanto, mulheres compraram 3643.9 cafés
regulares em 2010
20. É DIFÍCIL EXPLORAR DADOS
RESUMIDOS
• Errado!
• O fato do resultado ser uma fração já nos mostra que isso não é uma
boa idéia (ninguém compra .9 xícaras de café)
• Este tipo de inferência só pode ser feita se soubermos como uma
categoria (tipo de café) é distribuída em uma outra categoria (sexo).
• A única forma de explorar realmente os dados e poder responder
novas questões é analisar os dados crus
• Depois é preciso saber como agregá-los corretamente
21. REGISTROS DE SUMÁRIO
Nome Sexo Regular Decaf Mocha Total
Pedro M 2 3 1 6
Maria F 4 0 0 4
José M 1 2 4 7
Joana F 3 1 0 4
Belinha F 1 0 0 1
João M 2 1 3 6
Biu M 3 1 0 4
Jacó M 0 0 1 1
Total 5M, 3F 16 8 9 33
22. REGISTROS DE SUMÁRIO
• Esse tipo de tabela é bastante familiar para
qualquer um que já usou o Excel
• Tivemos 5 consumidores do sexo masculino e 3
do feminino
• Vendemos 16 cafés regulares, 8 decaf e 9
mochas, totalizando 33 cafés
23. REGISTROS DE SUMÁRIO
• Mas o mais importante é que podemos combinar
categorias de dados para responder mais
perguntas exploratória
• Por exemplo “Mulheres preferem algum tipo
específico de café?”
24. REGISTROS DE SUMÁRIO
• Olhando esta tabela podemos "afirmar" que
mulheres preferem café regular e homens não
têm uma preferência específica.
Sexo
Média de
Regulares
Média de
Decaf
Média de
Mocha
M 1.60 1.40 1.80
F 2.67 0.33 0.00
Total 2.29 1.14 1.14
25. REGISTROS DE SUMÁRIO
• Mesmo agora ainda temos algum nível de agregação
• Resumimos os dados em várias dimensões - sexo e tipo de
café - ao agregá-los por nome de cliente.
• Apesar desses ainda não serem os dados crus, já estamos
bem próximos disso.
• Uma vantagem desse agrupamento é reduzir o tamanho
do conjunto de dados
26. USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• É comum agregar registros
de sumário ou dados crus
para podermos exibi-los
mais facilmente.
• Considere as seguintes
transações
Nome Regular Decaf Mocha
Pedro 2 3 1
Maria 4 0 0
José 1 2 4
Joana 3 1 0
Belinha 1 0 0
João 2 1 3
Biu 3 1 0
Jacó 0 0 1
Total 16 8 9
Médias 2 1 1.125
28. USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• A média esconde detalhes!
• É possível que algumas pessoas tenham tomado uma única dose
de um determinado café e outras tenham tomando várias doses.
• Existem formas mais adequadas para observar as variações de
forma a melhor exibir a forma de uma informação
• Se mantemos os dados crus podemos entrelaçar mais de uma
variável dependente a cada variável independente.
30. USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• A média foi 4.12 porém o histograma demonstra
que há 3 clientes que bebem muito café!
• Quando se tem os dados crus é possível
identificar exceções e pontos fora da curva
(outliers) e contar uma história mais precisa.
• Porém, estes ainda não são os dados crus!
31. TRANSAÇÕES INDIVIDUAIS
• Estas transações podem ser
agregadas por qualquer coluna.
• O tempo também pode ser
agregado em intervalos (hora, dia,
ano, etc)
• Os dados que vimos lá no início
da aula podem ser facilmente
gerados a partir de um conjunto
de transações como estas
• Mas é impossível fazer o
caminho inverso!
Hora Nome Sexo Café
17:00 Pedro M Regular
17:01 Maria F Regular
17:02 José M Mocha
17:03 Joana F Decaf
17:04 Belinha F Regular
17:05 João M Regular
17:06 Biu M Mocha
17:07 Jacó M Decaf
32. DECIDINDO COMO
AGREGAR OS DADOS
• Quando agregamos dados crus como estes para gerar sumários
como os que vimos hoje nós perdemos a história dos dados
• Por exemplo, quando agrupamos as transações individuais para
fazer uma totalização anual, nós:
• Removemos os nomes dos clientes, tornando os dados
anônimos
• Agrupamos os horários de compras, gerando um sumário por
ano
33. DECIDINDO COMO
AGREGAR OS DADOS
• Qualquer um desses dois itens de dados poderia ser utilizado para
identificar que alguém consome uma quantidade muito grande de
café
• E se ao invés de café, estivéssemos vendendo bebidas alcóolicas?
• Deveríamos alertar um cliente que bebe demais?
• Se um cliente se envolve em um acidente, os registros do seu
consumo de bebidas alcóolicas poderiam ser utilizados como
prova contra ele?
34. REFERÊNCIAS
• Data + Design:A simple introduction to preparing
an visualizing information,Tina Chiasson et al