SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
AGREGAÇÃO DE DADOS
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
OBJETIVOS DA AULA
• Apresentar a primeira etapa do processo de
transformação de dados em informação	

• Descrever os diferentes níveis de agregação de
dados	

• Exibir erros comuns na análise de dados agregados
NÍVEIS DE AGREGAÇÃO
Fato Série Multi-série
Multi-série
somável
Registros
de sumário
Transações
individuais
Habilidade para explorar os dados
- +
NÍVEIS DE AGREGAÇÃO
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657
Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
FATO
• Um fato (factoid) é um ponto único de informação	

• Calculado a partir dos dados crus, é escolhido para
enfatizar um ponto específico	

• Não possibilita qualquer exploração dos dados
!
36.7% do café vendido em 2000 foi consumido por mulheres.
SÉRIE
• Apresenta um tipo de informação (variável
dependente) comparado com outra (variável
independente)	

• Frequentemente a variável independente é o
tempo
SÉRIE
• Neste exemplo, o total de vendas depende do ano	

• Ou seja, o ano é independente (escolha um ano) e
o total de vendas é dependente (baseado nesta
escolha, o consumo foi de x)
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
SÉRIE
• Uma série também pode ser baseada em valores
contínuos, como temperatura.
Temperatura da Água (C) Tempo até uma
queimadura de 1o grau
116 35 minutos
122 1 mínuto
131 5 segundos
140 2 segundos
149 1 segundo
154 Instantâneo
SÉRIE
• Ou ser uma seqüência de
valores não-contíguos, mas
relacionados em uma
mesma categoria
Planeta Massa relativa á
da Terra
Mercúrio 0.0553
Vênus 0.815
Terra 1
Marte 0.107
Júpiter 317.8
Saturno 95.2
Urano 14.5
Netuno 17.1
SÉRIE
• Em muitos casos uma série possui apenas uma variável
dependente para cada variável independente	

• Em outras palavras, há apenas um valor para o
consumo total de café para cada ano	

• Este tipo de informação geralmente é exibido
utilizando um gráfico de barras, de colunas ou de série
temporal
SÉRIE
Total de vendas
0
35000
70000
105000
140000
2000 2001 2002 2003 2004 2005 2006 2007 2008
MULTI-SÉRIE
• Uma multi-série é um conjunto de dados que possui vários itens
de informação dependente para um único item de informação
independente	

• Com esse conjunto de dados sabemos que em 2001 foram
servidas 16.452 doses de café para homens e 14.021 doses de café
regular (com cafeína e açúcar)
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
MULTI-SÉRIE
• Porém, não sabemos como combinar essas duas informações
de forma útil: elas não são relacionadas!	

• Não temos como dizer qual o percentual de cafés regulares
servidos para homens	

• Multi-série são simplesmente várias séries em um mesmo gráfico
ou tabela	

• Podemos exibi-las juntas mas não temos como combiná-las de
forma significativa
MULTI-SÉRIE
0
17500
35000
52500
70000
2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino Regular
MULTI-SÉRIE SOMÁVEL
• Como o próprio nome já sugere, uma multi-série
somável diz respeito a uma estatística em
particular (sexo, tipo de café) segmentada em
subgrupos
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
MULTI-SÉRIE
SOMÁVEL
• Como sabemos que um
bebedor de café é homem
ou mulher, podemos somar
estes valores para obter uma
observação sobre o total de
consumo e com isso exibir
porcentagens
Consumo de Café por sexo em
2001
28%
72%
Homem Mulher
MULTI-SÉRIE SOMÁVEL
Consumo total de café, por sexo
0
35000
70000
105000
140000
2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino Feminino
MULTI-SÉRIE SOMÁVEL
• Um desafio ao se utilizar multi-séries é entender quais séries podem
ser combinadas.	

• Não há nada nesta tabela que nos diga como combinar estas
informações - processamento humano!
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657
Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
É DIFÍCIL EXPLORAR DADOS
RESUMIDOS
• 36.7% das cafés vendidos em 2000 foram
consumidos por mulheres	

• Foram vendidos 9.929 cafés regulares em 200	

• Portanto, mulheres compraram 3643.9 cafés
regulares em 2010
É DIFÍCIL EXPLORAR DADOS
RESUMIDOS
• Errado!
• O fato do resultado ser uma fração já nos mostra que isso não é uma
boa idéia (ninguém compra .9 xícaras de café)	

• Este tipo de inferência só pode ser feita se soubermos como uma
categoria (tipo de café) é distribuída em uma outra categoria (sexo).	

• A única forma de explorar realmente os dados e poder responder
novas questões é analisar os dados crus	

• Depois é preciso saber como agregá-los corretamente
REGISTROS DE SUMÁRIO
Nome Sexo Regular Decaf Mocha Total
Pedro M 2 3 1 6
Maria F 4 0 0 4
José M 1 2 4 7
Joana F 3 1 0 4
Belinha F 1 0 0 1
João M 2 1 3 6
Biu M 3 1 0 4
Jacó M 0 0 1 1
Total 5M, 3F 16 8 9 33
REGISTROS DE SUMÁRIO
• Esse tipo de tabela é bastante familiar para
qualquer um que já usou o Excel	

• Tivemos 5 consumidores do sexo masculino e 3
do feminino	

• Vendemos 16 cafés regulares, 8 decaf e 9
mochas, totalizando 33 cafés
REGISTROS DE SUMÁRIO
• Mas o mais importante é que podemos combinar
categorias de dados para responder mais
perguntas exploratória 	

• Por exemplo “Mulheres preferem algum tipo
específico de café?”
REGISTROS DE SUMÁRIO
• Olhando esta tabela podemos "afirmar" que
mulheres preferem café regular e homens não
têm uma preferência específica.
Sexo
Média de
Regulares
Média de
Decaf
Média de
Mocha
M 1.60 1.40 1.80
F 2.67 0.33 0.00
Total 2.29 1.14 1.14
REGISTROS DE SUMÁRIO
• Mesmo agora ainda temos algum nível de agregação	

• Resumimos os dados em várias dimensões - sexo e tipo de
café - ao agregá-los por nome de cliente. 	

• Apesar desses ainda não serem os dados crus, já estamos
bem próximos disso.	

• Uma vantagem desse agrupamento é reduzir o tamanho
do conjunto de dados
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• É comum agregar registros
de sumário ou dados crus
para podermos exibi-los
mais facilmente. 	

• Considere as seguintes
transações
Nome Regular Decaf Mocha
Pedro 2 3 1
Maria 4 0 0
José 1 2 4
Joana 3 1 0
Belinha 1 0 0
João 2 1 3
Biu 3 1 0
Jacó 0 0 1
Total 16 8 9
Médias 2 1 1.125
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
Média de xícaras consumidas
0
0.5
1
1.5
2
Regular Decaf Mocha
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• A média esconde detalhes!
• É possível que algumas pessoas tenham tomado uma única dose
de um determinado café e outras tenham tomando várias doses.	

• Existem formas mais adequadas para observar as variações de
forma a melhor exibir a forma de uma informação 	

• Se mantemos os dados crus podemos entrelaçar mais de uma
variável dependente a cada variável independente.
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
Frequênciadecadaevento
0
1
2
3
1 2 3 4 5 6 7
Moda: o número mais
frequente de cafés
consumidos é 4
Média: o número médio
de cafés por cliente é 4.12
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• A média foi 4.12 porém o histograma demonstra
que há 3 clientes que bebem muito café!	

• Quando se tem os dados crus é possível
identificar exceções e pontos fora da curva
(outliers) e contar uma história mais precisa.	

• Porém, estes ainda não são os dados crus!
TRANSAÇÕES INDIVIDUAIS
• Estas transações podem ser
agregadas por qualquer coluna. 	

• O tempo também pode ser
agregado em intervalos (hora, dia,
ano, etc) 	

• Os dados que vimos lá no início
da aula podem ser facilmente
gerados a partir de um conjunto
de transações como estas	

• Mas é impossível fazer o
caminho inverso!
Hora Nome Sexo Café
17:00 Pedro M Regular
17:01 Maria F Regular
17:02 José M Mocha
17:03 Joana F Decaf
17:04 Belinha F Regular
17:05 João M Regular
17:06 Biu M Mocha
17:07 Jacó M Decaf
DECIDINDO COMO
AGREGAR OS DADOS
• Quando agregamos dados crus como estes para gerar sumários
como os que vimos hoje nós perdemos a história dos dados	

• Por exemplo, quando agrupamos as transações individuais para
fazer uma totalização anual, nós:	

• Removemos os nomes dos clientes, tornando os dados
anônimos	

• Agrupamos os horários de compras, gerando um sumário por
ano
DECIDINDO COMO
AGREGAR OS DADOS
• Qualquer um desses dois itens de dados poderia ser utilizado para
identificar que alguém consome uma quantidade muito grande de
café	

• E se ao invés de café, estivéssemos vendendo bebidas alcóolicas? 	

• Deveríamos alertar um cliente que bebe demais?	

• Se um cliente se envolve em um acidente, os registros do seu
consumo de bebidas alcóolicas poderiam ser utilizados como
prova contra ele?
REFERÊNCIAS
• Data + Design:A simple introduction to preparing
an visualizing information,Tina Chiasson et al

Mais conteúdo relacionado

Mais procurados

Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Tecnicas de coleta de dados e instrumentos- Material maravilhoso
Tecnicas de coleta de dados e instrumentos- Material maravilhosoTecnicas de coleta de dados e instrumentos- Material maravilhoso
Tecnicas de coleta de dados e instrumentos- Material maravilhosoRosane Domingues
 
Aula 5 métodos de conservação de alimentos pela adição de soluto
Aula 5 métodos de conservação de alimentos pela adição de solutoAula 5 métodos de conservação de alimentos pela adição de soluto
Aula 5 métodos de conservação de alimentos pela adição de solutoAlvaro Galdos
 
Apresentação metodologia qualitativa
Apresentação metodologia qualitativaApresentação metodologia qualitativa
Apresentação metodologia qualitativaFernando Dantas
 
Qualificação - Mestrado
Qualificação - MestradoQualificação - Mestrado
Qualificação - Mestradoyanaisama
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
 
Pesquisa Qualitativa e Quantitativa
Pesquisa Qualitativa e QuantitativaPesquisa Qualitativa e Quantitativa
Pesquisa Qualitativa e Quantitativajlpaesjr
 
Aula 01 - legislação aplicada aos alimentos
Aula 01 - legislação aplicada aos alimentosAula 01 - legislação aplicada aos alimentos
Aula 01 - legislação aplicada aos alimentosCristiane Santos
 
Material Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukMaterial Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukHebert Alquimim
 
teste teste teste
teste teste testeteste teste teste
teste teste testemariatuzzin
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Aula 1 introdução à tecnologia de alimentos
Aula 1 introdução à tecnologia de alimentosAula 1 introdução à tecnologia de alimentos
Aula 1 introdução à tecnologia de alimentosAlvaro Galdos
 
Aula 01 - Conhecimento Científico
Aula 01 - Conhecimento CientíficoAula 01 - Conhecimento Científico
Aula 01 - Conhecimento CientíficoGhiordanno Bruno
 

Mais procurados (20)

Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Tecnicas de coleta de dados e instrumentos- Material maravilhoso
Tecnicas de coleta de dados e instrumentos- Material maravilhosoTecnicas de coleta de dados e instrumentos- Material maravilhoso
Tecnicas de coleta de dados e instrumentos- Material maravilhoso
 
Aula 5 métodos de conservação de alimentos pela adição de soluto
Aula 5 métodos de conservação de alimentos pela adição de solutoAula 5 métodos de conservação de alimentos pela adição de soluto
Aula 5 métodos de conservação de alimentos pela adição de soluto
 
Apresentação metodologia qualitativa
Apresentação metodologia qualitativaApresentação metodologia qualitativa
Apresentação metodologia qualitativa
 
O Planejamento Da Pesquisa
O Planejamento Da PesquisaO Planejamento Da Pesquisa
O Planejamento Da Pesquisa
 
Qualificação - Mestrado
Qualificação - MestradoQualificação - Mestrado
Qualificação - Mestrado
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Pesquisa Qualitativa e Quantitativa
Pesquisa Qualitativa e QuantitativaPesquisa Qualitativa e Quantitativa
Pesquisa Qualitativa e Quantitativa
 
Correlação Estatística
Correlação EstatísticaCorrelação Estatística
Correlação Estatística
 
Avaliação de Artigos Científicos
Avaliação de Artigos CientíficosAvaliação de Artigos Científicos
Avaliação de Artigos Científicos
 
Apresentação TCC
Apresentação TCCApresentação TCC
Apresentação TCC
 
Aula 01 - legislação aplicada aos alimentos
Aula 01 - legislação aplicada aos alimentosAula 01 - legislação aplicada aos alimentos
Aula 01 - legislação aplicada aos alimentos
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 
Material Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukMaterial Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos Alexandruk
 
teste teste teste
teste teste testeteste teste teste
teste teste teste
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Aula 1 introdução à tecnologia de alimentos
Aula 1 introdução à tecnologia de alimentosAula 1 introdução à tecnologia de alimentos
Aula 1 introdução à tecnologia de alimentos
 
Método lógico para redação científica
Método lógico para redação científicaMétodo lógico para redação científica
Método lógico para redação científica
 
Aula 01 - Conhecimento Científico
Aula 01 - Conhecimento CientíficoAula 01 - Conhecimento Científico
Aula 01 - Conhecimento Científico
 
Big Data
Big DataBig Data
Big Data
 

Destaque

Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Alexandre Duarte
 
Análise e interpratação dos dados
Análise e interpratação dos dadosAnálise e interpratação dos dados
Análise e interpratação dos dadosAdamo Cruz
 
Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Luís Fernando Tófoli
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Análise de conteúdo de uma entrevista
Análise de conteúdo de uma entrevistaAnálise de conteúdo de uma entrevista
Análise de conteúdo de uma entrevistaDebora Cunha
 
Considerações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisaConsiderações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisaLeticia Strehl
 
Método Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de DadosMétodo Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de DadosNatalia Pina
 
Metodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos geraisMetodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos geraisJuliana Sarieddine
 
Projeto Aprender e Ensinar - Gráficos e Tabelas
Projeto  Aprender e Ensinar  - Gráficos e TabelasProjeto  Aprender e Ensinar  - Gráficos e Tabelas
Projeto Aprender e Ensinar - Gráficos e TabelasCristhianeGuimaraes
 
Interpretação de gráficos e tabelas
Interpretação de gráficos e tabelasInterpretação de gráficos e tabelas
Interpretação de gráficos e tabelasCarlos Priante
 
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...IFSC
 

Destaque (20)

Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Análise de Dados
Análise de DadosAnálise de Dados
Análise de Dados
 
Análise e interpratação dos dados
Análise e interpratação dos dadosAnálise e interpratação dos dados
Análise e interpratação dos dados
 
Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Análise de conteúdo de uma entrevista
Análise de conteúdo de uma entrevistaAnálise de conteúdo de uma entrevista
Análise de conteúdo de uma entrevista
 
análise de conteudo
análise de conteudoanálise de conteudo
análise de conteudo
 
Considerações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisaConsiderações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisa
 
Capítulo 10 de Creswell
Capítulo 10 de CreswellCapítulo 10 de Creswell
Capítulo 10 de Creswell
 
Qualiquanti
QualiquantiQualiquanti
Qualiquanti
 
Método Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de DadosMétodo Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de Dados
 
Metodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos geraisMetodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos gerais
 
Metodos de analises
Metodos de analisesMetodos de analises
Metodos de analises
 
Metodologia científica
Metodologia científicaMetodologia científica
Metodologia científica
 
Projeto Aprender e Ensinar - Gráficos e Tabelas
Projeto  Aprender e Ensinar  - Gráficos e TabelasProjeto  Aprender e Ensinar  - Gráficos e Tabelas
Projeto Aprender e Ensinar - Gráficos e Tabelas
 
Interpretação de gráficos e tabelas
Interpretação de gráficos e tabelasInterpretação de gráficos e tabelas
Interpretação de gráficos e tabelas
 
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
 
Como apresentar os seus dados em gráficos e tabelas
Como apresentar os seus dados em gráficos e tabelasComo apresentar os seus dados em gráficos e tabelas
Como apresentar os seus dados em gráficos e tabelas
 

Mais de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Alexandre Duarte
 
Análise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAnálise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAlexandre Duarte
 
Dicas para calouros na Universidade
Dicas para calouros na UniversidadeDicas para calouros na Universidade
Dicas para calouros na UniversidadeAlexandre Duarte
 
Unidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosUnidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosAlexandre Duarte
 

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
 
Análise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAnálise de Redes Sociais: Introdução
Análise de Redes Sociais: Introdução
 
Dicas para calouros na Universidade
Dicas para calouros na UniversidadeDicas para calouros na Universidade
Dicas para calouros na Universidade
 
Unidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosUnidade 0: Projeto de Experimentos
Unidade 0: Projeto de Experimentos
 

Último

AULÃO de Língua Portuguesa para o Saepe 2022
AULÃO de Língua Portuguesa para o Saepe 2022AULÃO de Língua Portuguesa para o Saepe 2022
AULÃO de Língua Portuguesa para o Saepe 2022LeandroSilva126216
 
Caderno de exercícios Revisão para o ENEM (1).pdf
Caderno de exercícios Revisão para o ENEM (1).pdfCaderno de exercícios Revisão para o ENEM (1).pdf
Caderno de exercícios Revisão para o ENEM (1).pdfJuliana Barbosa
 
INTERTEXTUALIDADE atividade muito boa para
INTERTEXTUALIDADE   atividade muito boa paraINTERTEXTUALIDADE   atividade muito boa para
INTERTEXTUALIDADE atividade muito boa paraAndreaPassosMascaren
 
Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Centro Jacques Delors
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptxJssicaCassiano2
 
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdfRepública Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdfLidianeLill2
 
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...azulassessoria9
 
Missa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfMissa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfFbioFerreira207918
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfAutonoma
 
Aula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .pptAula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .pptNathaliaFreitas32
 
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...SileideDaSilvaNascim
 
Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...
Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...
Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...azulassessoria9
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.denisecompasso2
 
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxMonoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxFlviaGomes64
 
tensoes-etnicas-na-europa-template-1.pptx
tensoes-etnicas-na-europa-template-1.pptxtensoes-etnicas-na-europa-template-1.pptx
tensoes-etnicas-na-europa-template-1.pptxgia0123
 
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfMESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfprofesfrancleite
 
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...AnaAugustaLagesZuqui
 
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...MariaCristinaSouzaLe1
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxMarcosLemes28
 

Último (20)

AULÃO de Língua Portuguesa para o Saepe 2022
AULÃO de Língua Portuguesa para o Saepe 2022AULÃO de Língua Portuguesa para o Saepe 2022
AULÃO de Língua Portuguesa para o Saepe 2022
 
Caderno de exercícios Revisão para o ENEM (1).pdf
Caderno de exercícios Revisão para o ENEM (1).pdfCaderno de exercícios Revisão para o ENEM (1).pdf
Caderno de exercícios Revisão para o ENEM (1).pdf
 
INTERTEXTUALIDADE atividade muito boa para
INTERTEXTUALIDADE   atividade muito boa paraINTERTEXTUALIDADE   atividade muito boa para
INTERTEXTUALIDADE atividade muito boa para
 
Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdfRepública Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
República Velha (República da Espada e Oligárquica)-Sala de Aula.pdf
 
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou...
 
Missa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfMissa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdf
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
 
Aula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .pptAula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .ppt
 
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
 
Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...
Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...
Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.
 
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxMonoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
 
tensoes-etnicas-na-europa-template-1.pptx
tensoes-etnicas-na-europa-template-1.pptxtensoes-etnicas-na-europa-template-1.pptx
tensoes-etnicas-na-europa-template-1.pptx
 
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfMESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
 
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
 
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptx
 
Novena de Pentecostes com textos de São João Eudes
Novena de Pentecostes com textos de São João EudesNovena de Pentecostes com textos de São João Eudes
Novena de Pentecostes com textos de São João Eudes
 

Introdução à Analise de Dados - aula 3 - Agregação de Dados

  • 1. AGREGAÇÃO DE DADOS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  • 2. OBJETIVOS DA AULA • Apresentar a primeira etapa do processo de transformação de dados em informação • Descrever os diferentes níveis de agregação de dados • Exibir erros comuns na análise de dados agregados
  • 3. NÍVEIS DE AGREGAÇÃO Fato Série Multi-série Multi-série somável Registros de sumário Transações individuais Habilidade para explorar os dados - +
  • 4. NÍVEIS DE AGREGAÇÃO Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362 Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657 Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
  • 5. FATO • Um fato (factoid) é um ponto único de informação • Calculado a partir dos dados crus, é escolhido para enfatizar um ponto específico • Não possibilita qualquer exploração dos dados ! 36.7% do café vendido em 2000 foi consumido por mulheres.
  • 6. SÉRIE • Apresenta um tipo de informação (variável dependente) comparado com outra (variável independente) • Frequentemente a variável independente é o tempo
  • 7. SÉRIE • Neste exemplo, o total de vendas depende do ano • Ou seja, o ano é independente (escolha um ano) e o total de vendas é dependente (baseado nesta escolha, o consumo foi de x) Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
  • 8. SÉRIE • Uma série também pode ser baseada em valores contínuos, como temperatura. Temperatura da Água (C) Tempo até uma queimadura de 1o grau 116 35 minutos 122 1 mínuto 131 5 segundos 140 2 segundos 149 1 segundo 154 Instantâneo
  • 9. SÉRIE • Ou ser uma seqüência de valores não-contíguos, mas relacionados em uma mesma categoria Planeta Massa relativa á da Terra Mercúrio 0.0553 Vênus 0.815 Terra 1 Marte 0.107 Júpiter 317.8 Saturno 95.2 Urano 14.5 Netuno 17.1
  • 10. SÉRIE • Em muitos casos uma série possui apenas uma variável dependente para cada variável independente • Em outras palavras, há apenas um valor para o consumo total de café para cada ano • Este tipo de informação geralmente é exibido utilizando um gráfico de barras, de colunas ou de série temporal
  • 11. SÉRIE Total de vendas 0 35000 70000 105000 140000 2000 2001 2002 2003 2004 2005 2006 2007 2008
  • 12. MULTI-SÉRIE • Uma multi-série é um conjunto de dados que possui vários itens de informação dependente para um único item de informação independente • Com esse conjunto de dados sabemos que em 2001 foram servidas 16.452 doses de café para homens e 14.021 doses de café regular (com cafeína e açúcar) Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
  • 13. MULTI-SÉRIE • Porém, não sabemos como combinar essas duas informações de forma útil: elas não são relacionadas! • Não temos como dizer qual o percentual de cafés regulares servidos para homens • Multi-série são simplesmente várias séries em um mesmo gráfico ou tabela • Podemos exibi-las juntas mas não temos como combiná-las de forma significativa
  • 14. MULTI-SÉRIE 0 17500 35000 52500 70000 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino Regular
  • 15. MULTI-SÉRIE SOMÁVEL • Como o próprio nome já sugere, uma multi-série somável diz respeito a uma estatística em particular (sexo, tipo de café) segmentada em subgrupos Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
  • 16. MULTI-SÉRIE SOMÁVEL • Como sabemos que um bebedor de café é homem ou mulher, podemos somar estes valores para obter uma observação sobre o total de consumo e com isso exibir porcentagens Consumo de Café por sexo em 2001 28% 72% Homem Mulher
  • 17. MULTI-SÉRIE SOMÁVEL Consumo total de café, por sexo 0 35000 70000 105000 140000 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino Feminino
  • 18. MULTI-SÉRIE SOMÁVEL • Um desafio ao se utilizar multi-séries é entender quais séries podem ser combinadas. • Não há nada nesta tabela que nos diga como combinar estas informações - processamento humano! Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362 Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657 Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
  • 19. É DIFÍCIL EXPLORAR DADOS RESUMIDOS • 36.7% das cafés vendidos em 2000 foram consumidos por mulheres • Foram vendidos 9.929 cafés regulares em 200 • Portanto, mulheres compraram 3643.9 cafés regulares em 2010
  • 20. É DIFÍCIL EXPLORAR DADOS RESUMIDOS • Errado! • O fato do resultado ser uma fração já nos mostra que isso não é uma boa idéia (ninguém compra .9 xícaras de café) • Este tipo de inferência só pode ser feita se soubermos como uma categoria (tipo de café) é distribuída em uma outra categoria (sexo). • A única forma de explorar realmente os dados e poder responder novas questões é analisar os dados crus • Depois é preciso saber como agregá-los corretamente
  • 21. REGISTROS DE SUMÁRIO Nome Sexo Regular Decaf Mocha Total Pedro M 2 3 1 6 Maria F 4 0 0 4 José M 1 2 4 7 Joana F 3 1 0 4 Belinha F 1 0 0 1 João M 2 1 3 6 Biu M 3 1 0 4 Jacó M 0 0 1 1 Total 5M, 3F 16 8 9 33
  • 22. REGISTROS DE SUMÁRIO • Esse tipo de tabela é bastante familiar para qualquer um que já usou o Excel • Tivemos 5 consumidores do sexo masculino e 3 do feminino • Vendemos 16 cafés regulares, 8 decaf e 9 mochas, totalizando 33 cafés
  • 23. REGISTROS DE SUMÁRIO • Mas o mais importante é que podemos combinar categorias de dados para responder mais perguntas exploratória • Por exemplo “Mulheres preferem algum tipo específico de café?”
  • 24. REGISTROS DE SUMÁRIO • Olhando esta tabela podemos "afirmar" que mulheres preferem café regular e homens não têm uma preferência específica. Sexo Média de Regulares Média de Decaf Média de Mocha M 1.60 1.40 1.80 F 2.67 0.33 0.00 Total 2.29 1.14 1.14
  • 25. REGISTROS DE SUMÁRIO • Mesmo agora ainda temos algum nível de agregação • Resumimos os dados em várias dimensões - sexo e tipo de café - ao agregá-los por nome de cliente. • Apesar desses ainda não serem os dados crus, já estamos bem próximos disso. • Uma vantagem desse agrupamento é reduzir o tamanho do conjunto de dados
  • 26. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • É comum agregar registros de sumário ou dados crus para podermos exibi-los mais facilmente. • Considere as seguintes transações Nome Regular Decaf Mocha Pedro 2 3 1 Maria 4 0 0 José 1 2 4 Joana 3 1 0 Belinha 1 0 0 João 2 1 3 Biu 3 1 0 Jacó 0 0 1 Total 16 8 9 Médias 2 1 1.125
  • 27. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES Média de xícaras consumidas 0 0.5 1 1.5 2 Regular Decaf Mocha
  • 28. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • A média esconde detalhes! • É possível que algumas pessoas tenham tomado uma única dose de um determinado café e outras tenham tomando várias doses. • Existem formas mais adequadas para observar as variações de forma a melhor exibir a forma de uma informação • Se mantemos os dados crus podemos entrelaçar mais de uma variável dependente a cada variável independente.
  • 29. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES Frequênciadecadaevento 0 1 2 3 1 2 3 4 5 6 7 Moda: o número mais frequente de cafés consumidos é 4 Média: o número médio de cafés por cliente é 4.12
  • 30. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • A média foi 4.12 porém o histograma demonstra que há 3 clientes que bebem muito café! • Quando se tem os dados crus é possível identificar exceções e pontos fora da curva (outliers) e contar uma história mais precisa. • Porém, estes ainda não são os dados crus!
  • 31. TRANSAÇÕES INDIVIDUAIS • Estas transações podem ser agregadas por qualquer coluna. • O tempo também pode ser agregado em intervalos (hora, dia, ano, etc) • Os dados que vimos lá no início da aula podem ser facilmente gerados a partir de um conjunto de transações como estas • Mas é impossível fazer o caminho inverso! Hora Nome Sexo Café 17:00 Pedro M Regular 17:01 Maria F Regular 17:02 José M Mocha 17:03 Joana F Decaf 17:04 Belinha F Regular 17:05 João M Regular 17:06 Biu M Mocha 17:07 Jacó M Decaf
  • 32. DECIDINDO COMO AGREGAR OS DADOS • Quando agregamos dados crus como estes para gerar sumários como os que vimos hoje nós perdemos a história dos dados • Por exemplo, quando agrupamos as transações individuais para fazer uma totalização anual, nós: • Removemos os nomes dos clientes, tornando os dados anônimos • Agrupamos os horários de compras, gerando um sumário por ano
  • 33. DECIDINDO COMO AGREGAR OS DADOS • Qualquer um desses dois itens de dados poderia ser utilizado para identificar que alguém consome uma quantidade muito grande de café • E se ao invés de café, estivéssemos vendendo bebidas alcóolicas? • Deveríamos alertar um cliente que bebe demais? • Se um cliente se envolve em um acidente, os registros do seu consumo de bebidas alcóolicas poderiam ser utilizados como prova contra ele?
  • 34. REFERÊNCIAS • Data + Design:A simple introduction to preparing an visualizing information,Tina Chiasson et al