SlideShare uma empresa Scribd logo
1 de 33
Análise de Dados
Professor Rafael Escalfoni
Análise de Dados
Processo de aplicação de técnicas estatísticas e lógicas para avaliar
informações obtidas visando extrair informações úteis a partir dos
dados
Estatística
 É a linguagem comum da ciência, usada para converter dados em
informações úteis
 Processo:
 Coleta de dados
 Análise exploratória
 Inferência
Visão Sistêmica da Estatística
 A partir de valores obtidos em uma amostra de uma certa
população de interesse,
 descrevemos esta amostra e caracterizamos a população como um
todo, generalizando as observações na amostra.
 Tirar conclusões sobre uma população com base em uma amostra
de observações.
• Estatística descritiva: parte da estatística que descreve os aspectos importantes de um
conjunto de características observadas.
• Probabilidade: número que indica a chance de uma determinada situação ocorrer.
• Inferência estatística: parte da estatística que usa uma amostra para fazer generalizações a
respeito de aspectos importantes de uma população.
Análises Estatísticas
Amostra
População
Estatística
descritiva
Probabilidade
Erro
Inferência
estatística
Dedução e Indução
População é
conhecida
Amostra?
População ??
Amostra é
conhecida
Dedução => Probabilidade
Indução => Inferência estatística
Definições básicas iniciais
 População
 Coleção completa de todos os elementos a serem estudados (Ex.: todos os alunos da
sala de aula)
 Censo
 Coleção de dados relativos a todos os elementos de uma população (Ex.: idade de
todos os alunos da sala de aula)
 Amostra
 Coleção de dados extraídos de uma parcela da população (Ex.: idade de 10% dos
alunos da sala de aula)
 Parâmetro
 Medida numérica que descreve uma característica de uma população (Ex.: idade média de toda
a turma é um parâmetro)
 Estatística
 Medida numérica que descreve uma característica de uma amostra (Ex.: idade média da turma
baseada numa amostra de 10% dos alunos é uma estatística)
 Estimativa
 Valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro
de interesse
Definições básicas iniciais
 Dado:
 Informação
 Aquilo que caracteriza determinada coisa
 Resultado de uma observação ou experimento
 Ex.: dados de altura de indivíduos de um grupo. 1,75m; 1,82m; 1,65m; ...
 Variável:
 A característica em si
 Ex.: altura de indivíduos de um grupo
Dados e Variáveis
Natureza das Variáveis
Variáveis
Qualitativas
(são atributos)
Ex.: sexo, religião,
naturalidade, cor
dos olhos, etc.
Quantitativas
(são numéricas)
Discretas
Conjunto finito de valores –
conjunto enumerável
“CONTAGEM”
(1,2,3,4...)
Ex.: qtd. de estudantes em um
uma disciplina; qtd. de
cômodos em uma residência
Contínuas
Número infinito de valores
possíveis – escala contínua
“MENSURAÇÃO”
(Ex.: medidas de tempo:
tempo de vôo entre duas
cidades; duração da bateria
de um celular)
Exercício 1: Contínuo ou Discreto?
Uma marca de cigarro possui 16,13mg de alcatrão
O altímetro de um avião indica uma altitude de 21.359 pés
Uma pesquisa efetuada com 1015 pessoas indica que 40 não
possuem acesso à internet
O radar indica uma velocidade de 81 km/h
De 1000 consumidores pesquisados, 930 reconheceram uma
marca de sopa
Fazendo um regime, um executivo perdeu 13,45kg
Exercício 1: Contínuo ou Discreto?
Uma marca de cigarro possui 16,13mg de alcatrão
O altímetro de um avião indica uma altitude de 21.359 pés
O radar indica uma velocidade de 81 km/h
De 1000 consumidores pesquisados, 930 reconheceram
uma marca de sopa
Fazendo um regime, um executivo perdeu 13,45kg
C
C
D Uma pesquisa efetuada com 1015 pessoas indica que 40
não possuem acesso à internet
C
D
C
Reflexão
Para comprovar que muitos conceitos em Probabilidade e Estatística são
intuitivos, acabamos de falar em “população” e “amostra” e quase todos
compreenderam naturalmente do que se trata!
Abusos da Estatística
Pequenas amostras
Pesquisou-se 10 dentistas. “7 entre 10 dentistas
preferem dentifrício X.”
Estimativas por suposição
“Igreja estimou em 2 milhões os fiéis presentes em
missa do padre Marcelo Rossi em São Paulo.” Fotos
aéreas e cálculos baseados em grades estimaram
80.000 pessoas.
Porcentagens distorcidas
“Tirei 1 na primeira prova. Tirei 2 na segunda prova.
Melhorei 100%!”
Abusos da Estatística
Distorções deliberadas
“Pesquisas feitas entre usuários de TchauFumaça
mostram que 98% deixou de fumar.” Duas pesquisas
feitas entre os funcionários da empresa fabricante de
TchauFumaça.
Perguntas tendenciosas
“Você é a favor da suspensão do pagamento da
dívida externa, sobrando assim mais dinheiro para
ajudar as criancinhas famintas?”
“Você é a favor da proibição de fabrico e venda de
armas mortíferas de fogo no Brasil?”
Abusos da Estatística
Gráficos enganosos
Ganho Semanal
754
520
500
400
300
200
100
0
600
800
700
Homens Mulheres
Ganho Semanal
754
520
700
650
600
550
500
800
750
Homens Mulheres
Abusos da Estatística
Pressão do pesquisador ou ambiente
“Você já traiu seu(a) companheiro(a)?”
Pergunta feita com o(a) companheiro(a) ao
lado.
Más amostras
Pesquisas feitas em sites da internet
(pesquisa auto-selecionada)
Não se pode concluir nada sobre a população
em geral!
Coleta de Dados
População
É o grupo inteiro que se deseja
observar
Normalmente, é muito grande,
o que impossibilita o estudo
completo
Amostra
Subgrupo representativo da
população
Como obter uma amostra
significativa, sem vieses???
Espaço Amostral
Coleção de todos os
resultados possíveis de um
experimento
Análise
Exploratória
de Dados
 A partir da base de dados obtida,
podemos formular questões que nos
direcionarão na construção de
conhecimento
 Para entender a natureza dos dados,
precisamos de um passo que auxilie na
síntese dos dados, chamado ANÁLISE
EXPLORATÓRIA DE DADOS
 Revela novas maneiras de pensar sobre os
dados
 Ajuda cientistas a refinar suas perguntas
 O que podemos generalizar a partir
das observações???
Inferência
Após a análise exploratória de
dados, podemos responder
questões específicas dos
nossos dados
Inferência é um passo que visa
analisar a aplicabilidade dos
achados em toda a população
(generalização)
ANÁLISE INFERENCIAL DOS
DADOS
DADOS???
Dados
 São informações sobre indivíduos organizados em variáveis
 Indivíduos
 Unidade de observação
 Pessoa ou objeto em particular de observação na sua amostra de estudo
 Variável
 Determinada característica de uma unidade de observação
 Pessoa: altura, peso, sexo, raça, religião...
 Carro: modelo, tamanho do pneu, quilometragem, modelo...
 Conjunto de dados (dataset)
 Dados acerca de indivíduos observados e suas variáveis
Tipos de
Variáveis
- requerem abordagens
diferentes para análise
estatística
• Assumem valores numéricos e representam alguma medida
• Exemplos: 178cm de altura, 65kg de massa, 36ºC de
temperatura ambiente...
Variáveis Quantitativas
• Rotulam valores em grupos
• Exemplos: Fumante, Idoso, Nível superior completo
• Variáveis categóricas são codificadas com números (0 – não
fumante; 1 – fumante; 99 – não informado)
• Códigos fictícios - Não faz sentido realizar cálculos matemáticos
Variáveis Categóricas
• Variável que se destina a distinguir as unidades de observação
Identificador único
Variável Aleatória
 Variável quantitativa cujo valor depende de fatores aleatórios
 Considere um dado de seis faces
X =
1
2
3
4
5
6
Pr (X>3) = 0.5
Pr (X=1) = 1/6
Variável Aleatória
 Discretas
 conjunto de valores possíveis é finitos
 exemplo: moeda, dado, número de assaltos...
 Contínuas
 quantidade de valores possíveis é indeterminado
 exemplo: peso, altura, tempo em uma fila
 Em todos esses casos, a medida dependerá da precisão do equipamento: kg,
g? m, cm, mm? horas, minutos, segundos, milissegundos?
Codebooks (livros de códigos)
 São dicionários de dados, que oferecem informações acerca do
conjunto de dados
 Dados são inúteis se não forem completamente interpretáveis.
 Boas bases de dados possuem codebooks bem detalhados
 Boa fonte para formulação de perguntas de pesquisa
 Descrição das variáveis:
 significado
 valores válidos
Pergunta de Pesquisa
 Após selecionar uma base de dados bem formatada, escolha um tema de
interesse
 Uma forma interessante de formular uma pergunta de pesquisa é buscar a
influência que uma variável pode produzir em uma outra
 Exemplo:
 Tema de interesse: dependência da nicotina
 Variáveis escolhidas: dependência da nicotina ao longo da vida TABLIFEDX; uso de
cigarros nos últimos 12 meses TAB12MDX
 Questão de Pesquisa: TAB12MDX implica em TABLIFEDX?
 O uso de cigarros ao longo dos últimos 12 meses aumentam a chance de
dependência da nicotina para a vida inteira?
Pergunta de pesquisa
 As bases de dados normalmente são muito extensas.
 Faça uma análise panorâmica de seus dados, busque por algum insight
baseado nos seus conhecimentos e na literatura atual
 Certamente, temos alguma expectativa a respeito da nossa questão de
pesquisa
 É provável que quanto mais um indivíduo fuma ao longo do ano, maior a
probabilidade dele se tornar dependente
 Cuidado para não enviesar sua pesquisa! Tente controlar suas paixões...
Análise
Exploratória
de Dados
Análise exploratória de dados visa dar
sentido a esses dados
Organizar e resumir
dados brutos,
procurando
características
importantes e padrões
em dados, algum desvio
de padrão.
Interpretar as
descobertas no contexto
do problema ou questão
de pesquisa
Dados Brutos (raw data) são longas listas
de números e rótulos que não parecem
muito informativos. Não tem contexto
Análise
Exploratória
de Dados
Organizar e Resumir Dados Brutos
Procurar por características e padrões
importantes
Pesquisar por qualquer desvio de
padrões relevante
Interpretar os resultados no contexto da
pesquisa
Análise de Exploratória de Dados Bivariada
 Olhar uma variável de cada vez:
 Examinar a distribuição de uma variável – observar
quais valores a variável assume e com que
frequência esses valores se repetem
 Como usaremos massas de dados enormes,
usaremos softwares estatísticos
 Python
Atividade:
 Defina um dataset para iniciar sua análise exploratória
 Faça uma leitura do codebook da sua base e defina uma questão de
pesquisa
 Estabeleça sua hipótese
 Embase sua hipótese na literatura (busque artigos que fundamentem sua
pesquisa)
 Enumere as variáveis que serão utilizadas
Distribuições

Mais conteúdo relacionado

Semelhante a aula_analiseDeDados.pptx

Semelhante a aula_analiseDeDados.pptx (20)

estatistica aula 1.pdf
estatistica aula 1.pdfestatistica aula 1.pdf
estatistica aula 1.pdf
 
2012 aula1 (1)
2012 aula1 (1)2012 aula1 (1)
2012 aula1 (1)
 
Apostila de estatística
Apostila de  estatística Apostila de  estatística
Apostila de estatística
 
estatistica discreta, estatistica inferencial
estatistica discreta, estatistica inferencialestatistica discreta, estatistica inferencial
estatistica discreta, estatistica inferencial
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slides
 
Probabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidadeProbabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidade
 
Estatística para Ciências Sociais
Estatística para Ciências SociaisEstatística para Ciências Sociais
Estatística para Ciências Sociais
 
Introd computacao
Introd computacaoIntrod computacao
Introd computacao
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00
 
Apostila estatistica descritiva ii
Apostila estatistica descritiva iiApostila estatistica descritiva ii
Apostila estatistica descritiva ii
 
Apostila de estatística descritiva
Apostila de estatística descritivaApostila de estatística descritiva
Apostila de estatística descritiva
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimica
 
Estatística aula 01
Estatística aula 01Estatística aula 01
Estatística aula 01
 
EstatisticaConceitos.pptx
EstatisticaConceitos.pptxEstatisticaConceitos.pptx
EstatisticaConceitos.pptx
 
amostragem.ppt
amostragem.pptamostragem.ppt
amostragem.ppt
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
Libro de estastitica
Libro de estastiticaLibro de estastitica
Libro de estastitica
 
Livro estatistica
Livro estatisticaLivro estatistica
Livro estatistica
 
Amostragem - estatistica
Amostragem - estatisticaAmostragem - estatistica
Amostragem - estatistica
 

aula_analiseDeDados.pptx

  • 1. Análise de Dados Professor Rafael Escalfoni
  • 2. Análise de Dados Processo de aplicação de técnicas estatísticas e lógicas para avaliar informações obtidas visando extrair informações úteis a partir dos dados
  • 3. Estatística  É a linguagem comum da ciência, usada para converter dados em informações úteis  Processo:  Coleta de dados  Análise exploratória  Inferência
  • 4. Visão Sistêmica da Estatística  A partir de valores obtidos em uma amostra de uma certa população de interesse,  descrevemos esta amostra e caracterizamos a população como um todo, generalizando as observações na amostra.  Tirar conclusões sobre uma população com base em uma amostra de observações.
  • 5. • Estatística descritiva: parte da estatística que descreve os aspectos importantes de um conjunto de características observadas. • Probabilidade: número que indica a chance de uma determinada situação ocorrer. • Inferência estatística: parte da estatística que usa uma amostra para fazer generalizações a respeito de aspectos importantes de uma população. Análises Estatísticas Amostra População Estatística descritiva Probabilidade Erro Inferência estatística
  • 6. Dedução e Indução População é conhecida Amostra? População ?? Amostra é conhecida Dedução => Probabilidade Indução => Inferência estatística
  • 7. Definições básicas iniciais  População  Coleção completa de todos os elementos a serem estudados (Ex.: todos os alunos da sala de aula)  Censo  Coleção de dados relativos a todos os elementos de uma população (Ex.: idade de todos os alunos da sala de aula)  Amostra  Coleção de dados extraídos de uma parcela da população (Ex.: idade de 10% dos alunos da sala de aula)
  • 8.  Parâmetro  Medida numérica que descreve uma característica de uma população (Ex.: idade média de toda a turma é um parâmetro)  Estatística  Medida numérica que descreve uma característica de uma amostra (Ex.: idade média da turma baseada numa amostra de 10% dos alunos é uma estatística)  Estimativa  Valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro de interesse Definições básicas iniciais
  • 9.  Dado:  Informação  Aquilo que caracteriza determinada coisa  Resultado de uma observação ou experimento  Ex.: dados de altura de indivíduos de um grupo. 1,75m; 1,82m; 1,65m; ...  Variável:  A característica em si  Ex.: altura de indivíduos de um grupo Dados e Variáveis
  • 10. Natureza das Variáveis Variáveis Qualitativas (são atributos) Ex.: sexo, religião, naturalidade, cor dos olhos, etc. Quantitativas (são numéricas) Discretas Conjunto finito de valores – conjunto enumerável “CONTAGEM” (1,2,3,4...) Ex.: qtd. de estudantes em um uma disciplina; qtd. de cômodos em uma residência Contínuas Número infinito de valores possíveis – escala contínua “MENSURAÇÃO” (Ex.: medidas de tempo: tempo de vôo entre duas cidades; duração da bateria de um celular)
  • 11. Exercício 1: Contínuo ou Discreto? Uma marca de cigarro possui 16,13mg de alcatrão O altímetro de um avião indica uma altitude de 21.359 pés Uma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internet O radar indica uma velocidade de 81 km/h De 1000 consumidores pesquisados, 930 reconheceram uma marca de sopa Fazendo um regime, um executivo perdeu 13,45kg
  • 12. Exercício 1: Contínuo ou Discreto? Uma marca de cigarro possui 16,13mg de alcatrão O altímetro de um avião indica uma altitude de 21.359 pés O radar indica uma velocidade de 81 km/h De 1000 consumidores pesquisados, 930 reconheceram uma marca de sopa Fazendo um regime, um executivo perdeu 13,45kg C C D Uma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internet C D C
  • 13. Reflexão Para comprovar que muitos conceitos em Probabilidade e Estatística são intuitivos, acabamos de falar em “população” e “amostra” e quase todos compreenderam naturalmente do que se trata!
  • 14. Abusos da Estatística Pequenas amostras Pesquisou-se 10 dentistas. “7 entre 10 dentistas preferem dentifrício X.” Estimativas por suposição “Igreja estimou em 2 milhões os fiéis presentes em missa do padre Marcelo Rossi em São Paulo.” Fotos aéreas e cálculos baseados em grades estimaram 80.000 pessoas. Porcentagens distorcidas “Tirei 1 na primeira prova. Tirei 2 na segunda prova. Melhorei 100%!”
  • 15. Abusos da Estatística Distorções deliberadas “Pesquisas feitas entre usuários de TchauFumaça mostram que 98% deixou de fumar.” Duas pesquisas feitas entre os funcionários da empresa fabricante de TchauFumaça. Perguntas tendenciosas “Você é a favor da suspensão do pagamento da dívida externa, sobrando assim mais dinheiro para ajudar as criancinhas famintas?” “Você é a favor da proibição de fabrico e venda de armas mortíferas de fogo no Brasil?”
  • 16. Abusos da Estatística Gráficos enganosos Ganho Semanal 754 520 500 400 300 200 100 0 600 800 700 Homens Mulheres Ganho Semanal 754 520 700 650 600 550 500 800 750 Homens Mulheres
  • 17. Abusos da Estatística Pressão do pesquisador ou ambiente “Você já traiu seu(a) companheiro(a)?” Pergunta feita com o(a) companheiro(a) ao lado. Más amostras Pesquisas feitas em sites da internet (pesquisa auto-selecionada) Não se pode concluir nada sobre a população em geral!
  • 18. Coleta de Dados População É o grupo inteiro que se deseja observar Normalmente, é muito grande, o que impossibilita o estudo completo Amostra Subgrupo representativo da população Como obter uma amostra significativa, sem vieses??? Espaço Amostral Coleção de todos os resultados possíveis de um experimento
  • 19. Análise Exploratória de Dados  A partir da base de dados obtida, podemos formular questões que nos direcionarão na construção de conhecimento  Para entender a natureza dos dados, precisamos de um passo que auxilie na síntese dos dados, chamado ANÁLISE EXPLORATÓRIA DE DADOS  Revela novas maneiras de pensar sobre os dados  Ajuda cientistas a refinar suas perguntas  O que podemos generalizar a partir das observações???
  • 20. Inferência Após a análise exploratória de dados, podemos responder questões específicas dos nossos dados Inferência é um passo que visa analisar a aplicabilidade dos achados em toda a população (generalização) ANÁLISE INFERENCIAL DOS DADOS
  • 22. Dados  São informações sobre indivíduos organizados em variáveis  Indivíduos  Unidade de observação  Pessoa ou objeto em particular de observação na sua amostra de estudo  Variável  Determinada característica de uma unidade de observação  Pessoa: altura, peso, sexo, raça, religião...  Carro: modelo, tamanho do pneu, quilometragem, modelo...  Conjunto de dados (dataset)  Dados acerca de indivíduos observados e suas variáveis
  • 23. Tipos de Variáveis - requerem abordagens diferentes para análise estatística • Assumem valores numéricos e representam alguma medida • Exemplos: 178cm de altura, 65kg de massa, 36ºC de temperatura ambiente... Variáveis Quantitativas • Rotulam valores em grupos • Exemplos: Fumante, Idoso, Nível superior completo • Variáveis categóricas são codificadas com números (0 – não fumante; 1 – fumante; 99 – não informado) • Códigos fictícios - Não faz sentido realizar cálculos matemáticos Variáveis Categóricas • Variável que se destina a distinguir as unidades de observação Identificador único
  • 24. Variável Aleatória  Variável quantitativa cujo valor depende de fatores aleatórios  Considere um dado de seis faces X = 1 2 3 4 5 6 Pr (X>3) = 0.5 Pr (X=1) = 1/6
  • 25. Variável Aleatória  Discretas  conjunto de valores possíveis é finitos  exemplo: moeda, dado, número de assaltos...  Contínuas  quantidade de valores possíveis é indeterminado  exemplo: peso, altura, tempo em uma fila  Em todos esses casos, a medida dependerá da precisão do equipamento: kg, g? m, cm, mm? horas, minutos, segundos, milissegundos?
  • 26. Codebooks (livros de códigos)  São dicionários de dados, que oferecem informações acerca do conjunto de dados  Dados são inúteis se não forem completamente interpretáveis.  Boas bases de dados possuem codebooks bem detalhados  Boa fonte para formulação de perguntas de pesquisa  Descrição das variáveis:  significado  valores válidos
  • 27. Pergunta de Pesquisa  Após selecionar uma base de dados bem formatada, escolha um tema de interesse  Uma forma interessante de formular uma pergunta de pesquisa é buscar a influência que uma variável pode produzir em uma outra  Exemplo:  Tema de interesse: dependência da nicotina  Variáveis escolhidas: dependência da nicotina ao longo da vida TABLIFEDX; uso de cigarros nos últimos 12 meses TAB12MDX  Questão de Pesquisa: TAB12MDX implica em TABLIFEDX?  O uso de cigarros ao longo dos últimos 12 meses aumentam a chance de dependência da nicotina para a vida inteira?
  • 28. Pergunta de pesquisa  As bases de dados normalmente são muito extensas.  Faça uma análise panorâmica de seus dados, busque por algum insight baseado nos seus conhecimentos e na literatura atual  Certamente, temos alguma expectativa a respeito da nossa questão de pesquisa  É provável que quanto mais um indivíduo fuma ao longo do ano, maior a probabilidade dele se tornar dependente  Cuidado para não enviesar sua pesquisa! Tente controlar suas paixões...
  • 29. Análise Exploratória de Dados Análise exploratória de dados visa dar sentido a esses dados Organizar e resumir dados brutos, procurando características importantes e padrões em dados, algum desvio de padrão. Interpretar as descobertas no contexto do problema ou questão de pesquisa Dados Brutos (raw data) são longas listas de números e rótulos que não parecem muito informativos. Não tem contexto
  • 30. Análise Exploratória de Dados Organizar e Resumir Dados Brutos Procurar por características e padrões importantes Pesquisar por qualquer desvio de padrões relevante Interpretar os resultados no contexto da pesquisa
  • 31. Análise de Exploratória de Dados Bivariada  Olhar uma variável de cada vez:  Examinar a distribuição de uma variável – observar quais valores a variável assume e com que frequência esses valores se repetem  Como usaremos massas de dados enormes, usaremos softwares estatísticos  Python
  • 32. Atividade:  Defina um dataset para iniciar sua análise exploratória  Faça uma leitura do codebook da sua base e defina uma questão de pesquisa  Estabeleça sua hipótese  Embase sua hipótese na literatura (busque artigos que fundamentem sua pesquisa)  Enumere as variáveis que serão utilizadas