Curso introdutório 
Rodrigo Lins Rodrigues
Quem sou eu ? 
 Professor da UFRPE do curso de Licenciatura 
em Computação 
 Estudante de doutorado em Ciência da 
Computação 
 Pesquiso sobre Mineração de Dados 
Educacionais; 
 Contatos: 
 Email: rlr@ded.ufrpe.br 
 Facebook: /rodrigomuribec 
2
Agenda 
Introdução a Estatística; 
 Entendendo população e amostra; 
 Estatística descritiva; 
 Introdução a Inferência Estatística; 
 Formulando e testando hipóteses; 
 Análises de regressão; 
 Aplicações computacionais. 
3
...Vamos entender um pouco 
sobre o que é a estatística ? 
4
Introdução a Estatística 
• A estatística lida com o 
planejamento, coleta, análise e 
interpretação dos dados como 
ferramentas auxiliares na tomada 
de decisões e resolução de 
problemas; 
• Áreas da computação que utilizam 
estatística: IA, Engenharia de 
software, banco de dados, redes, 
extração de informação, etc.
Introdução a Estatística 
• Algumas áreas e técnicas da estatística... 
▫ Estatística descritiva; 
▫ Planejamento de experimentos; 
▫ Análise multivariada; 
▫ Estatística não-paramétrica; 
▫ Análise de regressão; 
▫ Modelos lineares; 
▫ Séries temporais; 
▫ Tecnologia da amostragem; 
▫ Controle de qualidade; 
▫ ...Etc.
Interação entre a estatística e a pesquisa 
científica 
Análise Estatística 
Descritiva 
Análise Inferencial 
Conclusões 
Formulação de hipóteses 
Tema de pesquisa 
Definição do 
problema 
Amostragem
...Para que serve uma amostra 
? 
8
...Para que serve uma amostra 
? 
9
Entendendo população e amostra; 
• É através da amostra que podemos inferir sobre os 
parâmetros de uma população; 
• A amostra deve ser representativa; 
• Se o tamanho dessas amostras 
cresce mais precisas são as 
conclusões obtidas; 
• Experimentos com amostras muito 
grandes se aproximam de um 
CENSO.
Entendendo população e amostra; 
• Por que fazer amostragem ao invés de censo? 
▫ Economia 
▫ Menor tempo 
▫ Maior qualidade nos dados levantados 
▫ População infinita. 
▫ Mais fácil, com resultados satisfatórios.
•xxxxx 
12 
Entendendo população e amostra;
•xxxxx 
13 
Entendendo população e amostra;
14 
Técnicas de amostragem
• Alguns elementos são necessários saber para 
calcular o tamanho da amostra: 
▫ Confiança da pesquisa; 
▫ Tamanho da população; 
▫ Características da população; 
▫ Etc... 
15 
Tamanho da amostra
...Agora que já temos nossa 
amostra o que devemos fazer 
? 
16
...Estatística descritiva ou 
exploratória 
17
18 
Estatística Descritiva 
O que fazer com as observações que 
coletamos inicialmente em uma 
pesquisa? 
Primeira Etapa: 
Resumo dos dados = Estatística 
descritiva
• Primeiro vamos entender tipos de dados 
19 
Estatística descritiva 
Categóricas Numéricas 
Nominal 
(classificação) 
Ordinal 
(classificação) 
Discreta 
(contagem) 
Contínua 
(mensuração) 
sexo, raça, 
região, grupo 
sangüíneo 
pressão 
sangüínea 
(baixa, 
normal, alta) 
Número de 
acidentes, 
número de 
filhos 
Peso, altura, 
pressão 
sangüínea
• Medidas de posição → Média, mediana, 
moda; 
• Medidas de dispersão → Amplitude, 
desvio padrão e variância; 
• Medidas de posição relativa → 
escores, quartis e percentis; 
• Medidas relacionadas à forma → 
medidas de assimetria e curtose; 
20 
Estatística Descritiva
Estatística Descritiva 
Medidas de variação (dispersão) 
• São medidas que servem para verificar o quanto os dados 
estão dispersos em torno da medida central; 
• São utilizadas para verificar o quanto os dados são 
heterogêneos; 
• É muito utilizada para verificar se realmente a medida de 
tendência central é representativa;
Estatística Descritiva 
Tabelas de distribuição de frequencias 
• Exemplo
Estatística Descritiva 
• Tabela exemplo 2 (classes e proporção)
Estatística Descritiva 
• Gráfico da distribuição de frequência 
• Um histograma consiste em um 
conjunto de retângulos que 
representam as classes cujas bases 
são iguais às suas amplitudes e são 
centradas no ponto médio de cada 
classe.
Estatística Descritiva 
Tabelas de dupla entrada 
• Exemplo de uma tabela de dupla entrada 
sexo Curso 1 
Estatística 
Curso 2 
Engenharia 
total 
Homens 40 200 240 
Mulheres 60 100 160 
total 100 300 400
Estatística Descritiva 
Tipos de gráficos 
• Os gráficos são encontrados em todos os 
lugares, jornais, telejornais, livros, revistas, 
sítios diversos, etc; 
• Sua utilização traz vantagens como a capacidade 
de síntese de informação;
Estatística Descritiva 
Tipos de gráficos 
• Um gráfico de Pareto é um gráfico de barras para 
dados qualitativos, com as barras dispostas em ordem 
pela frequência; 
• A barra mais alta fica à esquerda e as barras menores se 
afastam para a direita
Estatística Descritiva 
Tipos de gráficos 
• O gráfico de barras é muito semelhante ao gráfico de 
Pareto; 
• Exceto por não ser necessária seguir nenhuma ordem na 
distribuição dos retângulos do gráfico.
Estatística Descritiva 
Tipos de gráficos 
• O gráfico de setores 
ou pizza também é 
usado para apresentar 
dados qualitativos;
Estatística Descritiva 
Tipos de gráficos 
• O diagrama de 
dispersão de dados 
emparelhados é um 
gráfico onde os pontos 
no espaço cartesiano XY 
são usados para 
representar 
simultaneamente os 
valores de duas variáveis 
quantitativas medidas 
em cada elemento do 
conjunto de dados.
Estatística Descritiva 
Tipos de gráficos 
• Um gráfico de série 
temporal representa a 
evolução de uma medida 
ou grandeza através do 
tempo; 
• Esse tipo de gráfico é 
muito utilizado nas 
bolsas de valores para 
mostrar as tendências 
dos ativos das 
companhias.
...Vamos entender o conceito 
de inferência Estatística? 
32
...Já ouviu falar em “nível de 
confiança” e “margem de 
erro”? 
33
Inferência Estatística 
Definições.... 
• Objetivo: tirar conclusões sobre uma população com 
base na informação de uma amostra; 
• Para se fazer inferência é necessário entender: 
▫ Parâmetro: quantidades desconhecidas da população e 
sobre as quais temos interesse; 
▫ Estimador: combinação dos elementos da amostra, 
construída com a finalidade de representar, ou 
estimar, um parâmetro de interesse na população.
• Toda hipótese tem como objetivo testar 
parâmetros populacionais; 
• É baseado em uma amostra representativa da 
população; 
35 
Teste de Hipóteses
• São aplicados em situações em que se conhece a 
distribuição dos dados; 
• É necessário pressuposto de normalidade; 
• São testes mais robustos do que os testes não-paramétricos; 
• Servem para testar parâmetros populacionais, 
tais como: média, variância e proporção; 
36 
Testes paramétricos
37 
Formulação de hipóteses 
Unilateral à esquerda: 
Ho:  = 50 
H1::  > 50 
Unilateral à direita: 
Ho: :  = 50 
H1: :  <50 
Bilateral: 
Ho: :  = 50 
H1::   50
38 
Formulação de hipóteses 
Se o valor da estatística do teste cair na região crítica, 
rejeita-se Ho. 
Ao contrário, quando aceitamos, dizemos que não 
houve evidência amostral significativa no sentido de 
permitir a rejeição de Ho.
• Passo 1: Definir a hipótese nula H0 a ser testada e a hipótese 
alternativa H1. 
• Passo 2: Definir o nível de significância. 
• Passo 3: Escolher uma estatística de teste adequada. 
• Passo 4: Fixar a região crítica do teste (o valor crítico é 
determinado em função do nível de significância). 
• Passo 5: Retirar uma amostra e calcular o valor observado da 
estatística do teste. 
• Passo 6: Se o valor da estatística pertencer à região crítica, 
rejeitar H0; caso contrário, não rejeitar H0. 
39 
Etapas para a construção de hipóteses 
(sem software estatístico)
• Uma das premissas dos testes paramétricos é o 
pressuposto que os dados seguem distribuição 
normal ou gaussiana; 
• É possível ter indícios, graficamente, sobre a distribuição 
dos dados, no entanto, somente os testes de aderência 
podem comprovar se os dados seguem normalidade; 
• Os dois principais testes de normalidade são: 
▫ Kolmogorov-Smirnov 
▫ Shapiro-Wilk 
40 
Testes de normalidade
• É aplicado quando não se conhece a variância 
populacional; 
• Testa se a média populacional assume ou não um 
determinado valor; 
• Trata-se de testar se um valor é verdadeiro em 
relação ao valor do parâmetro populacional. 
41 
Teste t de Student para uma amostra
• É aplicado para testar se as médias de duas amostras 
aleatórias, extraídas da mesma população são ou não 
significativamente diferentes; 
• As duas amostras tem distribuição normal com 
variâncias desconhecidas, porém, iguais; 
• É pressuposto que a variabilidade das variáveis são 
iguais; 
• Por exemplo... Podemos querer testar se o desempenho 
de uma determinada metodologia de ensino é igual pra 
duas turmas de uma mesma série e escola (população) 
42 
Teste t de Student para duas amostras 
aleatórias independentes
• É aplicado para verificar se as médias de duas amostras 
relacionadas, extraídas da mesma população, são ou não 
significativamente diferentes; 
• Além da normalidade dos dados de cada amostra, o teste 
exige que as variâncias de cada amostra sejam iguais 
entre si (homocedasticidade); 
• Como exemplo temos... Imagine que queremos testar a 
aplicação de uma interface em dois momentos para o 
mesmo grupo de usuários e queremos saber se teve 
diferença significativa no tempo de uso para a realização 
de uma atividade. 
43 
Teste t de Student para duas amostras 
aleatórias relacionadas (pareadas)
44 
...Já ouviu falar nas palavras 
Regressão e Correlação ?
45 
...olhe pra essa imagem e 
pense um pouco mais!
46 
Análise de Correlação e Regressão 
• Correlação: medida descritiva que mede força 
da relação entre duas variáveis quantitativas; 
• Regressão: A finalidade é estimar valores 
de uma variável, com base em valores 
conhecidos da outra;
47 
Correlação 
• Mede o grau da correlação (positiva ou negativa) entre 
duas variáveis de escala métrica; 
 P > 0,4 Significa uma correlação positiva entre as 
duas variáveis. 
 -0,4 < 0 > 0,4 : Significa que as duas variáveis não 
dependem linearmente uma da outra. 
 P < -0,4 Significa uma correlação negativa entre as 
duas variáveis - Isto é, se uma aumenta, a outra 
sempre diminui.
48 
Análise de Regressão 
1. Determinar como duas variáveis se relacionam; 
2. Estimar a função que determina a relação entre as 
variáveis; 
3. Usar a equação ajustada para prever valores da variável 
dependente. 
Modelo de Regressão Linear Simples 
Yi   Xi i
49 
Análise de Regressão 
• Em um modelo estatístico, geralmente a variável resposta é afetada 
por várias variáveis; 
1 2 1 ( , ,..., , ,..., ) k k k m Y f X X X X X    
• Então, analisamos Y como função apenas das K primeiras variáveis, 
sendo que permanece um erro (ou resíduo), devido a não utilização das 
outras m variáveis. 
100 
95 
90 
85 
80 
75 
70 
65 
60 
55 
50 
150 160 170 180 190 
Altura (cm) 
Peso (kg)
50 
Análise de Regressão 
2 R 
O coeficiente de determinação ou simplesmente . É uma medida 
da proporção da variabilidade em uma variável que é explicada pela 
variabilidade da outra. 
Definimos o coeficiente de determinação ou explicação do modelo, que é 
dado por: 
2 SQreg bSxy 
R 
  
SQtot Syy 
0  R2 1 
O coeficiente está entre logo, quanto mais próximo de 1 
Estiver o valor de R 
2 , melhor será o ajuste do modelo e quanto mais 
Próximo de 0 (zero), pior é o ajuste.
...Chegou a hora de botarmos 
a mão na massa! 
52
Softwares utilizados na estatística 
• Existem diversas ferramentas que dão suporte a 
análise dos dados quantitativos, dentre elas:
Trabalhando com a base de dados 
• Geralmente as bases de dados são digitadas em Excel; 
• Todos os softwares estatísticos importam bases em 
formatos: xls, xlsx, csv, txt,etc; 
• É aconselhável que a base seja transformada pra CSV; 
• Quando existem diferentes bases de dados e queremos 
fazer integração pra análises, utilizamos alguns 
softwares:
55 
Software Estatístico R 
• É um conjunto integrado de pacotes ou bibliotecas para 
manipulação de dados, cálculo e visualização gráfica; 
• É uma ferramenta com uma grande quantidade de pacotes 
para atender diversas áreas; 
• Possui uma linguagem de fácil entendimento; 
• É software livre !!!
56 
Software Estatístico R 
• O R possui mais de 3.500 pacotes disponíveis; 
• Foi uma evolução do S-plus; 
• Começou em 1993; 
• Em 1995 adotou a licença GPL
57 
Software Estatístico R 
http://www.r-bloggers.com/
• http://www.r-project.org/ 
58 
Repositório para download
59 
Conhecendo a interface do R
...Vamos praticar um pouco a 
Linguagem R com Estatística 
Descritiva 
60
61 
Inicialmente vamos entender a 
linguagem 
• Como acessar a ajuda do R
62 
Entendendo a linguagem R 
• Operações com vetores
63 
Entendendo a linguagem R 
• Operações com vetores
64 
Entendendo a linguagem R 
• Listando variáveis
65 
Entendendo a linguagem R 
• Operações com vetores
66 
Entendendo a linguagem R 
• Estatística descritiva
67 
Entendendo a linguagem R 
• Estatística descritiva 
▫ Valor máximo e mínimo de um conjunto de dados 
▫ Amplitude total 
▫ Variância
68 
Entendendo a linguagem R 
• Estatística descritiva (Gráficos – Histograma)
69 
Entendendo a linguagem R 
• Estatística descritiva (Gráfico de barras)
70 
Entendendo a linguagem R 
• Estatística descritiva (Boxplot)
71 
Entendendo a linguagem R 
• Estatística descritiva (Gráfico de dispersão)
72 
Trabalhando na prática 
• Utilize o banco de dados chamado 
“descritiva.csv”; 
• Vamos importar o banco de dados para dentro 
do R; 
• Salve o banco de dados no formato do banco de 
dados do R; 
• Tirar a média, mediana, máximo e minimo para 
cada uma das variáveis quantitativas; 
• Tirar
73 
Trabalhando na prática 
• Plote gráficos de dispersão para as variáveis 
quantitativas contínuas; 
• Plote gráficos de histograma para variáveis 
quantitativas contínuas; 
• Plot gráficos de barras para as variáveis 
qualitativas ou categóricas; 
• Faça correlações entre as variáveis quantitativas.
...Vamos praticar agora com 
Inferência estatística 
74
75 
Testes de hipóteses 
• Teste t para média populacional 
• Teste t para comparação de duas médias
76 
Testes de hipóteses 
• Teste t pareado (mesma população em dois 
momentos)
...Vamos praticar agora com 
Regressão Linear 
77
78 
Regressão linear 
• Vamos utilizar o banco de dados “descritiva.csv”; 
▫ ...importa, ...attach()! 
• Vamos construir um modelo linear simples
79 
Regressão linear 
• Plotando as duas variáveis em um gráfico de 
dispersão.
...Vamos facilitar nossas vidas 
? 
80
• O que é o Rcmdr? 
▫ Um pacote do R para manipulação gráfica; 
▫ Facilita as análises básicas; 
▫ Não precisa utilizar linha de comando; 
▫ Disponibiliza uma saída de script; 
▫ É leve e pode ser instalado em qualquer versão do 
R; 
81 
Pacote Rcomander
82 
Instalando o pacote Rcommander 
Depois de instalado digite: require(Rcmdr)
83 
Conhecendo a interface
84 
Criando e carregando banco de dados
85 
Vamos para a prática na ferramenta....
86 
Dúvidas ? 
Contatos: 
Email: rlr@ded.ufrpe.br; 
Cel: 9874-6647 
Facebook: facebook.com/rodrigomuribec

Pesquisa Quantitativa: aspectos teóricos e computacionais

  • 1.
  • 2.
    Quem sou eu?  Professor da UFRPE do curso de Licenciatura em Computação  Estudante de doutorado em Ciência da Computação  Pesquiso sobre Mineração de Dados Educacionais;  Contatos:  Email: rlr@ded.ufrpe.br  Facebook: /rodrigomuribec 2
  • 3.
    Agenda Introdução aEstatística;  Entendendo população e amostra;  Estatística descritiva;  Introdução a Inferência Estatística;  Formulando e testando hipóteses;  Análises de regressão;  Aplicações computacionais. 3
  • 4.
    ...Vamos entender umpouco sobre o que é a estatística ? 4
  • 5.
    Introdução a Estatística • A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas; • Áreas da computação que utilizam estatística: IA, Engenharia de software, banco de dados, redes, extração de informação, etc.
  • 6.
    Introdução a Estatística • Algumas áreas e técnicas da estatística... ▫ Estatística descritiva; ▫ Planejamento de experimentos; ▫ Análise multivariada; ▫ Estatística não-paramétrica; ▫ Análise de regressão; ▫ Modelos lineares; ▫ Séries temporais; ▫ Tecnologia da amostragem; ▫ Controle de qualidade; ▫ ...Etc.
  • 7.
    Interação entre aestatística e a pesquisa científica Análise Estatística Descritiva Análise Inferencial Conclusões Formulação de hipóteses Tema de pesquisa Definição do problema Amostragem
  • 8.
    ...Para que serveuma amostra ? 8
  • 9.
    ...Para que serveuma amostra ? 9
  • 10.
    Entendendo população eamostra; • É através da amostra que podemos inferir sobre os parâmetros de uma população; • A amostra deve ser representativa; • Se o tamanho dessas amostras cresce mais precisas são as conclusões obtidas; • Experimentos com amostras muito grandes se aproximam de um CENSO.
  • 11.
    Entendendo população eamostra; • Por que fazer amostragem ao invés de censo? ▫ Economia ▫ Menor tempo ▫ Maior qualidade nos dados levantados ▫ População infinita. ▫ Mais fácil, com resultados satisfatórios.
  • 12.
    •xxxxx 12 Entendendopopulação e amostra;
  • 13.
    •xxxxx 13 Entendendopopulação e amostra;
  • 14.
    14 Técnicas deamostragem
  • 15.
    • Alguns elementossão necessários saber para calcular o tamanho da amostra: ▫ Confiança da pesquisa; ▫ Tamanho da população; ▫ Características da população; ▫ Etc... 15 Tamanho da amostra
  • 16.
    ...Agora que játemos nossa amostra o que devemos fazer ? 16
  • 17.
  • 18.
    18 Estatística Descritiva O que fazer com as observações que coletamos inicialmente em uma pesquisa? Primeira Etapa: Resumo dos dados = Estatística descritiva
  • 19.
    • Primeiro vamosentender tipos de dados 19 Estatística descritiva Categóricas Numéricas Nominal (classificação) Ordinal (classificação) Discreta (contagem) Contínua (mensuração) sexo, raça, região, grupo sangüíneo pressão sangüínea (baixa, normal, alta) Número de acidentes, número de filhos Peso, altura, pressão sangüínea
  • 20.
    • Medidas deposição → Média, mediana, moda; • Medidas de dispersão → Amplitude, desvio padrão e variância; • Medidas de posição relativa → escores, quartis e percentis; • Medidas relacionadas à forma → medidas de assimetria e curtose; 20 Estatística Descritiva
  • 21.
    Estatística Descritiva Medidasde variação (dispersão) • São medidas que servem para verificar o quanto os dados estão dispersos em torno da medida central; • São utilizadas para verificar o quanto os dados são heterogêneos; • É muito utilizada para verificar se realmente a medida de tendência central é representativa;
  • 22.
    Estatística Descritiva Tabelasde distribuição de frequencias • Exemplo
  • 23.
    Estatística Descritiva •Tabela exemplo 2 (classes e proporção)
  • 24.
    Estatística Descritiva •Gráfico da distribuição de frequência • Um histograma consiste em um conjunto de retângulos que representam as classes cujas bases são iguais às suas amplitudes e são centradas no ponto médio de cada classe.
  • 25.
    Estatística Descritiva Tabelasde dupla entrada • Exemplo de uma tabela de dupla entrada sexo Curso 1 Estatística Curso 2 Engenharia total Homens 40 200 240 Mulheres 60 100 160 total 100 300 400
  • 26.
    Estatística Descritiva Tiposde gráficos • Os gráficos são encontrados em todos os lugares, jornais, telejornais, livros, revistas, sítios diversos, etc; • Sua utilização traz vantagens como a capacidade de síntese de informação;
  • 27.
    Estatística Descritiva Tiposde gráficos • Um gráfico de Pareto é um gráfico de barras para dados qualitativos, com as barras dispostas em ordem pela frequência; • A barra mais alta fica à esquerda e as barras menores se afastam para a direita
  • 28.
    Estatística Descritiva Tiposde gráficos • O gráfico de barras é muito semelhante ao gráfico de Pareto; • Exceto por não ser necessária seguir nenhuma ordem na distribuição dos retângulos do gráfico.
  • 29.
    Estatística Descritiva Tiposde gráficos • O gráfico de setores ou pizza também é usado para apresentar dados qualitativos;
  • 30.
    Estatística Descritiva Tiposde gráficos • O diagrama de dispersão de dados emparelhados é um gráfico onde os pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.
  • 31.
    Estatística Descritiva Tiposde gráficos • Um gráfico de série temporal representa a evolução de uma medida ou grandeza através do tempo; • Esse tipo de gráfico é muito utilizado nas bolsas de valores para mostrar as tendências dos ativos das companhias.
  • 32.
    ...Vamos entender oconceito de inferência Estatística? 32
  • 33.
    ...Já ouviu falarem “nível de confiança” e “margem de erro”? 33
  • 34.
    Inferência Estatística Definições.... • Objetivo: tirar conclusões sobre uma população com base na informação de uma amostra; • Para se fazer inferência é necessário entender: ▫ Parâmetro: quantidades desconhecidas da população e sobre as quais temos interesse; ▫ Estimador: combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população.
  • 35.
    • Toda hipótesetem como objetivo testar parâmetros populacionais; • É baseado em uma amostra representativa da população; 35 Teste de Hipóteses
  • 36.
    • São aplicadosem situações em que se conhece a distribuição dos dados; • É necessário pressuposto de normalidade; • São testes mais robustos do que os testes não-paramétricos; • Servem para testar parâmetros populacionais, tais como: média, variância e proporção; 36 Testes paramétricos
  • 37.
    37 Formulação dehipóteses Unilateral à esquerda: Ho:  = 50 H1::  > 50 Unilateral à direita: Ho: :  = 50 H1: :  <50 Bilateral: Ho: :  = 50 H1::   50
  • 38.
    38 Formulação dehipóteses Se o valor da estatística do teste cair na região crítica, rejeita-se Ho. Ao contrário, quando aceitamos, dizemos que não houve evidência amostral significativa no sentido de permitir a rejeição de Ho.
  • 39.
    • Passo 1:Definir a hipótese nula H0 a ser testada e a hipótese alternativa H1. • Passo 2: Definir o nível de significância. • Passo 3: Escolher uma estatística de teste adequada. • Passo 4: Fixar a região crítica do teste (o valor crítico é determinado em função do nível de significância). • Passo 5: Retirar uma amostra e calcular o valor observado da estatística do teste. • Passo 6: Se o valor da estatística pertencer à região crítica, rejeitar H0; caso contrário, não rejeitar H0. 39 Etapas para a construção de hipóteses (sem software estatístico)
  • 40.
    • Uma daspremissas dos testes paramétricos é o pressuposto que os dados seguem distribuição normal ou gaussiana; • É possível ter indícios, graficamente, sobre a distribuição dos dados, no entanto, somente os testes de aderência podem comprovar se os dados seguem normalidade; • Os dois principais testes de normalidade são: ▫ Kolmogorov-Smirnov ▫ Shapiro-Wilk 40 Testes de normalidade
  • 41.
    • É aplicadoquando não se conhece a variância populacional; • Testa se a média populacional assume ou não um determinado valor; • Trata-se de testar se um valor é verdadeiro em relação ao valor do parâmetro populacional. 41 Teste t de Student para uma amostra
  • 42.
    • É aplicadopara testar se as médias de duas amostras aleatórias, extraídas da mesma população são ou não significativamente diferentes; • As duas amostras tem distribuição normal com variâncias desconhecidas, porém, iguais; • É pressuposto que a variabilidade das variáveis são iguais; • Por exemplo... Podemos querer testar se o desempenho de uma determinada metodologia de ensino é igual pra duas turmas de uma mesma série e escola (população) 42 Teste t de Student para duas amostras aleatórias independentes
  • 43.
    • É aplicadopara verificar se as médias de duas amostras relacionadas, extraídas da mesma população, são ou não significativamente diferentes; • Além da normalidade dos dados de cada amostra, o teste exige que as variâncias de cada amostra sejam iguais entre si (homocedasticidade); • Como exemplo temos... Imagine que queremos testar a aplicação de uma interface em dois momentos para o mesmo grupo de usuários e queremos saber se teve diferença significativa no tempo de uso para a realização de uma atividade. 43 Teste t de Student para duas amostras aleatórias relacionadas (pareadas)
  • 44.
    44 ...Já ouviufalar nas palavras Regressão e Correlação ?
  • 45.
    45 ...olhe praessa imagem e pense um pouco mais!
  • 46.
    46 Análise deCorrelação e Regressão • Correlação: medida descritiva que mede força da relação entre duas variáveis quantitativas; • Regressão: A finalidade é estimar valores de uma variável, com base em valores conhecidos da outra;
  • 47.
    47 Correlação •Mede o grau da correlação (positiva ou negativa) entre duas variáveis de escala métrica;  P > 0,4 Significa uma correlação positiva entre as duas variáveis.  -0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra.  P < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.
  • 48.
    48 Análise deRegressão 1. Determinar como duas variáveis se relacionam; 2. Estimar a função que determina a relação entre as variáveis; 3. Usar a equação ajustada para prever valores da variável dependente. Modelo de Regressão Linear Simples Yi   Xi i
  • 49.
    49 Análise deRegressão • Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis; 1 2 1 ( , ,..., , ,..., ) k k k m Y f X X X X X    • Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização das outras m variáveis. 100 95 90 85 80 75 70 65 60 55 50 150 160 170 180 190 Altura (cm) Peso (kg)
  • 50.
    50 Análise deRegressão 2 R O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: 2 SQreg bSxy R   SQtot Syy 0  R2 1 O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de R 2 , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
  • 52.
    ...Chegou a horade botarmos a mão na massa! 52
  • 53.
    Softwares utilizados naestatística • Existem diversas ferramentas que dão suporte a análise dos dados quantitativos, dentre elas:
  • 54.
    Trabalhando com abase de dados • Geralmente as bases de dados são digitadas em Excel; • Todos os softwares estatísticos importam bases em formatos: xls, xlsx, csv, txt,etc; • É aconselhável que a base seja transformada pra CSV; • Quando existem diferentes bases de dados e queremos fazer integração pra análises, utilizamos alguns softwares:
  • 55.
    55 Software EstatísticoR • É um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica; • É uma ferramenta com uma grande quantidade de pacotes para atender diversas áreas; • Possui uma linguagem de fácil entendimento; • É software livre !!!
  • 56.
    56 Software EstatísticoR • O R possui mais de 3.500 pacotes disponíveis; • Foi uma evolução do S-plus; • Começou em 1993; • Em 1995 adotou a licença GPL
  • 57.
    57 Software EstatísticoR http://www.r-bloggers.com/
  • 58.
    • http://www.r-project.org/ 58 Repositório para download
  • 59.
    59 Conhecendo ainterface do R
  • 60.
    ...Vamos praticar umpouco a Linguagem R com Estatística Descritiva 60
  • 61.
    61 Inicialmente vamosentender a linguagem • Como acessar a ajuda do R
  • 62.
    62 Entendendo alinguagem R • Operações com vetores
  • 63.
    63 Entendendo alinguagem R • Operações com vetores
  • 64.
    64 Entendendo alinguagem R • Listando variáveis
  • 65.
    65 Entendendo alinguagem R • Operações com vetores
  • 66.
    66 Entendendo alinguagem R • Estatística descritiva
  • 67.
    67 Entendendo alinguagem R • Estatística descritiva ▫ Valor máximo e mínimo de um conjunto de dados ▫ Amplitude total ▫ Variância
  • 68.
    68 Entendendo alinguagem R • Estatística descritiva (Gráficos – Histograma)
  • 69.
    69 Entendendo alinguagem R • Estatística descritiva (Gráfico de barras)
  • 70.
    70 Entendendo alinguagem R • Estatística descritiva (Boxplot)
  • 71.
    71 Entendendo alinguagem R • Estatística descritiva (Gráfico de dispersão)
  • 72.
    72 Trabalhando naprática • Utilize o banco de dados chamado “descritiva.csv”; • Vamos importar o banco de dados para dentro do R; • Salve o banco de dados no formato do banco de dados do R; • Tirar a média, mediana, máximo e minimo para cada uma das variáveis quantitativas; • Tirar
  • 73.
    73 Trabalhando naprática • Plote gráficos de dispersão para as variáveis quantitativas contínuas; • Plote gráficos de histograma para variáveis quantitativas contínuas; • Plot gráficos de barras para as variáveis qualitativas ou categóricas; • Faça correlações entre as variáveis quantitativas.
  • 74.
    ...Vamos praticar agoracom Inferência estatística 74
  • 75.
    75 Testes dehipóteses • Teste t para média populacional • Teste t para comparação de duas médias
  • 76.
    76 Testes dehipóteses • Teste t pareado (mesma população em dois momentos)
  • 77.
    ...Vamos praticar agoracom Regressão Linear 77
  • 78.
    78 Regressão linear • Vamos utilizar o banco de dados “descritiva.csv”; ▫ ...importa, ...attach()! • Vamos construir um modelo linear simples
  • 79.
    79 Regressão linear • Plotando as duas variáveis em um gráfico de dispersão.
  • 80.
  • 81.
    • O queé o Rcmdr? ▫ Um pacote do R para manipulação gráfica; ▫ Facilita as análises básicas; ▫ Não precisa utilizar linha de comando; ▫ Disponibiliza uma saída de script; ▫ É leve e pode ser instalado em qualquer versão do R; 81 Pacote Rcomander
  • 82.
    82 Instalando opacote Rcommander Depois de instalado digite: require(Rcmdr)
  • 83.
    83 Conhecendo ainterface
  • 84.
    84 Criando ecarregando banco de dados
  • 85.
    85 Vamos paraa prática na ferramenta....
  • 86.
    86 Dúvidas ? Contatos: Email: rlr@ded.ufrpe.br; Cel: 9874-6647 Facebook: facebook.com/rodrigomuribec