SlideShare uma empresa Scribd logo
Análise de dados com SciLab
Introdução
Para ilustrar a utilização do software livre (free) e de código aberto (open source) de compu-
tação numérica Scilab na Análise de dados, será utilizado um conjunto de dados de um Teste
de Stroop disponível neste link. No Anexo I deste trabalho é apresentado todo o script para
resolução deste projeto.
1) No teste em questão a variável independente (explicativa) é o tipo de teste realizado
(Congruent ou Incongruent) e a variável dependente é o tempo medido para a realização do
teste (tempo de resposta) dos respondentes. A Figuras 1 apresenta os gráficos de linha das
variáveis.
Figura 1: Gráfico de linha das variáveis
2) Uma hipótese é que o tempo de resposta (tr) do Teste Incongruente (tri) será maior que o
tempo do Teste Congruente (trc). Assim, foram formulados as hipóteses conforme as equa-
ções 1 e 2.
H0: tri=trc(Hipótese Nula) ( 1 )
H1:tri>trc(Hipótese Alternativa) ( 2 )
Nanodegree Análise de Dados – Projeto 1 1/10
Como os parâmetros da população não são conhecidos, será utilizado o t-test para analisar
as hipóteses; e conforme as características do problema proposto, trata-se de amostras pare-
adas, uma vez que o objetivo é testar se existem diferenças no tempo de execução do teste
num mesmo grupo de indivíduos. O teste utilizado será do tipo unilateral, isto por que a hi-
pótese alternativa deseja prever a direção (tri > trc).
3) Estatística descritiva das amostras.
A Tabela 1 apresenta diversas estatísticas das amostras, divididas em medidas de posição e
de dispersão.
Estatísticas Teste Congruente Teste Incongruente
Medidas de Posição (tendência central)
Média aritmética 14,05 22,02
Mediana 14,36 21,02
Quartis
Q1 11,71 18,69
Q2 14,36 21,02
Q3 16,40 24,21
Média Geométrica 13,62 21,58
Medidas de Dispersão
Amplitude 13,70 19,57
Variância 12,67 23,01
Desvio Padrão 3,56 4,80
Coeficiente de Variação de Pearson 0,25 0,22
Tabela 1: Estatísticas descritiva das amostras
4) Visualizações das distribuições das amostras de dados.
As Figuras 3 e 4 apresentam os histogramas dos dois testes, nos quais a determinação do nº
de classes ocorreu conforme a Fórmula de Sturges1
.
1 Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2002). Estatística aplica
à administração e economia.
Nanodegree Análise de Dados – Projeto 1 2/10
Figura 2: Histograma - Teste Congruente
Figura 3: Histograma - Teste Incongruente
Nanodegree Análise de Dados – Projeto 1 3/10
Nestes histogramas, também foram apresentados retas (na cor azul) interligando os valores
máximos de cada classe, de forma a ajudar a visualização das distribuições. Verificando as
duas figuras, o Teste Congruente parece possuir mais o padrão de uma distribuição normal
que o Teste Incongruente.
Já a Figura 4 apresenta os diagramas tipo Boxplot dos 2 testes. Especificamente no teste 2
(Incongruente), observa-se 2 outliers (observações com grande afastamento); conforme a Fi-
gura 1, estes outliers são os respondentes números 15 e 20.
Figura 4: Diagrama Boxplot dos testes
A Figura 5 apresenta o diagrama de dispersão dos dois testes. Neste tipo diagrama é possível
identificar previamente possível correlação entre as variáveis envolvidas, o que não parece
ser o caso em questão, devido o espalhamento dos pontos.
Essa baixa correlação2
foi comprovada pelo cálculo do coeficiente de correlação de Pearson
e seu respectivo p-value; sendo os valores obtidos respectivamente: r = 0,35 e p-value =
0,09. Isto significa que existe uma correlação positiva baixa (r = 0,35), significativa ao nível
de significância α = 0,05 ( p-value < α ).
Na Figura 5 também foi traçada a curva de regressão linear simples obtida por meio da utili-
zação do método nos mínimos quadrados, sendo a equação obtida conforme a equação 3.
Incong(Cong)=0,47∗Cong+15,35 ( 3 )
2 Segundo o critério de Franzblau. Franzblau, A. N. (1958). A primer of statistics for non-
statisticians. Harcourt, Brace.
Nanodegree Análise de Dados – Projeto 1 4/10
Figura 5: Diagrama de dispersão com a reta de regressão simples
5) Teste estatístico
Conforme justificado no item 2, será utilizado o t-test, com amostras pareadas unilateral
para analisar as hipóteses.
Serão seguidos os passos propostos por Fávaro3
et al. (2009).
5.1) Definindo as hipóteses nula e alternativa conforme equações (1) e (2);
5.2) Definindo o nível de significância do teste: α = 5%;
5.2.1) Verificar se as amostras possuem distribuição normal; condição necessária para a
aplicação do t-test.
Para testar a normalidade das amostras foi utilizado o Teste de Anderson-Darling, obten-
do os seguintes resultados:
p-value (Teste Congruent) = 0,8832;
p-value (Teste Incongruent) = 0,0066.
O resultado deste teste é tal que se o valor p-value resultante do teste for < 0,05 a distri-
buição não é normal (rejeita-se Ho). Portanto, conforme os resultados obtidos, os dados do
Teste Incongruent não possuem distribuição normal.
Também foi verificado a normalidade pelo Método de skewness e kurtosis, obtendo os re-
3 Fávero, L. P., Belfiore, P. P., Chan, B. L., & Silva, F. L. (2009). Análise de dados: modela-
gem multivariada para tomada de decisões. Elsevier.
Nanodegree Análise de Dados – Projeto 1 5/10
sultados de p-value conforme Tabela 2.
Teste Congruent Teste Incongruent
skewness 0,438 0,004
kurtosis 0,501 0,098
skewness/kurtosis 0,591 0,004
Tabela 2: Teste de Skewness e Kurtosis
As condições de normalidade deste teste são que todos os valores de p-value obtidos de-
vem ser > 0,05, portanto, novamente constata-se que o Teste Incongruente não possuem dis-
tribuição normal.
Portanto, a condição necessária para a aplicação do t-test no caso dos dados da amostra
Incongruente não foi satisfeita, contudo, continuaremos a resolução do exercício.
5.2.2) Verificar se as variâncias são homogenias.
Para testar a homogeneidade das variâncias foi utilizado o Teste de Levene, obtendo-se o
seguinte resultado: p-value = 0,619.
O resultado deste teste é tal que se o valor p-value resultante do teste for > 0,05 conclui-
se que as variâncias são homogêneas (aceita-se Ho). Portanto, neste projeto conclui-se que
as variâncias são homogenias.
A homogeneidade também foi testada utilizando o método de Bartlett, obtendo-se o se-
guinte resultado: p-value = 0,160.
O resultado deste teste é tal que se o valor p-value resultante do teste for < 0,05 rejeita-
se Ho, isto é as variâncias não são homogêneas; como este não foi o caso deste teste, con-
clui-se que as variâncias são homogenias.
5.3) Definir a região crítica, auxiliado pela tabela de distribuição t-student, sendo o teste
unilateral, isto por que a hipótese alternativa deseja prever a direção (tri > trc).
Graus de Liberdade (df) = n – 1 = 24-1 = 23
Como a t-table consultada não possui o df=46, foi utilizado a função cdft do SciLab para
determinar o t-crit, sendo a sintaxe do comando conforme a equação (4):
[t_crit]=cdft("T",df,P,Q) ( 4 )
Na qual, Q é o nível de significância para teste unilateral ou metade da significância para
teste bilateral; e P = 1 - Q.
O resultado obtido foi [t_crit]=cdft("T",23,0.95,0.05) = 1,714
5.4) Calcular o valor real da variável t
O próximo passo é calcular o valor real da variável t (t-cal).
Para o caso de amostras pareadas, segue-se os seguintes passos:
Nanodegree Análise de Dados – Projeto 1 6/10
i) Cálculo da diferença entre as amostras (di = x antes – x depois);
ii) Cálculo da média da diferença entre as amostras (di);
iii) Cálculo do desvio padrão da diferença entre as amostras (Sd);
iv) Cálculo de t-cal, conforme a equação (5):
tcal=
¯di
Sd
√n
(5)
Substituindo os valores em (5), tem-se:
tcal=
−7,965
4,865
√24
=−8,021
t_crit = 1,714 < |tcal = -8,021|
5.5) Conclusões
Como t-cal pertence a região crítica, a hipótese nula é rejeitada; assim, tem-se que
tri > trc (hipótese alterativa).
6) Opcional: O que você acha que é responsável pelo efeito observado? Consegue pensar
em uma alternativa ou tarefa similar que resultaria em um efeito parecido? Alguma pesquisa
em relação ao problema pode ser útil para pensar nessas duas questões!
Resp.: Imagino que as pessoas tendem a querer ler as palavras, dai o aumento do tempo de
resposta.
Poderíamos refazer os testes em idiomas em que os respondentes não conhecem, podendo
assim diminuir a tendência de leitura; nesta mesma linha, a diminuição do tempo de exposi-
ção das palavras poderia ajudar.
Poderíamos estudar também a influência de outros fatores tais como: idade, sexo, nível de
instrução. Ex.: os 2 outliers observados no Teste Incongruent, qual seria o motivo?
Nanodegree Análise de Dados – Projeto 1 7/10
Anexo I
Código do scilab para resolução deste projeto.
clear;
//Carregar Módulos
exec ('/home/vagner/.Scilab/scilab-5.5.2/atoms/casci/1.0.1/loader.sce');
exec ('/home/vagner/.Scilab/scilab-5.5.2/atoms/modules/nan_1.3.4/loader.sce');
// leitura dos dados
Dados=csvRead('/path/stroopdata.csv');
// determinação do nº dados
//NL = nº de Linhas
//NC = nº de Colunas
[NL,NC]=size(Dados);
// A primeira linha é o cabeçalho, deve ser retirado.
// ... assim j=2 começa na 2ª linha
for j=2:NL
//Dadosc = Dados Congruent
Dadosc(j-1,1)=(Dados(j,1));
//Dadosi = Dados Incongruent
Dadosi(j-1,1)=(Dados(j,2));
end;
//Determinação do nº de amostras – n
//Poderia utilizar NL-1
nc= length(Dadosc);
ni= length(Dadosi);
//Determinação da amplitude total (rol) – Rccc
Rc=max(Dadosc)-min(Dadosc);
Ri=max(Dadosi)-min(Dadosi);
//Plotando dados
xc=1:nc;
scf(1)
plot2d(xc,Dadosc,rect=[1,min(Dadosc)-1,nc,max(Dadosi)],style=color("black"))
xi=1:ni;
plot2d(xi,Dadosi,rect=[1,min(Dadosc),ni,max(Dadosi)],style=color("blue"))
xtitle('Gráfico de linha dos testes')
xlabel('Respondente')
ylabel ('Tempo de Resposta')
legend("Dados Cogruentes", "Dados Incogruentes",2)
xgrid(1)
Nanodegree Análise de Dados – Projeto 1 8/10
//Determinação do nº de classes de acordo com a Fórmula de Sturges – K
Kc = round (1 + 3.33*log10 (nc));
Ki = round (1 + 3.33*log10 (ni));
//Determinação do tamanho dos intervalos – h
hc = round (Rc/Kc);
hi = round (Ri/Ki);
scf(3)
xtitle('Histograma Dados Congruent')
histplot(Kc, Dadosc, normalization=%f, polygon=%t);
scf(4)
xtitle('Histograma Dados Incongruent')
histplot(Ki, Dadosi, normalization=%f, polygon=%t);
//Cálculo da média aritmética das idades – im
imc = mean(Dadosc);
imi = mean(Dadosi);
//Cálculo da mediana das idades – imed
imedc = median(Dadosc);
imedi = median(Dadosi);
//Cálculo do desvio padrão das idades – desP
desPc=stdev(Dadosc);
desPi=stdev(Dadosi);
// Coeficiente de variasão de Pearson
cv_c=desPc/imc;
cv_i=desPi/imi;
//Cálculo da variância das idades – var
varc = variance (Dadosc);
vari = variance (Dadosi);
//Cálculo dos Quartis
quarc=quart(Dadosc);
quari=quart(Dadosi);
//Cálculo da média geométrica
medgeoc=geomean(Dadosc);
medgeoi=geomean(Dadosi);
// BoxPlot
scf(5)
xtitle('BoxPlot dos testes')
nan_boxplot(Dadosc,Dadosi)
legend("Dados Cogruentes", "Dados Incogruentes",2)
Nanodegree Análise de Dados – Projeto 1 9/10
// Necessário para o toolkit CASCI
sort=gsort;
// Testes de Normalidade
// Conforme <Anderson-Darling’s normality test> do toolkit CASCI
pvc= andersondarling(Dadosc);
pvi= andersondarling(Dadosi);
// Conforme skewness and kurtosis test
[pvskc,pvkuc,pvskuc]=tstsku(Dadosc)
[pvski,pvkui,pvskui]=tstsku(Dadosi)
// Testes de Homogeneidade
//Levene’s test
pvL=levene(Dadosc,Dadosi)
pvB=bartlett(Dadosc,Dadosi)
// Encontrando t-crit
df=nc-1 //Graus de Liberdade
Q=0.05 //Nível de Significância. Obs.: Se two-tailed -> divide por 2
P=1-Q;
[t_crit]=cdft("T",df,P,Q)
scf(12)
plot(Dadosc,Dadosi,"x")
//linear correlation coefficient called Pearson's product-moment coefficient.
[R,p] = nan_corrcoef (Dadosc,Dadosi)
// Regressão Linear MMQ
[a,b,sig]=reglin(Dadosc',Dadosi')
deff("[y]=fr(x)","y=a*x+b");
x=[0:0.1:max(Dadosc)];
fplot2d(x,fr,rect=[min(Dadosc)-500,min(Dadosi)-500,max(Dadosc)+500,max(Dadosi)
+500],style=color("black"));
xtitle('Gráfico de dispersão (scatter) e reta de regressão’')
xlabel('Dados Congruent')
ylabel ('Dados Incongruent')
// Calculo do t-cal para amostras pareadas
// Diferança entre as amostras (di)
di = Dadosc-Dadosi
// Média das Diferanças entre as amostras
di_bar = mean(di)
// Desvio padrão das Diferanças entre as amostras
Sd=stdev(di)
// t-cal
t_cal= di_bar/(Sd/sqrt(nc))
Nanodegree Análise de Dados – Projeto 1
10/10

Mais conteúdo relacionado

Mais procurados

O modelo de Lotka e Volterra da predação
O modelo de Lotka e Volterra da predaçãoO modelo de Lotka e Volterra da predação
O modelo de Lotka e Volterra da predação
unesp
 
Automação ind 2_2014
Automação ind 2_2014Automação ind 2_2014
Automação ind 2_2014
Marcio Oliani
 
Processamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro LaplacianoProcessamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro Laplaciano
Lucas Sabadini
 
Markov Chains
Markov ChainsMarkov Chains
Markov Chains
guest8901f4
 
Probability And Random Variable Lecture 1
Probability And Random Variable Lecture 1Probability And Random Variable Lecture 1
Probability And Random Variable Lecture 1
University of Gujrat, Pakistan
 
Sequencias e-series
Sequencias e-seriesSequencias e-series
Sequencias e-series
jhujha
 
Princípios de Estatística Inferencial - II
Princípios de Estatística Inferencial - IIPrincípios de Estatística Inferencial - II
Princípios de Estatística Inferencial - II
Federal University of Bahia
 
Probability
ProbabilityProbability
Probability
Todd Davies
 
The Standard Normal Distribution
The Standard Normal DistributionThe Standard Normal Distribution
The Standard Normal Distribution
Long Beach City College
 
Principal and general solution of trigonometric equations
Principal and general solution of trigonometric equationsPrincipal and general solution of trigonometric equations
Principal and general solution of trigonometric equations
sumanmathews
 
Random variables
Random variablesRandom variables
Random variables
mrraymondstats
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
Tuane Paixão
 
introduction to Probability theory
introduction to Probability theoryintroduction to Probability theory
introduction to Probability theory
Rachna Gupta
 
Apoio de matemática 2016 2
Apoio de matemática 2016 2Apoio de matemática 2016 2
Apoio de matemática 2016 2
Caissa Ramos
 
2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)
2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)
2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)
matheus afonso
 
Malimu variance and standard deviation
Malimu variance and standard deviationMalimu variance and standard deviation
Malimu variance and standard deviation
Miharbi Ignasm
 
Introduction to Probability
Introduction to ProbabilityIntroduction to Probability
Introduction to Probability
Vikas Gupta
 
Network analysis & synthesis Fourier Series
Network analysis & synthesis Fourier SeriesNetwork analysis & synthesis Fourier Series
Network analysis & synthesis Fourier Series
Saurabh Katiyar
 
Comutação de escada
Comutação de escadaComutação de escada
Comutação de escada
Evonaldo Gonçalves Vanny
 
Tabela normal
Tabela normalTabela normal
Tabela normal
Héllio Ferreira
 

Mais procurados (20)

O modelo de Lotka e Volterra da predação
O modelo de Lotka e Volterra da predaçãoO modelo de Lotka e Volterra da predação
O modelo de Lotka e Volterra da predação
 
Automação ind 2_2014
Automação ind 2_2014Automação ind 2_2014
Automação ind 2_2014
 
Processamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro LaplacianoProcessamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro Laplaciano
 
Markov Chains
Markov ChainsMarkov Chains
Markov Chains
 
Probability And Random Variable Lecture 1
Probability And Random Variable Lecture 1Probability And Random Variable Lecture 1
Probability And Random Variable Lecture 1
 
Sequencias e-series
Sequencias e-seriesSequencias e-series
Sequencias e-series
 
Princípios de Estatística Inferencial - II
Princípios de Estatística Inferencial - IIPrincípios de Estatística Inferencial - II
Princípios de Estatística Inferencial - II
 
Probability
ProbabilityProbability
Probability
 
The Standard Normal Distribution
The Standard Normal DistributionThe Standard Normal Distribution
The Standard Normal Distribution
 
Principal and general solution of trigonometric equations
Principal and general solution of trigonometric equationsPrincipal and general solution of trigonometric equations
Principal and general solution of trigonometric equations
 
Random variables
Random variablesRandom variables
Random variables
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
 
introduction to Probability theory
introduction to Probability theoryintroduction to Probability theory
introduction to Probability theory
 
Apoio de matemática 2016 2
Apoio de matemática 2016 2Apoio de matemática 2016 2
Apoio de matemática 2016 2
 
2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)
2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)
2016 matematica-escalonamento-sistemas lineares--_escalonamento (1)
 
Malimu variance and standard deviation
Malimu variance and standard deviationMalimu variance and standard deviation
Malimu variance and standard deviation
 
Introduction to Probability
Introduction to ProbabilityIntroduction to Probability
Introduction to Probability
 
Network analysis & synthesis Fourier Series
Network analysis & synthesis Fourier SeriesNetwork analysis & synthesis Fourier Series
Network analysis & synthesis Fourier Series
 
Comutação de escada
Comutação de escadaComutação de escada
Comutação de escada
 
Tabela normal
Tabela normalTabela normal
Tabela normal
 

Semelhante a Análise de dados com SciLab

estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
ssuser98ac96
 
Outros testes não-paramétricos
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricos
guest422f98
 
GRUPO B - 4ª AV.pdf
GRUPO B - 4ª AV.pdfGRUPO B - 4ª AV.pdf
GRUPO B - 4ª AV.pdf
Gustavo Rocha
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Kleverton Saath
 
Teste Friedman
Teste FriedmanTeste Friedman
Teste Friedman
Arlindo Correia
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
Monica Barros
 
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
Daniel Brandão de Castro
 
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
Ricardo Bruno - Universidade Federal do Pará
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
Rodrigo Rodrigues
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
Ronne Seles
 
Cap3 - Apresentação De Dados
Cap3 - Apresentação De DadosCap3 - Apresentação De Dados
Cap3 - Apresentação De Dados
Regis Andrade
 
Metódos de Pesquisa em C
Metódos de Pesquisa em CMetódos de Pesquisa em C
Metódos de Pesquisa em C
rodolfoeyalana
 
Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
Antonio Mankumbani Chora
 
Macs 835 p1_2011
Macs 835 p1_2011Macs 835 p1_2011
Macs 835 p1_2011
Artur (Ft)
 
Macs835 p1 2011
Macs835 p1 2011Macs835 p1 2011
Macs835 p1 2011
João Revez
 
aula12_testehipoteses_associacao.ppt
aula12_testehipoteses_associacao.pptaula12_testehipoteses_associacao.ppt
aula12_testehipoteses_associacao.ppt
NielsenVale
 
Confianca Noemi
Confianca NoemiConfianca Noemi
Confianca Noemi
Marco Silva
 
Aps probabilidade e estatística artigo1
Aps probabilidade e estatística   artigo1Aps probabilidade e estatística   artigo1
Aps probabilidade e estatística artigo1
Fernanda Garcia
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
Carlos Moura
 
Tópico 4 regressão linear simples 02
Tópico 4   regressão linear simples 02Tópico 4   regressão linear simples 02
Tópico 4 regressão linear simples 02
Ricardo Bruno - Universidade Federal do Pará
 

Semelhante a Análise de dados com SciLab (20)

estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
 
Outros testes não-paramétricos
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricos
 
GRUPO B - 4ª AV.pdf
GRUPO B - 4ª AV.pdfGRUPO B - 4ª AV.pdf
GRUPO B - 4ª AV.pdf
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
 
Teste Friedman
Teste FriedmanTeste Friedman
Teste Friedman
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
 
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
 
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Cap3 - Apresentação De Dados
Cap3 - Apresentação De DadosCap3 - Apresentação De Dados
Cap3 - Apresentação De Dados
 
Metódos de Pesquisa em C
Metódos de Pesquisa em CMetódos de Pesquisa em C
Metódos de Pesquisa em C
 
Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
 
Macs 835 p1_2011
Macs 835 p1_2011Macs 835 p1_2011
Macs 835 p1_2011
 
Macs835 p1 2011
Macs835 p1 2011Macs835 p1 2011
Macs835 p1 2011
 
aula12_testehipoteses_associacao.ppt
aula12_testehipoteses_associacao.pptaula12_testehipoteses_associacao.ppt
aula12_testehipoteses_associacao.ppt
 
Confianca Noemi
Confianca NoemiConfianca Noemi
Confianca Noemi
 
Aps probabilidade e estatística artigo1
Aps probabilidade e estatística   artigo1Aps probabilidade e estatística   artigo1
Aps probabilidade e estatística artigo1
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
 
Tópico 4 regressão linear simples 02
Tópico 4   regressão linear simples 02Tópico 4   regressão linear simples 02
Tópico 4 regressão linear simples 02
 

Análise de dados com SciLab

  • 1. Análise de dados com SciLab Introdução Para ilustrar a utilização do software livre (free) e de código aberto (open source) de compu- tação numérica Scilab na Análise de dados, será utilizado um conjunto de dados de um Teste de Stroop disponível neste link. No Anexo I deste trabalho é apresentado todo o script para resolução deste projeto. 1) No teste em questão a variável independente (explicativa) é o tipo de teste realizado (Congruent ou Incongruent) e a variável dependente é o tempo medido para a realização do teste (tempo de resposta) dos respondentes. A Figuras 1 apresenta os gráficos de linha das variáveis. Figura 1: Gráfico de linha das variáveis 2) Uma hipótese é que o tempo de resposta (tr) do Teste Incongruente (tri) será maior que o tempo do Teste Congruente (trc). Assim, foram formulados as hipóteses conforme as equa- ções 1 e 2. H0: tri=trc(Hipótese Nula) ( 1 ) H1:tri>trc(Hipótese Alternativa) ( 2 ) Nanodegree Análise de Dados – Projeto 1 1/10
  • 2. Como os parâmetros da população não são conhecidos, será utilizado o t-test para analisar as hipóteses; e conforme as características do problema proposto, trata-se de amostras pare- adas, uma vez que o objetivo é testar se existem diferenças no tempo de execução do teste num mesmo grupo de indivíduos. O teste utilizado será do tipo unilateral, isto por que a hi- pótese alternativa deseja prever a direção (tri > trc). 3) Estatística descritiva das amostras. A Tabela 1 apresenta diversas estatísticas das amostras, divididas em medidas de posição e de dispersão. Estatísticas Teste Congruente Teste Incongruente Medidas de Posição (tendência central) Média aritmética 14,05 22,02 Mediana 14,36 21,02 Quartis Q1 11,71 18,69 Q2 14,36 21,02 Q3 16,40 24,21 Média Geométrica 13,62 21,58 Medidas de Dispersão Amplitude 13,70 19,57 Variância 12,67 23,01 Desvio Padrão 3,56 4,80 Coeficiente de Variação de Pearson 0,25 0,22 Tabela 1: Estatísticas descritiva das amostras 4) Visualizações das distribuições das amostras de dados. As Figuras 3 e 4 apresentam os histogramas dos dois testes, nos quais a determinação do nº de classes ocorreu conforme a Fórmula de Sturges1 . 1 Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2002). Estatística aplica à administração e economia. Nanodegree Análise de Dados – Projeto 1 2/10
  • 3. Figura 2: Histograma - Teste Congruente Figura 3: Histograma - Teste Incongruente Nanodegree Análise de Dados – Projeto 1 3/10
  • 4. Nestes histogramas, também foram apresentados retas (na cor azul) interligando os valores máximos de cada classe, de forma a ajudar a visualização das distribuições. Verificando as duas figuras, o Teste Congruente parece possuir mais o padrão de uma distribuição normal que o Teste Incongruente. Já a Figura 4 apresenta os diagramas tipo Boxplot dos 2 testes. Especificamente no teste 2 (Incongruente), observa-se 2 outliers (observações com grande afastamento); conforme a Fi- gura 1, estes outliers são os respondentes números 15 e 20. Figura 4: Diagrama Boxplot dos testes A Figura 5 apresenta o diagrama de dispersão dos dois testes. Neste tipo diagrama é possível identificar previamente possível correlação entre as variáveis envolvidas, o que não parece ser o caso em questão, devido o espalhamento dos pontos. Essa baixa correlação2 foi comprovada pelo cálculo do coeficiente de correlação de Pearson e seu respectivo p-value; sendo os valores obtidos respectivamente: r = 0,35 e p-value = 0,09. Isto significa que existe uma correlação positiva baixa (r = 0,35), significativa ao nível de significância α = 0,05 ( p-value < α ). Na Figura 5 também foi traçada a curva de regressão linear simples obtida por meio da utili- zação do método nos mínimos quadrados, sendo a equação obtida conforme a equação 3. Incong(Cong)=0,47∗Cong+15,35 ( 3 ) 2 Segundo o critério de Franzblau. Franzblau, A. N. (1958). A primer of statistics for non- statisticians. Harcourt, Brace. Nanodegree Análise de Dados – Projeto 1 4/10
  • 5. Figura 5: Diagrama de dispersão com a reta de regressão simples 5) Teste estatístico Conforme justificado no item 2, será utilizado o t-test, com amostras pareadas unilateral para analisar as hipóteses. Serão seguidos os passos propostos por Fávaro3 et al. (2009). 5.1) Definindo as hipóteses nula e alternativa conforme equações (1) e (2); 5.2) Definindo o nível de significância do teste: α = 5%; 5.2.1) Verificar se as amostras possuem distribuição normal; condição necessária para a aplicação do t-test. Para testar a normalidade das amostras foi utilizado o Teste de Anderson-Darling, obten- do os seguintes resultados: p-value (Teste Congruent) = 0,8832; p-value (Teste Incongruent) = 0,0066. O resultado deste teste é tal que se o valor p-value resultante do teste for < 0,05 a distri- buição não é normal (rejeita-se Ho). Portanto, conforme os resultados obtidos, os dados do Teste Incongruent não possuem distribuição normal. Também foi verificado a normalidade pelo Método de skewness e kurtosis, obtendo os re- 3 Fávero, L. P., Belfiore, P. P., Chan, B. L., & Silva, F. L. (2009). Análise de dados: modela- gem multivariada para tomada de decisões. Elsevier. Nanodegree Análise de Dados – Projeto 1 5/10
  • 6. sultados de p-value conforme Tabela 2. Teste Congruent Teste Incongruent skewness 0,438 0,004 kurtosis 0,501 0,098 skewness/kurtosis 0,591 0,004 Tabela 2: Teste de Skewness e Kurtosis As condições de normalidade deste teste são que todos os valores de p-value obtidos de- vem ser > 0,05, portanto, novamente constata-se que o Teste Incongruente não possuem dis- tribuição normal. Portanto, a condição necessária para a aplicação do t-test no caso dos dados da amostra Incongruente não foi satisfeita, contudo, continuaremos a resolução do exercício. 5.2.2) Verificar se as variâncias são homogenias. Para testar a homogeneidade das variâncias foi utilizado o Teste de Levene, obtendo-se o seguinte resultado: p-value = 0,619. O resultado deste teste é tal que se o valor p-value resultante do teste for > 0,05 conclui- se que as variâncias são homogêneas (aceita-se Ho). Portanto, neste projeto conclui-se que as variâncias são homogenias. A homogeneidade também foi testada utilizando o método de Bartlett, obtendo-se o se- guinte resultado: p-value = 0,160. O resultado deste teste é tal que se o valor p-value resultante do teste for < 0,05 rejeita- se Ho, isto é as variâncias não são homogêneas; como este não foi o caso deste teste, con- clui-se que as variâncias são homogenias. 5.3) Definir a região crítica, auxiliado pela tabela de distribuição t-student, sendo o teste unilateral, isto por que a hipótese alternativa deseja prever a direção (tri > trc). Graus de Liberdade (df) = n – 1 = 24-1 = 23 Como a t-table consultada não possui o df=46, foi utilizado a função cdft do SciLab para determinar o t-crit, sendo a sintaxe do comando conforme a equação (4): [t_crit]=cdft("T",df,P,Q) ( 4 ) Na qual, Q é o nível de significância para teste unilateral ou metade da significância para teste bilateral; e P = 1 - Q. O resultado obtido foi [t_crit]=cdft("T",23,0.95,0.05) = 1,714 5.4) Calcular o valor real da variável t O próximo passo é calcular o valor real da variável t (t-cal). Para o caso de amostras pareadas, segue-se os seguintes passos: Nanodegree Análise de Dados – Projeto 1 6/10
  • 7. i) Cálculo da diferença entre as amostras (di = x antes – x depois); ii) Cálculo da média da diferença entre as amostras (di); iii) Cálculo do desvio padrão da diferença entre as amostras (Sd); iv) Cálculo de t-cal, conforme a equação (5): tcal= ¯di Sd √n (5) Substituindo os valores em (5), tem-se: tcal= −7,965 4,865 √24 =−8,021 t_crit = 1,714 < |tcal = -8,021| 5.5) Conclusões Como t-cal pertence a região crítica, a hipótese nula é rejeitada; assim, tem-se que tri > trc (hipótese alterativa). 6) Opcional: O que você acha que é responsável pelo efeito observado? Consegue pensar em uma alternativa ou tarefa similar que resultaria em um efeito parecido? Alguma pesquisa em relação ao problema pode ser útil para pensar nessas duas questões! Resp.: Imagino que as pessoas tendem a querer ler as palavras, dai o aumento do tempo de resposta. Poderíamos refazer os testes em idiomas em que os respondentes não conhecem, podendo assim diminuir a tendência de leitura; nesta mesma linha, a diminuição do tempo de exposi- ção das palavras poderia ajudar. Poderíamos estudar também a influência de outros fatores tais como: idade, sexo, nível de instrução. Ex.: os 2 outliers observados no Teste Incongruent, qual seria o motivo? Nanodegree Análise de Dados – Projeto 1 7/10
  • 8. Anexo I Código do scilab para resolução deste projeto. clear; //Carregar Módulos exec ('/home/vagner/.Scilab/scilab-5.5.2/atoms/casci/1.0.1/loader.sce'); exec ('/home/vagner/.Scilab/scilab-5.5.2/atoms/modules/nan_1.3.4/loader.sce'); // leitura dos dados Dados=csvRead('/path/stroopdata.csv'); // determinação do nº dados //NL = nº de Linhas //NC = nº de Colunas [NL,NC]=size(Dados); // A primeira linha é o cabeçalho, deve ser retirado. // ... assim j=2 começa na 2ª linha for j=2:NL //Dadosc = Dados Congruent Dadosc(j-1,1)=(Dados(j,1)); //Dadosi = Dados Incongruent Dadosi(j-1,1)=(Dados(j,2)); end; //Determinação do nº de amostras – n //Poderia utilizar NL-1 nc= length(Dadosc); ni= length(Dadosi); //Determinação da amplitude total (rol) – Rccc Rc=max(Dadosc)-min(Dadosc); Ri=max(Dadosi)-min(Dadosi); //Plotando dados xc=1:nc; scf(1) plot2d(xc,Dadosc,rect=[1,min(Dadosc)-1,nc,max(Dadosi)],style=color("black")) xi=1:ni; plot2d(xi,Dadosi,rect=[1,min(Dadosc),ni,max(Dadosi)],style=color("blue")) xtitle('Gráfico de linha dos testes') xlabel('Respondente') ylabel ('Tempo de Resposta') legend("Dados Cogruentes", "Dados Incogruentes",2) xgrid(1) Nanodegree Análise de Dados – Projeto 1 8/10
  • 9. //Determinação do nº de classes de acordo com a Fórmula de Sturges – K Kc = round (1 + 3.33*log10 (nc)); Ki = round (1 + 3.33*log10 (ni)); //Determinação do tamanho dos intervalos – h hc = round (Rc/Kc); hi = round (Ri/Ki); scf(3) xtitle('Histograma Dados Congruent') histplot(Kc, Dadosc, normalization=%f, polygon=%t); scf(4) xtitle('Histograma Dados Incongruent') histplot(Ki, Dadosi, normalization=%f, polygon=%t); //Cálculo da média aritmética das idades – im imc = mean(Dadosc); imi = mean(Dadosi); //Cálculo da mediana das idades – imed imedc = median(Dadosc); imedi = median(Dadosi); //Cálculo do desvio padrão das idades – desP desPc=stdev(Dadosc); desPi=stdev(Dadosi); // Coeficiente de variasão de Pearson cv_c=desPc/imc; cv_i=desPi/imi; //Cálculo da variância das idades – var varc = variance (Dadosc); vari = variance (Dadosi); //Cálculo dos Quartis quarc=quart(Dadosc); quari=quart(Dadosi); //Cálculo da média geométrica medgeoc=geomean(Dadosc); medgeoi=geomean(Dadosi); // BoxPlot scf(5) xtitle('BoxPlot dos testes') nan_boxplot(Dadosc,Dadosi) legend("Dados Cogruentes", "Dados Incogruentes",2) Nanodegree Análise de Dados – Projeto 1 9/10
  • 10. // Necessário para o toolkit CASCI sort=gsort; // Testes de Normalidade // Conforme <Anderson-Darling’s normality test> do toolkit CASCI pvc= andersondarling(Dadosc); pvi= andersondarling(Dadosi); // Conforme skewness and kurtosis test [pvskc,pvkuc,pvskuc]=tstsku(Dadosc) [pvski,pvkui,pvskui]=tstsku(Dadosi) // Testes de Homogeneidade //Levene’s test pvL=levene(Dadosc,Dadosi) pvB=bartlett(Dadosc,Dadosi) // Encontrando t-crit df=nc-1 //Graus de Liberdade Q=0.05 //Nível de Significância. Obs.: Se two-tailed -> divide por 2 P=1-Q; [t_crit]=cdft("T",df,P,Q) scf(12) plot(Dadosc,Dadosi,"x") //linear correlation coefficient called Pearson's product-moment coefficient. [R,p] = nan_corrcoef (Dadosc,Dadosi) // Regressão Linear MMQ [a,b,sig]=reglin(Dadosc',Dadosi') deff("[y]=fr(x)","y=a*x+b"); x=[0:0.1:max(Dadosc)]; fplot2d(x,fr,rect=[min(Dadosc)-500,min(Dadosi)-500,max(Dadosc)+500,max(Dadosi) +500],style=color("black")); xtitle('Gráfico de dispersão (scatter) e reta de regressão’') xlabel('Dados Congruent') ylabel ('Dados Incongruent') // Calculo do t-cal para amostras pareadas // Diferança entre as amostras (di) di = Dadosc-Dadosi // Média das Diferanças entre as amostras di_bar = mean(di) // Desvio padrão das Diferanças entre as amostras Sd=stdev(di) // t-cal t_cal= di_bar/(Sd/sqrt(nc)) Nanodegree Análise de Dados – Projeto 1 10/10