Estatística aplicada à psicolinguística (2)

Estatística Aplicada às Ciências
da Linguagem

Prof. José Ferrari Neto

O que é Estatística ?

Estatística é uma ferramenta (ou método) que nos
ajuda a interpretar e analisar conjuntos de
números. É, portanto a ciência da análise de
dados. Consiste de um conjunto de instrumentos
que podem ser utilizados para recolher, classificar,
apresentar e interpretar conjuntos de dados
numéricos.

Ramos da Estatística

- Estatística Descritiva: estuda o comportamento de um
conjunto de dados ou valores

- Estatística Probabilística: estuda as probabilidades
associadas a ocorrência de um determinado dado ou
valor

- Estatística Inferencial: estuda como é possível fazer
afirmações sobre um universo de dados ou valores a
partir de um subconjunto desses dados ou valores.

Conceitos Fundamentais em Estatística

- População: Coleção de unidades individuais, que podem ser
pessoas ou resultados experimentais, com uma ou mais
características comuns, que se pretendem estudar.

- Amostra: Conjunto de dados ou observações, recolhidos a
partir de um subconjunto da população, que se estuda com o
objetivo de tirar conclusões para a população de onde foi
recolhida.

Variável Estatística: qualquer característica associada a um
indivíduo ou população. Também chamada de parâmetro

- Distribuição: conjunto de valores assumidos por uma
variável, e qual a frequência com que ela os assume

Amostragem

-Randômica (aleatória)
- Não-enviesada
- Representativa
- Proporcional
- Uniforme

-Que tamanho deve ter uma amostra ?

Tipos de Dados

- Qualitativos: Representam a informação que identifica
alguma qualidade, categoria ou característica, não
susceptível de medida, mas de classificação, assumindo
várias modalidades.

- Quantitativos: Representam a informação resultante
de características susceptíveis de serem medidas,
apresentando-se com diferentes intensidades, que
podem ser de natureza discreta (descontínua) - dados
discretos, ou contínua - dados contínuos.

Variáveis Estatísticas:

Classificação das Variáveis:
QUALITATIVA NOMINAL (absolutas) sexo, cor dos olhos
(expressa em
categorias
ORDINAL (níveis) classe social, grau de instrução
ou atributos)

CONTÍNUA peso, altura, salário, idade
QUANTITATIVA
(qualquer valor)
(expressa em
números ou DISCRETA número de filhos, número de carros
medidas) (valores finitos)
7

Desafio (I)
Classifique cada uma das alternativas a seguir conforme a tabela
de classificação das variáveis estatísticas:

a) A duração das pausas em um trecho de conversação, medida
em milissegundos;
b) A taxa de palavras por informante, numa escala de polidez
que vai de 1 (pouco polido) a 5 (muito polido);
c) A presença ou ausência de verbos finitos em cada sentença
presente em um texto particular;
d) O nível de gramaticalidade de sentenças numa escala de 0
(completamente agramatical) até 4 (totalmente gramatical)
e) O número de sentenças relembradas por um sujeito 10
minutos depois de ouvi-las.

Frequência e Distribuição de Frequência

• Frequência (ou frequência absoluta) é o número de valores
registrados em uma dada população ou amostra

• Frequência relativa é a proporção (em percentuais) com
que dado valor aparece em relação ao total da população
ou amostra

• Frequência Acumulada é um dado igual à soma das
frequências deste e a de todos os dados anteriores

• Distribuição de Frequência é uma representação gráfica ou
em tabela, que aponta o número de vezes que uma
variável aparece em uma amostra.

Exemplificando: Tabela de Frequência
para Dados Discretos
Em um experimento de produção eliciada, observou-se a ocorrência da perda do
travamento silábico em verbos infinitos na fala urbana típica do Rio de Janeiro.
Analisaram-se dados produzidos por 6 informantes. Os resultados aparecem na
tabela abaixo:

Frequência
Sujeitos Frequência(ƒi) Frequência Frequência
relativa (ƒri)
percentual acumulada

1 1 0,05 5 5
2 2 0,1 10 15
3 5 0,25 25 40
4 8 0,4 40 80
5 3 0,15 15 95
6 1 0,05 5 100

Exemplificando: Tabela de Frequência
para Dados Contínuos
Tempos médios de Resposta em um experimento de decisão lexical

TABELA 2
Tempos de Resposta
FREQ
(ms)
450 1
451 1
452 1
453 1
454 1
455 4
456 3
457 1
458 2
460 5
461 4
462 2
463 2
464 3
465 1
466 1
467 1
468 2
469 1
470 1
472 1
473 1
Total 40

Tabela 3

Tempos de Resposta
FREQUÊNCIA
(ms)

— 4
— 9
— 11
— 8
— 5
— 3

Total 40

Dados fictícios.

Observações:
Algumas indicações na construção de distribuição de
frequências com dados contínuos são:

•Na medida do possível, as classes deverão ter amplitudes
iguais.
•Escolher os limites dos intervalos entre duas possíveis
observações.
•O número de intervalos não deve ultrapassar 20.
•Escolher limites que facilitem o agrupamento.
•Marcar os pontos médios dos intervalos.
•Ao construir o histograma, cada retângulo deverá ter área
proporcional à frequência relativa (ou à frequência absoluta, o
que dá no mesmo) correspondente.

Gráfico de Pizza
Uso de Pronomes Relativos
3% 1%
5%

11%

QUE
QUAL
ONDE
QUEM
QUANTO
58%
CUJO
22%

Gráfico Temporal
Leitura do Segmento Crítico
3000

2500

2000
Axis Title

1500

1000

500

0
s1 s2 s3 s4 s5 s6
Afásico 1466 1733 1189 1504 1500 1522
Controle 951 782 886 754 802 1082

Quando usar ?
•Use o gráfico de barras (histograma) sempre que o
objetivo for comparar diferentes fatores quando
medidos na mesma unidade

•Use o gráfico de pizza sempre que o objetivo for
enfatizar as partes de um todo

•Use o gráfico temporal sempre que o objetivo for
estabelecer uma relação entre uma observação e o
tempo em que ela foi medida

Analisando-se um Gráfico
Ao se analisar um gráfico, seja de que tipo for, sempre
procure observar:

•A forma: presença de picos ou vales, ou ainda fatias
•O centro: :dados mais próximos à média
•A dispersão: o afastamento dos dados em relação à
média
•A distribuição: se é normal ou não
•A simetria: para que lado cresce o gráfico
•A presença de dados discrepantes

Desafio (II)
Para cada tipo de fenômeno abaixo, aponte o tipo de gráfico mais
adequado para representar os dados:

•Desempenho médio de alunos do Ensino Médio na prova de
português do ENEM, por faixa etária;
•Surgimento de orações encaixadas na fala infantil, de 12 a 48
meses;
•Preferência por tempo verbal na expressão da polidez, num grupo
de 100 sujeitos;
•Percentual de julgamentos de gramaticalidade sobre um certo tipo
de sentença, numa escala de 1 a 5;
•Matérias mais importantes para a formação do professor de
português oferecidas nos cursos de Letras;
•Reconhecimento de elementos afixais em palavras
morfologicamente complexas entre sujeitos de três faixas etárias.

Estatística Descritiva

Medidas de Concentração ou de Tendência Central

1. Média (mean)
1. Aritmética
2. Ponderada
3. Geométrica
4. Harmônica
2. Mediana (median)
3. Moda (mode)

Média aritmética simples
É o resultado da divisão da soma de n valores por n.
X = [∑(i→n) xi] / n

Média aritmética ponderada
Neste tipo de média aritmética, cada número que fará parte da média terá um peso.
Este peso será multiplicado pelo número, que serão somados e divididos depois pela
soma dos pesos.
X = (∑ xifi) ÷ (∑ fi)

Média Geométrica
Entre n valores, é a raiz de índice n do produto desses valores.
X = n x1 x2 x3...xn

Média harmônica
A média harmônica equivale ao inverso da média aritmética dos inversos de n valores.

Moda
Define-se moda como sendo: o valor que surge com mais frequência se os dados são
discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que
representa a moda ou a classe modal
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados
qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se
pode calcular a média e por vezes a mediana.

Mediana
A mediana, é uma medida de localização do centro da distribuição dos dados, definida
do seguinte modo:
Ordenados os elementos da amostra, do maior para o menor, a mediana é o valor
(pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da
amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à
mediana
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n
elementos, se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é a
semi-soma dos dois elementos médios.

Que medida de tendência central devemos usar ?

A escolha deve levar em conta três fatores:

a) O tipo de variável: a média só é realmente confiável quando usada com variáveis quantitativas
contínuas ou discretas; para dados qualitativos ordinais, recomenda-se a mediana, e, para
dados qualitativos nominais, a moda pode ser usada;

b) O tipo de distribuição de frequência: se a distribuição for enviesada positivamente ou
negativamente, a moda e a mediana diferirão da média; assim, somente se a distribuição
tender a ser simétrica valerá a pena usar a média como medida central; do contrário, a mediana
é mais recomendável;

c) Os objetivos da análise: Como medida de localização, a mediana é mais robusta do que a
média, pois não é tão sensível aos dados. A mediana não é tão sensível, como a média, às
observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro
lado a média reflete o valor de todas as observações. A média, ao contrário da mediana, é uma
medida muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes
valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má
utilização da média em muitas situações em que teria mais significado utilizar a mediana.


Medidas de Dispersão

1. Amplitude (range)
2. Variância (variance)
3. Desvio-Padrão (standard deviation)
1. Escore-z
4. Erro Padrão (standard error)
5. Quartis


Amplitude: é uma medida de dispersão dada pela
diferença entre o maior e o menor valor em um
conjunto de dados.

R = X max – X min

A utilização da amplitude como medida de dispersão é
limitada, pois, sendo uma medida que depende
apenas dos valores externos, não capta possíveis
variações entre esses limites

Variância : medida que se obtém somando os quadrados dos desvios das
observações da amostra, relativamente à sua média, e dividindo pelo número
de observações da amostra menos um.

S2 = ∑ (xi - X)2 ÷ ∑ fi

Desvio-padrão: Uma vez que a variância envolve a soma de quadrados, a
unidade em que se exprime não é a mesma que a dos dados. Assim, para obter
uma medida da variabilidade ou dispersão com as mesmas unidades que os
dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão. O
desvio padrão é uma medida que só pode assumir valores não negativos e
quanto maior for, maior será a dispersão dos dados. o desvio padrão será
maior, quanta mais variabilidade houver entre os dados.

S = √s2

Erro Padrão: O erro padrão é uma medida da precisão da média amostral
calculada. O erro padrão obtém-se dividindo o desvio padrão pela raiz
quadrada do tamanho da amostra. Ou seja, quando não se conhece o desvio
padrão da população, usa-se o desvio padrão da amostra (s) ficando a
fórmula:

Se de uma população ou amostra, com média µ e desvio padrão σ se
retirarem muitas amostras todas do mesmo tamanho n, e para cada amostra
se calcular a respectiva média, a distribuição de todas essas médias é normal
com média µ e desvio padrão σ: é a chamada distribuição-Z. Assim, o erro
padrão não é mais do que o desvio padrão da distribuição das médias das
amostras de uma população. A partir do erro padrão é possível estabelecer a
margem de erro .

Quartis
São valores dados a partir do conjunto de observações ordenado em
ordem crescente, que dividem a distribuição em quatro partes iguais. O
primeiro quartil, Q1, é o número que deixa 25% das observações abaixo
e 75% acima, enquanto que o terceiro quartil, Q3, deixa 75% das
observações abaixo e 25% acima. Já Q2 é a mediana, deixa 50% das
observações abaixo e 50% das observações acima.

O espaço compreendido entre o primeiro e o terceiro quartis é
chamado de amplitude interquartis, a qual é usada para calcular os
limites inferior e superior, por meio da fórmula:

Limite Inferior: Q1 – 1,5(Q3 – Q1)
Limite Superior: Q3 + 1,5(Q3 – Q1)

Valores além dos limites inferior e superior são chamados de outliers

Encontrando Valores Discrepantes
boxplot2.jpg
300px-Bland-altman_plot.png

Tipos de Distribuição

 Normal
 Não-Normais
 Viés (Assimetria ou enviesamento, “skewed”)
 Curtose (“kurtosis”)
 Uniforme
 Bimodal (Binomial)
 U-shaped
 J-shaped

Assimetria

Na assimetria positiva, os valores mais baixos são os mais frequentes, e a
longa cauda direita puxa a média em sua direção. Já na assimetria
negativa, os valores mais altos são os mais frequentes, e a média é puxada
para a direção oposta. Em ambos os casos, a média fica além da mediana.

Curtose

Mesocúrtica: curtose neutra
Platocúrtica: curtose negativa
Leptocúrtica: curtose positiva

Interpretando o desvio padrão: a regra empírica

Como Saber se os Dados são Normais ?
Testes de Normalidade

•Anderson-Darling
•Kolmogorov-Smirnov
•Shapiro-Wilk

•Quando os dados não são normais, pode-se aplicar
uma Transformação de Box-Cox

Estatística Inferencial
Teste de Hipóteses: Trata-se de uma técnica para se
fazer a inferência estatística sobre uma população a
partir de uma amostra

Os fundamentos epistemológicos do Teste de Hipóteses
fundamentam-se na teoria da ciência de Karl Popper, a
qual sustenta que não podemos provar que uma teoria
é verdadeira, mas apenas mostrar que ela é falsa.
Assim, a Estatística Inferencial não indaga sobre a
certeza de estarmos certos, mas sobre a probabilidade
de estarmos errados. Para isso, estabelecem as
chamadas hipóteses estatísticas.

A Lógica da Inferência
A inferência estatística se baseia na ideia de que podemos usar as distribuições
amostrais de estatísticas para, com os nossos conhecimentos sobre as
probabilidades, fazer afirmações sobre o que ocorreria caso repetíssemos o processo
de obtenção de distribuições amostrais muitas vezes.

Para se realizar uma inferência, é preciso ter uma amostra aleatória simples, supor
que os valores possíveis para os parâmetros (variáveis) apresentem distribuição
normal (ou o mais próximo possível da normalidade) e que conheçamos o desvio-
padrão da população, mesmo que a média desta população seja desconhecida
(repare que estamos falando de média e desvio-padrão da população, e não da
amostra).

Existem dois tipos básicos de inferência estatística, os intervalos de confiança, usados
para se estimar o valor de um parâmetro populacional desconhecido, e os testes de
significância, usados para se avaliar a evidência fornecida pelos dados sobre alguma
afirmação relativa à população (afirmação expressa por meio das hipóteses
estatísticas)

Estatística Inferencial
HIPÓTESE ESTATÍSTICA

Trata-se de uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de
probabilidade de uma variável populacional.

TIPOS DE HIPÓTESES

Designa-se por Ho, chamada hipótese nula, a hipótese estatística
a ser testada, e por H1, a hipótese alternativa. A HIPÓTESE NULA
É UMA ASSERTIVA DE COMO O MUNDO DEVERIA SER, SE NOSSA
SUPOSIÇÃO ESTIVESSE ERRADA.

Erros
TIPOS DE ERRO DE HIPÓTESE

EXISTEM DOIS TIPOS DE ERRO DE HIPÓTESE.

Erro tipo 1 - rejeição de uma hipótese verdadeira;
Erro tipo 2 – aceitação de uma hipótese falsa.

A probabilidade α do erro tipo I é denominada “nível de
significância” do teste.

Estatística de Teste e P-Valor
Uma estatística de teste calculada a partir de dados amostrais
mede de quanto os dados divergem do que esperaríamos se a
hipótese nula fosse verdadeira. Valores grandes da estatística
mostram que os dados não são consistentes com a hipótese nula.
Uma outra interpretação da estatística de teste é a de que ela
ilustra o tamanho da diferença entre as hipóteses, e o quanto
essa diferença se deu ao acaso.

A probabilidade, calculada supondo-se H0 verdadeira, de que a
estatística de teste assuma um valor tão ou mais extremo do que
o valor realmente observado é chamado de p-valor do teste.
Quanto menor o P-valor, mais forte é a evidência contra a
hipótese nula, fornecida pelos dados. O P-valor deve ser
comparado com o nível de significância do teste.

Testes Estatísticos de Significância
•Para amostras com uma variável:
•Teste-t
•One-Way ANOVA

•Para amostras com mais de uma variável
•ANOVA Multifatorial

•Ambos os testes (teste-t e ANOVA ) fazem uso da média e do
desvio-padrão amostral e populacional em suas
fórmulas, tomados como parâmetros, e por esta razão os dois
testes são chamados de testes paramétricos de significância.
Devem ser usados apenas com dados quantitativos contínuos ou
discretos. Não devem ser usados com dados qualitativos
nominais ou ordinais.

Aplicando um Teste-t
•Presença de Fator Grupal
•Pareado ou Dependente (paired)
•Não-Pareado ou Independente (unpaired)
•Amostra Única

•Medida Repetida

•Caudas
•Monocaudal (monodirecional)
•Bicaudal (bidirecional)

Interpretando um Teste-t (I)
Desafio (III)

a) Aplicou-se um estudo experimental para avaliar se a
interpretação semântica agentiva de sentenças é afetada pela
presença de certos tipos de verbo. 15 sujeitos foram expostos
a um conjunto de 30 frases, as quais variavam quanto a
presença de verbos ergativos (“A janela abriu”), inergativos
(“O homem morreu”) e transitivos (“O menino pintou”).
Mediram-se o índice de respostas agentivas e o tempo médio
de respostas. Pergunta-se:
a) Quais as variáveis independentes ?
b) Quais as variáveis dependentes ?
c) Como podemos formular as hipóteses alternativa e nula ?
d) A qual das duas medidas poderia se aplicar o teste-t ?
e) Por que usamos o teste-t nesse caso ?
f) Que especificações de teste-t devemos usar aqui ?

Interpretando um Teste-t (II)
Desafio (IV)

b) Suponha que o experimento anterior tenha dado o seguinte
resultado, com relação à variável tempo de resposta:

t(14) = 12,48 e p < 0,003

Pergunta-se:

a) O que significa o número entre parênteses ?
b) Como se chama o valor numérico de t ? Como podemos
interpretá-lo ?
c) Como se chama o valor numérico de p ? Como podemos
interpretá-lo ?
d) Como podemos interpretar o resultado desse
experimento ?

Interpretando uma Análise de Variância
Desafio (V)

c) Resolveu-se aplicar o mesmo experimento a dois grupos distintos de
sujeitos, divididos pela escolaridade. Passou-se a ter um grupo com 15
sujeitos de alta escolaridade, e outro com 15 pessoas de baixa escolaridade.
Os resultados da variável tempo de resposta foram submetidos a uma
ANOVA, obtendo-se os seguintes resultados (fictícios):

Tipo de Verbo: F(1, 28) = 9,77,48 e p < 0,01
Escolaridade: F(1,28) = 4,21 e p < 0,5
Tipo de Verbo x Escolaridade = F(1, 28) = 22,19 e p < 0,06

a) O que significa o número entre parênteses ?
b) Como se chama o valor numérico de F? Como podemos interpretá-lo ?
c) Como se chama o valor numérico de p no item c ?
d) Como podemos interpretar o resultado desse experimento ?
e) Por que se usou a ANOVA nesse caso ?
f) Que tipo de ANOVA usou-se aqui ?

Testes para Comparação 2 x 2
•Teste de Tukey
•Teste LSD de Fisher
•Teste de Dunnett
•Teste de Scheffé

Testes Não-Paramétricos
São testes de inferência estatística que não assumem pressuposições básicas
sobre a forma da distribuição, como a normalidade, nem levam em conta
parâmetros como a média e o desvio-padrão. São, por esta razão, conhecidos
como testes de distribuição livre.

De um modo geral, os testes não-paramétricos costumam ser menos
poderosos que os seus correlatos paramétricos, no sentido em que, por
vezes, apresentam maior probabilidade de rejeitar H0 quando esta é
verdadeira, ou de aceitar H0 quando esta é falsa. Contudo, ainda
assim, constituem-se em excelentes alternativas aos testes
paramétricos, principalmente por lidarem com dados não passíveis de análise
paramétrica (como dados qualitativos ordinais ou nominais) e serem
passíveis de utilização quando as condições para a aplicação dos testes
paramétricos não são plenamente satisfeitas.

Quando Usar Testes Não-Paramétricos ?
•Quando as variáveis em análise não qualitativas e não-
quantificáveis;
•Quando os dados são do tipo emparelhados;
•Quando a amostra for relativamente pequena;
•Com dados qualitativos nominais e/ou ordinais;
•Quando as condições para aplicação de testes
paramétricos não podem ser satisfeitas em algum nível;
•Normalidade
•Homocedasticidade
•Tamanho da amostra

Vantagens e Desvantagens
Vantagens:
•Estatísticas não-paramétricas exprimem probabilidades exatas;
•Não existem alternativas para provas não-paramétricas quando
as amostras são muito pequenas;
•Possibilidade de se tratarem dados de várias populações
diferentes;
•Possibilidade de se aplicar a dados qualitativos
•Facilidade de uso e aprendizado

Desvantagens
•Provas não-paramétricas por vezes não levam em conta certas
propriedades dos dados, e por isso representam um desperdício
de informações;
•São menos poderosas, no sentido da relação poder-eficiência

Comparação entre Testes
Paramétrico Não-Paramétrico

Coeficiente de Pearson para
Coeficiente de Spearman para Correlação
Correlação

Teste-t 1 Amostra Teste de Wilcoxon 1 Amostra
Teste-t Pareado Teste de Wilcoxon Pareado

Teste de Wilcoxon-Mann-Whitney Amostras
Teste-t 2 Amostras
Independentes
ANOVA (dados
Teste de Kruskal-Wallis
independentes)

ANOVA (dados dependentes) Teste de Friedman

Teste de Qui-Quadrado (Chi-Square)

Teste de Wilcoxon
O teste de Wilcoxon pareado é utilizado para comparar
se as medidas de posição de duas amostras são iguais
no caso em que as amostras são dependentes.
Constitui-se em excelente alternativa ao teste-t
pareado, em especial quando os dados são qualitativos.
O teste de Wilcoxon é muito útil quando se deseja obter
diferenças qualitativas tais como “maior/menor
que”, “melhor/pior que”, etc.

Exemplo: testar se a frequência de exposição a certos
marcadores conversacionais altera o nível de
competência pragmática de crianças.

Teste de Mann-Whitney
O teste de Mann-Whitney é utilizado para comparar se as
medidas de posição de duas amostras são iguais no caso em que
as amostras são independentes. Constitui-se em excelente
alternativa ao teste-t não-pareado, em especial quando os dados
são qualitativos, ainda que possa ser usado com dados
quantitativos também. O teste de Mann-Whitney é muito útil
quando as variáveis envolvidas tenham uma escala de medida
pelo menos ordinal

Exemplo: testar se a eficiência de um determinado método de
ensino de língua estrangeira é a mesma em aprendizes de três
faixas etárias distintas.

Teste de Friedman
O teste de Friedman é uma alternativa não paramétrica para o
teste de experimentos com dados dependentes (medidas
repetidas) da ANOVA regular. Ele substitui a ANOVA quando os
pressupostos de normalidade não estão assegurados, ou quando
as variações são possivelmente diferentes de população para
população. Este teste utiliza os ranks dos dados ao invés de seus
valores brutos para o cálculo da estatística de teste. Como o
teste de Friedman não faz suposições sobre a distribuição, ele
não é tão poderoso quanto o teste padrão se as populações
forem realmente normais.

Exemplo: testar se crianças de certa faixa etária percebem de
igual maneira no input três tipos de informação relativa a gênero
gramatical.

Teste de Kruskal-Wallis
O teste de Kruskal-Wallis é o análogo ao teste F utilizado na
ANOVA de um fator, podendo ser usado em análises multifatoriais.
Enquanto a análise de variância dos testes dependem da hipótese
de que todas as populações em confronto são independentes e
normalmente distribuídas, o teste de Kruskal-Wallis não coloca
nenhuma restrição sobre a comparação. Este teste é útil com
dados independentes sobre os quais se quer saber se há alguma
diferença estatística entre eles.

Exemplo: testar se os tempos de leitura do segmento crítico que
contém uma retomada anafórica pronominal são diferentes em
sujeitos de alta escolaridade e baixa escolaridade.

Teste do Qui-Quadrado
Quando os dados da pesquisa se apresentam sob a forma de frequências em
categorias discretas (dados quantitativos discretos ou dados qualitativos
nominais) pode-se aplicar o Teste do Qui-Quadrado (Chi-Square Test) para
determinar a significância das diferenças entre dois ou mais grupos
independentes.

Basicamente, o Qui-Quadrado pode ser aplicado nas seguintes situações:

•Verificar se há diferença entre as proporções obtidas em uma única amostra
(Qui-Quadrado de Pearson);
•Verificar se há diferença entre as proporções obtidas em duas amostras (Qui-
Quadrado de Proporção);
•Verificar se as frequências observadas na amostra refletem as frequências
esperadas na população (Qui-Quadrado de Homogeneidade);
•Verificar se existe uma correlação entre as variáveis (Qui-Quadrado de
Independência).

Estatística aplicada à psicolinguística (2)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (18)

Semelhante a Estatística aplicada à psicolinguística (2)

Semelhante a Estatística aplicada à psicolinguística (2) (17)

Último

Último (20)

Estatística aplicada à psicolinguística (2)