Avalicao online aprendiz: avaliacao da avaliacao

Critérios de qualidade da
Avaliação
ou
A avaliação da avaliação

Critérios de qualidade em
avaliação: como avaliar?
UC: Avaliação Online das
aprendizagens
2011_2012

Aquisições
Produções
Satisfação
O quê avaliar? Alunos/Formandos
Processos Professores
Percursos, ... Recursos,
Quem avaliar? Estratégias E-A
Course Design
Dinamicas
Instituições,
Como avaliar?
Métodos Programas
Instrumentos Sistemas...

Situações
Episódios Quando avaliar? Seriação
Selecção
Certificação
Para quê avaliar? Regulação
Desenvolvimento ...

Como tem a educação
lidado com a dificuldade
da medida ????
UC: Avaliação Online das
aprendizagens
Neuza Pedro

Fenómeno ‘Elephant in the room’

Soluções !?!
a) ignora-se
b) lida-se com isso

Medida, escalas, notas
Educational achievement is difficult to measure:

Measurement involve human capacities and acts are subject to special dificulties due
chiefly to:
1. The absence or imperfection in units in which to measure.
2. The lack of constancy in the facts to be measured
3. The extreme complexity of the measurement to be made.

Controversial ‘Scientific
movement’ in Education

Thorndike, E. L. (1904). Introduction to the theory of mental and social measurements.
New York: Teachers College, Columbia University.

Medida, escalas, notas

Psicologia Psicometria
Sociologia Sociometria
Economia Econometria
Antropologia Antropometria
Biologia Biometria
Química Quimiometria
Educação ___________

Edumetria
Porque não se conhece
o conceito ???

Critérios a considerar
em instrumentos de
avaliação

1. Relevância
Questão: O tipo de questões integradas permitem
avaliar o que se pretende?

Este item deverá pretencer a um instrumento desta
natureza que assume esta função em particular neste
conjunto particular de circunstâncias?

- Associado ao propósito do teste e à sua validade
- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
avaliador
- Não se questiona ainda a qualidade do item mas sim o seu fitness-to-
purpose

2. Equilibrio
Questão: A proporção de questões associadas
a cada um dos aspectos que
descrevem/caracterizam/compõem o que se
pretende analisar então adequadamente
expressos/representados no instrumento?

- Os diferentes elementos do que se pretende avaliar tem que ser
explicíta, distinta e não-ambiguamente considerados e representados
no instrumento
- Dificuldade em identificar claramente as categorias / areas de conteudos
envolvidas (taxonomia)

3. Eficiência
Questão: O instrumento faz um uso eficiente do
tempo disponível para a sua aplicação?

E para a sua classificação?

- Um instrumento construido para 2h30 composto por 50 itens
eficientemente construidos pode ser de tão má qualidade quanto um
teste de 20 minutos com items totalmente disprovidos de eficiência

4.Objectividade
Questão: As questões apresentadas são claras
o suficiente para as respostas possiveis serem
entendíveis de forma comum por diferentes
pessoas?

- Requer a procura de precisão no significado, a eliminação de distorções
das interpretações
- Perguntas difusas e/ou opções de respostas obscuras e excessivamente
proximas
- Estimula a produção/centração excessiva em questões factuais

5. Especificidade
Questão: O tipo de questões integradas remetem
especificamente para as competencias
(conteudos) que se pretentem considerar?

- Entendida como um complemento à objectividade
- Liga-se à desejabilidade em limitar os items de uma prova às
competências (ou conteúdos) particulares que se pretende que a prova
contemple.
- Desta forma os itens da prova deveriam ser respondidos de forma pobre
por sujeitos que não se haviam previamente debruçado pelo conteudo
especifico (ou a sua resposta adequado seria fonte do acaso)

6. Dificuldade
Questão: O tipo de questões integradasfazem
com que, na globalidade, a prova revele um nível
adequado de dificuldade?

- Implica uma referência à norma, à média
- Util na procura de estabelecimento de equivalência entre provas
- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
avaliador
- Não se questiona a qualidade do item mas sim a sua taxa esperada de
respostas correctas e incorrectas
- Pode ser factor a associar à estimação do valor/peso relativo de cada
questão

7. Discriminação
Questão: O tipo de questões integradas
permitem discriminar sujeitos com diferentes
desempenhos?

Distingue niveis de dominio do
conhecimento/competências?

- O poder discriminativo de um item é estimado pela diferença entre a proporças
de respostas correctas apresentadas por sujeitos com bons desempenhos e
maus desempenhos
- Assenta no conceito de sensibilidade à variabilidade (inerente aos sujeitos)

8. Fiabilidade
Questão: O tipo de questões integradas
permitem avaliar o mesmo que outros testes
similares, i e, que se centram sobre o mesmo
foco?

- Estabelece comparação entre desempenho entre a prova e outras
provas equivalentes ou aplicações repetidas da mesma prova (que
pretendem medir o mesmo)
- Integra o conceito de probabilidade de erro

9. Justiça (Fairness)
Questão: A questões integradas estão
construidas de modo a que diferentes sujeitos
consigam reunir as mesmas condições de modo a
ter um ‘bom desempenho’?

- Baseia-se num conceito relativo (A avaliação nunca é justa!!!)
- Liga-se ao assegurar igualdade de circunstâncias
- nao requer background especifico
- Implica a não existência de ‘conflitos’ e de disturbios no interior da prova
(e no seu acto de administração/cotação)

10. Rapidez (Speededness)
Questão: O comprimento da prova é adequado
ao tempo disponibilizado para completar da
mesma?
O tempo disponibilizado permite atingir um bom
desempenho na mesma ?

- Não existe um valor absoluto ainda que se recomende o seu cálculo com
base no tempo tomado por 90% dos sujeitos ao completar a ultima
questão (Ebel, 1972)
- Determinante para a selecção da sequencialidade das questões (e
sobretudo do que constará como ultimas questões)
- Encontram-se efeitos associados a este critério na avaliação online

Uma ‘boa prova’
deverá ser:

• de relevo
• equilibrada
• eficiente
• objectiva
• específica
• moderadamente
complexa
• discriminativa
• fiel
• justa
• e não apenas disponível
por um período de tempo
limitado

Indicadores para
avaliação de questões
ou itens

Índice de Dificuldade
> 0.40 = bom
0.39 - 0.20 = moderado
< 0.19 = muito reduzido
(Ebel, 1972)
Definição:

proporção de respostas incorrectas encontradas
conjuntamente no grupo de sujeitos com
melhores e piores desempenhos

[ Porquê grupos extremos? Maior variabilidade!
]

Ex: grupo de 100 sujeitos
Grupo 1 (melhor desempenho) = 27
Número de respostas correctas: 20

Grupo 2 (pior desempenho) = 27

Total de respostas correctas encontradas= 20 + 10=30
Total de respostas correctas possíveis = 54

Proporção de respostas correctas 54-30= 24 /54 = 0, 44

Distribuição dos índices de
dificuldade
Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 Aluno 6 Aluno 7 Aluno 8 Aluno 9 Aluno 10
1 1 0 1 1 0 1 0 0 1 0
2 1 1 1 1 1 1 1 1 1 1
3 1 0 1 1 0 0 1 1 1 1
4 1 0 1 1 1 1 1 1 1 0
5 0 0 0 0 1 1 1 1 1 1
6 0 0 0 0 0 0 0 1 0 0
7 0 1 1 1 1 1 1 1 1 1
8 0 0 1 0 0 0 1 0 1 0

Aluno 9 Aluno 7 Aluno 8 Aluno 3 Aluno 4 Aluno 6 Aluno 5 Aluno 10 Aluno 1 Aluno 2
2 1 1 1 1 1 1 1 1 1 1
7 1 1 1 1 1 1 1 1 0 1
4 1 1 1 1 1 1 1 0 1 0
5 1 1 1 0 0 1 1 1 0 0
3 1 1 1 1 1 0 0 1 0 0
1 1 0 0 1 1 1 0 0 1 0
8 1 1 0 1 0 0 0 0 0 0

Índice de Discriminação
> 0.40 = muito bom
0.30 - 0.39 = bom
0.20 – 0.29 = aceitável
< 0.19 =pobre

(Ebel, 1972, p. 399)
Definição:

Decorrente da dificuldade do item refere-se a
diferença na proporção de respostas correctas
verificadas nos grupos de sujeitos com melhores e
piores desempenhos

Ex: grupo de 100 sujeitos

Grupo 1 (melhor desempenho) = 27
Grupo 2 (pior desempenho) = 27

Total de respostas correctas no grupo 1 - grupo 2 = 20-10= 10

Proporção do total de respostas correctas = 10/27 = 0, 37

Existe relação entre a soma dos índices de discriminação de cada
item de um teste e a variância do score total do teste

Na medida em que quanto maior a variância de um determinado
número de itens, maior os coeficientes de fiabilidade então,
quanto maior a média dos índices de discriminação, maior
tenderá a ser também a fiabilidade.

Outros índices de discriminação

• Coeficiente de correlação Biserial
• Coeficiente de correlação tetracórica
• Coeficiente de Flanagan
• Coeficiente de Davis

Indicadores de Fiabilidade

Referente à consistência entre diferentes medições

Ex: Se um instrumento dá sempre os mesmos resultados quando aplicado a 2
objectos (hipoteticamente) iguais, podemos confiar no significado da medida e
dizer que a medida é fiável…

* … sabendo que toda a medida tem sempre erro associado]

Fiabilidade inaceitável <0.6
Fiabilidade baixa 0.7
Fiabilidade moderada 0.8-0.9
Fiabilidade Elevada >0.9

Estima (com base nos valores registados nos itens) quão uniformemente esses
itens contribuem para a soma não ponderada do instrumento
Escala 0 a 1, onde 0 = revelaria nenhuma uniformidade ou consistência e
1 = uma uniformidade perfeita entre os itens
=
Consistência interna da escala
=
coeficiente médio de todos as estimativas de consistência interna que
se obteriam se todas as divisões possíveis do teste fossem feitas


• Teste-reteste, formas equivalentes
coeficiente de correlação de Pearson

• Split-half
Consistência corrigida de Spearman-Brown, Guttman

• Coeficiente Alpha cronbach (standardizado)

• Coeficiente de Kuder-Richardson (itens dicotómicos, ex. certo|errado)

• Acordo inter/intra-observador

Indicadores de Validade
O instrumento com erro sistemático é um instrumento com validade reduzida, é um
instrumento que está a medir algo que não era suposto medir (mesmo que o faça de
forma fiável).

Qualquer medida para ser válida enquanto medida de um dado construto, tem
necessariamente de ser fiável. Pelo que, a fiabilidade surge como condição necessária,
mas não suficiente, para a validade.

Após garantir fiabilidade é necessário pôr de lado a hipótese de existência de erro
sistemático, para podermos garantir validade.

(Marôco & Garcia-Marques, 2006)

Indicadores de Validade

Conteúdo = se os conteúdos da prova (itens) representam o construto em análise,
se existe validade lógica Avaliação por especialistas

Critério = validade por correspondência a um critério externo onde já se provou estar
representado o construto em análise; fala-se assim em validade concorrente (actual) e
validade preditiva (face a um desempenho futuro)

Calculo do Coeficiente de correlação com outras provas semelhantes

Construto = grau de consonância dos resultados Análise factorial

Indicadores para
avaliação de categorias
ou dimensões da prova
Teste de Inglês:
D1) Gramática
D2) Vocabulário
D3) regras funcionamento da língua
D4) Compreensão do texto

Indicadores para
avaliação de opções de
resposta a questões

Questões abertas vs fechadas
(Essay or objective tests)

Apoia:
. Identificação de pontos fortes e fracos nos
instrumentos de avaliação
. sequenciar / localizar os itens no instrumento
. identificar fragilidades nos enunciados e opções de
resposta
. promover a modificação/eliminação de questões
. Equiparar/dividir provas
. identificar distractores (elementos de elevada
atractividade) nas opções de resposta
. distribuir/concentrar o grau de dificuldade

… sobretudo a regular e promover melhorias no processo de avaliação
… pela melhoria dos seus instrumentos

Soluções !?!
a) ignora-se
b) lida-se com isso
c) mascara-se o problema

Requer-se uma (nova)
literacia da avaliação

Referências
Dierick, S., & Dochy, F. (2001). New lines in Edumetrics: New forms of assessment lead to new
assessment criteria. Studies in educational evaluation, 27,4, 307-329.

Ebel, R. L. (1972). Essentials of educational measurement (2nd edition). New Jersey: Prentice Hall, Inc.

E-learning Lab UL (2011). Framework de avaliação de cursos online. Disponível em
http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning

* Kelley, T. L. (1939). The selection of upper and lower groups for the validation of tests items. Journal
of Educational Psychology, 30, 17,24.

Lagarto, J. (2009). Avaliação em e-learning. Educação, Formação & Tecnologias, 2 (1), pp. 19-29.
Disponível em http://eft.educom.pt

Marôco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do alfa de Cronbach? Questões antigas e
soluções modernas? Laboratório de Psicologia, 4(1), 65-90.
[Disponível em http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf]

Ussher, B., & Earl, K., (2010). ‘Summative’ and ‘Formative’: Confused by the Assessment Terms? New
Zealand Journal of Teachers’ Work, 7 (1), 53-63.

Avalicao online aprendiz: avaliacao da avaliacao

Mais conteúdo relacionado

Destaque

Semelhante a Avalicao online aprendiz: avaliacao da avaliacao

Mais de Neuza Pedro

Avalicao online aprendiz: avaliacao da avaliacao