Critérios de qualidade da
        Avaliação
           ou
A avaliação da avaliação
Critérios de qualidade em
 avaliação: como avaliar?
               UC: Avaliação Online das
                         aprendizagens
                               2011_2012
Aquisições
   Produções
   Satisfação
                  O quê avaliar?    Alunos/Formandos
    Processos                       Professores
 Percursos, ...                     Recursos,
                   Quem avaliar?    Estratégias E-A
                                    Course Design
                                    Dinamicas
                                    Instituições,
                  Como avaliar?
     Métodos                        Programas
Instrumentos                        Sistemas...


   Situações
   Episódios      Quando avaliar?    Seriação
                                     Selecção
                                     Certificação
               Para quê avaliar?     Regulação
                                     Desenvolvimento ...
Como tem a educação
lidado com a dificuldade
    da medida ????
              UC: Avaliação Online das
                        aprendizagens
                          Neuza Pedro
Fenómeno ‘Elephant in the room’
Soluções !?!
a) ignora-se
b) lida-se com isso
Medida, escalas, notas
Educational achievement is difficult to measure:




Measurement involve human capacities and acts are subject to special dificulties due
chiefly to:
1. The absence or imperfection in units in which to measure.
2. The lack of constancy in the facts to be measured
3. The extreme complexity of the measurement to be made.




                                                                  Controversial ‘Scientific
                                                                  movement’ in Education

                                Thorndike, E. L. (1904). Introduction to the theory of mental and social measurements.
                                                                       New York: Teachers College, Columbia University.
Medida, escalas, notas

Psicologia     Psicometria
Sociologia     Sociometria
Economia       Econometria
Antropologia   Antropometria
Biologia       Biometria
Química        Quimiometria
Educação       ___________
Edumetria
Porque não se conhece
    o conceito ???
Critérios a considerar
em instrumentos de
      avaliação
1. Relevância
Questão: O tipo de questões integradas permitem
                  avaliar o que se pretende?

 Este item deverá pretencer a um instrumento desta
natureza que assume esta função em particular neste
        conjunto particular de circunstâncias?


 -   Associado ao propósito do teste e à sua validade
 -   Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
     avaliador
 -   Não se questiona ainda a qualidade do item mas sim o seu fitness-to-
     purpose
2. Equilibrio
    Questão: A proporção de questões associadas
             a cada um dos aspectos que
     descrevem/caracterizam/compõem o que se
       pretende analisar então adequadamente
      expressos/representados no instrumento?


-    Os diferentes elementos do que se pretende avaliar tem que ser
     explicíta, distinta e não-ambiguamente considerados e representados
     no instrumento
-    Dificuldade em identificar claramente as categorias / areas de conteudos
     envolvidas (taxonomia)
3. Eficiência
Questão: O instrumento faz um uso eficiente do
       tempo disponível para a sua aplicação?

                 E para a sua classificação?




-   Um instrumento construido para 2h30 composto por 50 itens
    eficientemente construidos pode ser de tão má qualidade quanto um
    teste de 20 minutos com items totalmente disprovidos de eficiência
4.Objectividade
    Questão: As questões apresentadas são claras
     o suficiente para as respostas possiveis serem
      entendíveis de forma comum por diferentes
                        pessoas?



-     Requer a procura de precisão no significado, a eliminação de distorções
      das interpretações
-     Perguntas difusas e/ou opções de respostas obscuras e excessivamente
      proximas
-     Estimula a produção/centração excessiva em questões factuais
5. Especificidade
    Questão: O tipo de questões integradas remetem
         especificamente para as competencias
       (conteudos) que se pretentem considerar?



-    Entendida como um complemento à objectividade
-    Liga-se à desejabilidade em limitar os items de uma prova às
     competências (ou conteúdos) particulares que se pretende que a prova
     contemple.
-    Desta forma os itens da prova deveriam ser respondidos de forma pobre
     por sujeitos que não se haviam previamente debruçado pelo conteudo
     especifico (ou a sua resposta adequado seria fonte do acaso)
6. Dificuldade
    Questão: O tipo de questões integradasfazem
com que, na globalidade, a prova revele um nível
            adequado de dificuldade?


-    Implica uma referência à norma, à média
-    Util na procura de estabelecimento de equivalência entre provas
-    Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
     avaliador
-    Não se questiona a qualidade do item mas sim a sua taxa esperada de
     respostas correctas e incorrectas
-    Pode ser factor a associar à estimação do valor/peso relativo de cada
     questão
7. Discriminação
         Questão: O tipo de questões integradas
     permitem discriminar sujeitos com diferentes
                    desempenhos?

                  Distingue niveis de dominio do
                  conhecimento/competências?



-   O poder discriminativo de um item é estimado pela diferença entre a proporças
    de respostas correctas apresentadas por sujeitos com bons desempenhos e
    maus desempenhos
-   Assenta no conceito de sensibilidade à variabilidade (inerente aos sujeitos)
8. Fiabilidade
      Questão: O tipo de questões integradas
    permitem avaliar o mesmo que outros testes
    similares, i e, que se centram sobre o mesmo
                          foco?



-    Estabelece comparação entre desempenho entre a prova e outras
    provas equivalentes ou aplicações repetidas da mesma prova (que
    pretendem medir o mesmo)
-   Integra o conceito de probabilidade de erro
9. Justiça (Fairness)
         Questão: A questões integradas estão
     construidas de modo a que diferentes sujeitos
    consigam reunir as mesmas condições de modo a
              ter um ‘bom desempenho’?




-     Baseia-se num conceito relativo (A avaliação nunca é justa!!!)
-     Liga-se ao assegurar igualdade de circunstâncias
-     nao requer background especifico
-     Implica a não existência de ‘conflitos’ e de disturbios no interior da prova
      (e no seu acto de administração/cotação)
10. Rapidez (Speededness)
    Questão: O comprimento da prova é adequado
      ao tempo disponibilizado para completar da
                        mesma?
    O tempo disponibilizado permite atingir um bom
                desempenho na mesma ?


-    Não existe um valor absoluto ainda que se recomende o seu cálculo com
     base no tempo tomado por 90% dos sujeitos ao completar a ultima
     questão (Ebel, 1972)
-    Determinante para a selecção da sequencialidade das questões (e
     sobretudo do que constará como ultimas questões)
-    Encontram-se efeitos associados a este critério na avaliação online
Uma ‘boa prova’
  deverá ser:
•    de relevo
•    equilibrada
•    eficiente
•    objectiva
•    específica
•    moderadamente
     complexa
•    discriminativa
•    fiel
•    justa
•   e não apenas disponível
    por um período de tempo
    limitado
Indicadores para
avaliação de questões
       ou itens
Índice de Dificuldade
                                  > 0.40 = bom
                                  0.39 - 0.20 = moderado
                                  < 0.19 = muito reduzido
                                  (Ebel, 1972)
Definição:

proporção de respostas incorrectas encontradas
conjuntamente no grupo de sujeitos com
melhores e piores desempenhos

[ Porquê grupos extremos? Maior variabilidade!
                      ]
Ex: grupo de 100 sujeitos
Grupo 1 (melhor desempenho) = 27
Número de respostas correctas: 20

Grupo 2 (pior desempenho) = 27
Número de respostas correctas: 10

 Total de respostas correctas encontradas= 20 + 10=30
       Total de respostas correctas possíveis = 54

Proporção de respostas correctas 54-30= 24 /54 = 0, 44
Distribuição dos índices de
     dificuldade
    Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 Aluno 6 Aluno 7     Aluno 8 Aluno 9 Aluno 10
1         1       0       1        1       0       1          0        0       1        0
2         1       1       1        1       1       1          1        1       1        1
3         1       0       1        1       0       0          1        1       1        1
4         1       0       1        1       1       1          1        1       1        0
5         0       0       0        0       1       1          1        1       1        1
6         0       0       0        0       0       0          0        1       0        0
7         0       1       1        1       1       1          1        1       1        1
8         0       0       1        0       0       0          1        0       1        0


  Aluno 9 Aluno 7 Aluno 8 Aluno 3 Aluno 4 Aluno 6 Aluno 5 Aluno 10 Aluno 1 Aluno 2
2        1       1       1       1       1       1       1        1       1        1
7        1       1       1       1       1       1       1        1       0        1
4        1       1       1       1       1       1       1        0       1        0
5        1       1       1       0       0       1       1        1       0        0
3        1       1       1       1       1       0       0        1       0        0
1        1       0       0       1       1       1       0        0       1        0
8        1       1       0       1       0       0       0        0       0        0
Índice de Discriminação
                                     > 0.40 = muito bom
                                     0.30 - 0.39 = bom
                                     0.20 – 0.29 = aceitável
                                     < 0.19 =pobre

                                     (Ebel, 1972, p. 399)
Definição:

Decorrente da dificuldade do item refere-se a
diferença na proporção de respostas correctas
verificadas nos grupos de sujeitos com melhores e
piores desempenhos
Ex: grupo de 100 sujeitos

Grupo 1 (melhor desempenho) = 27
Número de respostas correctas: 20
Grupo 2 (pior desempenho) = 27
Número de respostas correctas: 10

Total de respostas correctas no grupo 1 - grupo 2 = 20-10= 10

  Proporção do total de respostas correctas = 10/27 = 0, 37
Existe relação entre a soma dos índices de discriminação de cada
item de um teste e a variância do score total do teste




Na medida em que quanto maior a variância de um determinado
número de itens, maior os coeficientes de fiabilidade então,
quanto maior a média dos índices de discriminação, maior
tenderá a ser também a fiabilidade.
Outros índices de discriminação

•   Coeficiente de correlação Biserial
•   Coeficiente de correlação tetracórica
•   Coeficiente de Flanagan
•   Coeficiente de Davis
Indicadores de Fiabilidade

Referente à consistência entre diferentes medições


Ex: Se um instrumento dá sempre os mesmos resultados quando aplicado a 2
objectos (hipoteticamente) iguais, podemos confiar no significado da medida e
dizer que a medida é fiável…

                 * … sabendo que toda a medida tem sempre erro associado]
Indicadores de Fiabilidade
                                                          Fiabilidade inaceitável <0.6
                                                          Fiabilidade baixa 0.7
                                                          Fiabilidade moderada 0.8-0.9
                                                          Fiabilidade Elevada >0.9




Estima (com base nos valores registados nos itens) quão uniformemente esses
itens contribuem para a soma não ponderada do instrumento
Escala 0 a 1, onde 0 = revelaria nenhuma uniformidade ou consistência e
                    1 = uma uniformidade perfeita entre os itens
                                        =
                  Consistência interna da escala
                                       =
     coeficiente médio de todos as estimativas de consistência interna que
       se obteriam se todas as divisões possíveis do teste fossem feitas
Indicadores de Fiabilidade

•   Teste-reteste, formas equivalentes
      coeficiente de correlação de Pearson

•   Split-half
     Consistência corrigida de Spearman-Brown, Guttman

• Coeficiente Alpha cronbach (standardizado)

•   Coeficiente de Kuder-Richardson (itens dicotómicos, ex. certo|errado)

•   Acordo inter/intra-observador
Indicadores de Validade
O instrumento com erro sistemático é um instrumento com validade reduzida, é um
instrumento que está a medir algo que não era suposto medir (mesmo que o faça de
forma fiável).

Qualquer medida para ser válida enquanto medida de um dado construto, tem
necessariamente de ser fiável. Pelo que, a fiabilidade surge como condição necessária,
mas não suficiente, para a validade.


 Após garantir fiabilidade é necessário pôr de lado a hipótese de existência de erro
sistemático, para podermos garantir validade.

                          (Marôco & Garcia-Marques, 2006)
Indicadores de Validade

Conteúdo = se os conteúdos da prova (itens) representam o construto em análise,
se existe validade lógica       Avaliação por especialistas

Critério = validade por correspondência a um critério externo onde já se provou estar
representado o construto em análise; fala-se assim em validade concorrente (actual) e
validade preditiva (face a um desempenho futuro)

       Calculo do Coeficiente de correlação com outras provas semelhantes

Construto = grau de consonância dos resultados         Análise factorial
Indicadores para
avaliação de categorias
ou dimensões da prova
Teste de Inglês:
D1) Gramática
D2) Vocabulário
D3) regras funcionamento da língua
D4) Compreensão do texto
Indicadores para
avaliação de opções de
 resposta a questões
Questões abertas vs fechadas
   (Essay or objective tests)
Apoia:
. Identificação de pontos fortes e fracos nos
instrumentos de avaliação
. sequenciar / localizar os itens no instrumento
. identificar fragilidades nos enunciados e opções de
resposta
. promover a modificação/eliminação de questões
. Equiparar/dividir provas
. identificar distractores (elementos de elevada
atractividade) nas opções de resposta
. distribuir/concentrar o grau de dificuldade

 … sobretudo a regular e promover melhorias no processo de avaliação
               … pela melhoria dos seus instrumentos
Como tem a educação
lidado com a dificuldade
    da medida ????
              UC: Avaliação Online das
                        aprendizagens
                          Neuza Pedro
Soluções !?!
 a) ignora-se
 b) lida-se com isso
c) mascara-se o problema
Requer-se uma (nova)
 literacia da avaliação
Referências
Dierick, S., & Dochy, F. (2001). New lines in Edumetrics: New forms of assessment lead to new
assessment criteria. Studies in educational evaluation, 27,4, 307-329.

Ebel, R. L. (1972). Essentials of educational measurement (2nd edition). New Jersey: Prentice Hall, Inc.

E-learning Lab UL (2011). Framework de avaliação de cursos online. Disponível em
http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning

* Kelley, T. L. (1939). The selection of upper and lower groups for the validation of tests items. Journal
of Educational Psychology, 30, 17,24.

Lagarto, J. (2009). Avaliação em e-learning. Educação, Formação & Tecnologias, 2 (1), pp. 19-29.
Disponível em http://eft.educom.pt

Marôco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do alfa de Cronbach? Questões antigas e
soluções modernas? Laboratório de Psicologia, 4(1), 65-90.
[Disponível em http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf]

Ussher, B., & Earl, K., (2010). ‘Summative’ and ‘Formative’: Confused by the Assessment Terms? New
Zealand Journal of Teachers’ Work, 7 (1), 53-63.

Avalicao online aprendiz: avaliacao da avaliacao

  • 1.
    Critérios de qualidadeda Avaliação ou A avaliação da avaliação
  • 2.
    Critérios de qualidadeem avaliação: como avaliar? UC: Avaliação Online das aprendizagens 2011_2012
  • 3.
    Aquisições Produções Satisfação O quê avaliar? Alunos/Formandos Processos Professores Percursos, ... Recursos, Quem avaliar? Estratégias E-A Course Design Dinamicas Instituições, Como avaliar? Métodos Programas Instrumentos Sistemas... Situações Episódios Quando avaliar? Seriação Selecção Certificação Para quê avaliar? Regulação Desenvolvimento ...
  • 4.
    Como tem aeducação lidado com a dificuldade da medida ???? UC: Avaliação Online das aprendizagens Neuza Pedro
  • 5.
  • 6.
  • 7.
    Medida, escalas, notas Educationalachievement is difficult to measure: Measurement involve human capacities and acts are subject to special dificulties due chiefly to: 1. The absence or imperfection in units in which to measure. 2. The lack of constancy in the facts to be measured 3. The extreme complexity of the measurement to be made. Controversial ‘Scientific movement’ in Education Thorndike, E. L. (1904). Introduction to the theory of mental and social measurements. New York: Teachers College, Columbia University.
  • 8.
    Medida, escalas, notas Psicologia Psicometria Sociologia Sociometria Economia Econometria Antropologia Antropometria Biologia Biometria Química Quimiometria Educação ___________
  • 9.
    Edumetria Porque não seconhece o conceito ???
  • 10.
    Critérios a considerar eminstrumentos de avaliação
  • 11.
    1. Relevância Questão: Otipo de questões integradas permitem avaliar o que se pretende? Este item deverá pretencer a um instrumento desta natureza que assume esta função em particular neste conjunto particular de circunstâncias? - Associado ao propósito do teste e à sua validade - Muitas vezes a finalidade de uma prova reside (vagamente) na mente do avaliador - Não se questiona ainda a qualidade do item mas sim o seu fitness-to- purpose
  • 12.
    2. Equilibrio Questão: A proporção de questões associadas a cada um dos aspectos que descrevem/caracterizam/compõem o que se pretende analisar então adequadamente expressos/representados no instrumento? - Os diferentes elementos do que se pretende avaliar tem que ser explicíta, distinta e não-ambiguamente considerados e representados no instrumento - Dificuldade em identificar claramente as categorias / areas de conteudos envolvidas (taxonomia)
  • 13.
    3. Eficiência Questão: Oinstrumento faz um uso eficiente do tempo disponível para a sua aplicação? E para a sua classificação? - Um instrumento construido para 2h30 composto por 50 itens eficientemente construidos pode ser de tão má qualidade quanto um teste de 20 minutos com items totalmente disprovidos de eficiência
  • 14.
    4.Objectividade Questão: As questões apresentadas são claras o suficiente para as respostas possiveis serem entendíveis de forma comum por diferentes pessoas? - Requer a procura de precisão no significado, a eliminação de distorções das interpretações - Perguntas difusas e/ou opções de respostas obscuras e excessivamente proximas - Estimula a produção/centração excessiva em questões factuais
  • 15.
    5. Especificidade Questão: O tipo de questões integradas remetem especificamente para as competencias (conteudos) que se pretentem considerar? - Entendida como um complemento à objectividade - Liga-se à desejabilidade em limitar os items de uma prova às competências (ou conteúdos) particulares que se pretende que a prova contemple. - Desta forma os itens da prova deveriam ser respondidos de forma pobre por sujeitos que não se haviam previamente debruçado pelo conteudo especifico (ou a sua resposta adequado seria fonte do acaso)
  • 16.
    6. Dificuldade Questão: O tipo de questões integradasfazem com que, na globalidade, a prova revele um nível adequado de dificuldade? - Implica uma referência à norma, à média - Util na procura de estabelecimento de equivalência entre provas - Muitas vezes a finalidade de uma prova reside (vagamente) na mente do avaliador - Não se questiona a qualidade do item mas sim a sua taxa esperada de respostas correctas e incorrectas - Pode ser factor a associar à estimação do valor/peso relativo de cada questão
  • 17.
    7. Discriminação Questão: O tipo de questões integradas permitem discriminar sujeitos com diferentes desempenhos? Distingue niveis de dominio do conhecimento/competências? - O poder discriminativo de um item é estimado pela diferença entre a proporças de respostas correctas apresentadas por sujeitos com bons desempenhos e maus desempenhos - Assenta no conceito de sensibilidade à variabilidade (inerente aos sujeitos)
  • 18.
    8. Fiabilidade Questão: O tipo de questões integradas permitem avaliar o mesmo que outros testes similares, i e, que se centram sobre o mesmo foco? - Estabelece comparação entre desempenho entre a prova e outras provas equivalentes ou aplicações repetidas da mesma prova (que pretendem medir o mesmo) - Integra o conceito de probabilidade de erro
  • 19.
    9. Justiça (Fairness) Questão: A questões integradas estão construidas de modo a que diferentes sujeitos consigam reunir as mesmas condições de modo a ter um ‘bom desempenho’? - Baseia-se num conceito relativo (A avaliação nunca é justa!!!) - Liga-se ao assegurar igualdade de circunstâncias - nao requer background especifico - Implica a não existência de ‘conflitos’ e de disturbios no interior da prova (e no seu acto de administração/cotação)
  • 20.
    10. Rapidez (Speededness) Questão: O comprimento da prova é adequado ao tempo disponibilizado para completar da mesma? O tempo disponibilizado permite atingir um bom desempenho na mesma ? - Não existe um valor absoluto ainda que se recomende o seu cálculo com base no tempo tomado por 90% dos sujeitos ao completar a ultima questão (Ebel, 1972) - Determinante para a selecção da sequencialidade das questões (e sobretudo do que constará como ultimas questões) - Encontram-se efeitos associados a este critério na avaliação online
  • 21.
  • 22.
    de relevo • equilibrada • eficiente • objectiva • específica • moderadamente complexa • discriminativa • fiel • justa • e não apenas disponível por um período de tempo limitado
  • 23.
  • 24.
    Índice de Dificuldade > 0.40 = bom 0.39 - 0.20 = moderado < 0.19 = muito reduzido (Ebel, 1972) Definição: proporção de respostas incorrectas encontradas conjuntamente no grupo de sujeitos com melhores e piores desempenhos [ Porquê grupos extremos? Maior variabilidade! ]
  • 25.
    Ex: grupo de100 sujeitos Grupo 1 (melhor desempenho) = 27 Número de respostas correctas: 20 Grupo 2 (pior desempenho) = 27 Número de respostas correctas: 10 Total de respostas correctas encontradas= 20 + 10=30 Total de respostas correctas possíveis = 54 Proporção de respostas correctas 54-30= 24 /54 = 0, 44
  • 26.
    Distribuição dos índicesde dificuldade Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 Aluno 6 Aluno 7 Aluno 8 Aluno 9 Aluno 10 1 1 0 1 1 0 1 0 0 1 0 2 1 1 1 1 1 1 1 1 1 1 3 1 0 1 1 0 0 1 1 1 1 4 1 0 1 1 1 1 1 1 1 0 5 0 0 0 0 1 1 1 1 1 1 6 0 0 0 0 0 0 0 1 0 0 7 0 1 1 1 1 1 1 1 1 1 8 0 0 1 0 0 0 1 0 1 0 Aluno 9 Aluno 7 Aluno 8 Aluno 3 Aluno 4 Aluno 6 Aluno 5 Aluno 10 Aluno 1 Aluno 2 2 1 1 1 1 1 1 1 1 1 1 7 1 1 1 1 1 1 1 1 0 1 4 1 1 1 1 1 1 1 0 1 0 5 1 1 1 0 0 1 1 1 0 0 3 1 1 1 1 1 0 0 1 0 0 1 1 0 0 1 1 1 0 0 1 0 8 1 1 0 1 0 0 0 0 0 0
  • 27.
    Índice de Discriminação > 0.40 = muito bom 0.30 - 0.39 = bom 0.20 – 0.29 = aceitável < 0.19 =pobre (Ebel, 1972, p. 399) Definição: Decorrente da dificuldade do item refere-se a diferença na proporção de respostas correctas verificadas nos grupos de sujeitos com melhores e piores desempenhos
  • 28.
    Ex: grupo de100 sujeitos Grupo 1 (melhor desempenho) = 27 Número de respostas correctas: 20 Grupo 2 (pior desempenho) = 27 Número de respostas correctas: 10 Total de respostas correctas no grupo 1 - grupo 2 = 20-10= 10 Proporção do total de respostas correctas = 10/27 = 0, 37
  • 29.
    Existe relação entrea soma dos índices de discriminação de cada item de um teste e a variância do score total do teste Na medida em que quanto maior a variância de um determinado número de itens, maior os coeficientes de fiabilidade então, quanto maior a média dos índices de discriminação, maior tenderá a ser também a fiabilidade.
  • 30.
    Outros índices dediscriminação • Coeficiente de correlação Biserial • Coeficiente de correlação tetracórica • Coeficiente de Flanagan • Coeficiente de Davis
  • 31.
    Indicadores de Fiabilidade Referenteà consistência entre diferentes medições Ex: Se um instrumento dá sempre os mesmos resultados quando aplicado a 2 objectos (hipoteticamente) iguais, podemos confiar no significado da medida e dizer que a medida é fiável… * … sabendo que toda a medida tem sempre erro associado]
  • 32.
    Indicadores de Fiabilidade Fiabilidade inaceitável <0.6 Fiabilidade baixa 0.7 Fiabilidade moderada 0.8-0.9 Fiabilidade Elevada >0.9 Estima (com base nos valores registados nos itens) quão uniformemente esses itens contribuem para a soma não ponderada do instrumento Escala 0 a 1, onde 0 = revelaria nenhuma uniformidade ou consistência e 1 = uma uniformidade perfeita entre os itens = Consistência interna da escala = coeficiente médio de todos as estimativas de consistência interna que se obteriam se todas as divisões possíveis do teste fossem feitas
  • 33.
    Indicadores de Fiabilidade • Teste-reteste, formas equivalentes coeficiente de correlação de Pearson • Split-half Consistência corrigida de Spearman-Brown, Guttman • Coeficiente Alpha cronbach (standardizado) • Coeficiente de Kuder-Richardson (itens dicotómicos, ex. certo|errado) • Acordo inter/intra-observador
  • 34.
    Indicadores de Validade Oinstrumento com erro sistemático é um instrumento com validade reduzida, é um instrumento que está a medir algo que não era suposto medir (mesmo que o faça de forma fiável). Qualquer medida para ser válida enquanto medida de um dado construto, tem necessariamente de ser fiável. Pelo que, a fiabilidade surge como condição necessária, mas não suficiente, para a validade. Após garantir fiabilidade é necessário pôr de lado a hipótese de existência de erro sistemático, para podermos garantir validade. (Marôco & Garcia-Marques, 2006)
  • 35.
    Indicadores de Validade Conteúdo= se os conteúdos da prova (itens) representam o construto em análise, se existe validade lógica Avaliação por especialistas Critério = validade por correspondência a um critério externo onde já se provou estar representado o construto em análise; fala-se assim em validade concorrente (actual) e validade preditiva (face a um desempenho futuro) Calculo do Coeficiente de correlação com outras provas semelhantes Construto = grau de consonância dos resultados Análise factorial
  • 36.
    Indicadores para avaliação decategorias ou dimensões da prova Teste de Inglês: D1) Gramática D2) Vocabulário D3) regras funcionamento da língua D4) Compreensão do texto
  • 37.
    Indicadores para avaliação deopções de resposta a questões
  • 38.
    Questões abertas vsfechadas (Essay or objective tests)
  • 39.
    Apoia: . Identificação depontos fortes e fracos nos instrumentos de avaliação . sequenciar / localizar os itens no instrumento . identificar fragilidades nos enunciados e opções de resposta . promover a modificação/eliminação de questões . Equiparar/dividir provas . identificar distractores (elementos de elevada atractividade) nas opções de resposta . distribuir/concentrar o grau de dificuldade … sobretudo a regular e promover melhorias no processo de avaliação … pela melhoria dos seus instrumentos
  • 40.
    Como tem aeducação lidado com a dificuldade da medida ???? UC: Avaliação Online das aprendizagens Neuza Pedro
  • 41.
    Soluções !?! a)ignora-se b) lida-se com isso c) mascara-se o problema
  • 42.
    Requer-se uma (nova) literacia da avaliação
  • 43.
    Referências Dierick, S., &Dochy, F. (2001). New lines in Edumetrics: New forms of assessment lead to new assessment criteria. Studies in educational evaluation, 27,4, 307-329. Ebel, R. L. (1972). Essentials of educational measurement (2nd edition). New Jersey: Prentice Hall, Inc. E-learning Lab UL (2011). Framework de avaliação de cursos online. Disponível em http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning * Kelley, T. L. (1939). The selection of upper and lower groups for the validation of tests items. Journal of Educational Psychology, 30, 17,24. Lagarto, J. (2009). Avaliação em e-learning. Educação, Formação & Tecnologias, 2 (1), pp. 19-29. Disponível em http://eft.educom.pt Marôco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do alfa de Cronbach? Questões antigas e soluções modernas? Laboratório de Psicologia, 4(1), 65-90. [Disponível em http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf] Ussher, B., & Earl, K., (2010). ‘Summative’ and ‘Formative’: Confused by the Assessment Terms? New Zealand Journal of Teachers’ Work, 7 (1), 53-63.