Extrair informações relevantes que auxiliem a gestão da
aprendizagem e viabilizem o acompanhamento efetivo de estudantes em
cursos mediados por tecnologia é um desafio. Diversos trabalhos vem sendo
desenvolvidos a partir de técnicas de mineração de dados educacionais para
fins de tomada de decisão. O objetivo principal deste trabalho foi investigar a
viabilidade da utilização do modelo de regressão linear para a obtenção de
inferências em etapas iniciais da realização de cursos online, como forma de
apoiar a tomada de decisão por parte de professores e gestores. Propomos a
utilização da técnica de regressão linear para estimar o desempenho de
alunos baseados em suas interações dentro da plataforma virtual de
aprendizagem, levando em consideração variáveis comportamentais. Os
resultados obtidos demonstraram que é possível utilizar a técnica de
regressão linear para obter inferências com boas taxas de precisão.
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Regressão Linear previsão desempenho EAD
1. Modelo de Regressão Linear aplicado à previsão de
desempenho de estudantes em ambiente de
aprendizagem
Autores: Rodrigo Lins Rodrigues (rlr@ded.ufrpe.br)
Francisco P. A. de Medeiros (fcopetroniomedeiros@gmail.com)
Alex Sandro Gomes (asg@cin.ufpe.br)
3. 3
Introdução
Os ambientes virtuais de aprendizagem possibilitam a geração de
grande quantidade de dados;
Predição de desempenho em algo rotineiro no ensino presencial,
mas pouco explorado no ensino a distância;
Extrair informações relevantes que auxiliem a gestão da
aprendizagem e viabilizem o acompanhamento efetivo de
estudantes é um desafio;
Diversos trabalhos vem sendo desenvolvidos a partir de técnicas
de mineração de dados educacionais para fins de tomada de
decisão;
4. 4
Objetivo
Geral
O objetivo deste trabalho foi investigar a viabilidade da utilização do
modelo de regressão linear para a obtenção de inferências em
etapas iniciais da realização de cursos online, como forma de apoiar
a tomada de decisão por parte de professores e gestores.
Específicos
Identificar comportamento do grupo e possibilitar o replanejamento
por parte do professor;
Encontrar padrões e modelos comportamentais que contribuam para
oferecer princípios de desenvolvimento que possam ser aplicados
para criar interfaces inteligentes;
5. 5
Trabalhos relacionados
Há na literatura trabalhos que associam a relação entre o nível de
interação dos participantes de cursos online com indicadores de
desempenho acadêmico.
•Picciano (2002) observou uma correlação entre interações e
aprendizagem e concluiu que esse desempenho e o sucesso de
um curso dependem da habilidade de interagir dos participantes;
•Russo e Benson (2004) encontraram uma correlação significativa
entre o desempenho dos estudantes e a percepção da própria
presença social online;
•Watson (2008) associa às interações em ferramentas assíncronas com
o potencial de engajamento dos alunos em cursos online;
7. 7
Conceitos fundamentais
Interação
Diversas taxonomias foram propostas ao longo das últimas
décadas:
Moore (1989) descreveu três formas de interação em educação
à distância: interação entre o professor e o estudante, interação
entre os estudantes e interação entre o estudante e o conteúdo;
Johnson et al. (2010) enfatiza a importância das interações
online na melhoria dos resultados de aprendizagem.
8. 8
Conceitos fundamentais
Mineração de Dados Educacionais (EDM)
Nos últimos anos uma nova área de aplicação, chamada de Mineração
de Dados na Educação surgiu como uma nova área de pesquisa
visando dois objetivos principais [Romero e Ventura, 2006]:
(a) entender melhor o estudante com base em sua interação com
os sistemas usados;
(b) entender as configurações e características que levam ao
aprendizado;
9. 9
Conceitos fundamentais
Regressão Linear
•
Em um modelo de regressão, geralmente a variável resposta é
afetada por várias variáveis;
Y = f ( X 1 , X 2 ,..., X k , X k +1 ,..., X k +m )
•
Então, analisamos Y como função apenas das K primeiras variáveis,
sendo que permanece um erro (ou resíduo), devido a não utilização das
outras m variáveis.
Pe s o (k g)
100
95
90
85
80
75
70
65
60
55
50
150
160
170
Altura (cm )
180
190
10. 10
Conceitos fundamentais
Regressão Linear
Assim, o modelo ficaria:
O modelo de regressão linear é composto por:
Yi = f ( X 1i , X 2i ,..., X ki ) + µi
i = 1, 2,..., n
Se apenas uma variável explicativa é observada, temos:
Yi = f ( X i ) + µi
Os erros também podem ser devido a erros obtidos no processo de
Mensuração da variável dependente.
11. 11
Conceitos fundamentais
Regressão Linear
1. Determinar como duas variáveis se relacionam;
2. Estimar a função que determina a relação entre as
variáveis;
3. Usar a equação ajustada para prever valores da variável
dependente.
Modelo de Regressão Linear Simples
Yi = α + β X i + µi
12. 12
Conceitos fundamentais
Regressão Linear Simples
Y
α
}µ E (Y ) = α + β xi
i
β Coeficiente
angular
Inclinação
populacional
Intercepto
X populacional
Erro Aleatório
Yi = α + β X i + µi
Variável
Dependente
Variável
Independente
13. 13
Conceitos fundamentais
2
O coeficiente de determinação ou simplesmente R . É uma medida da
proporção da variabilidade em uma variável que é explicada pela
variabilidade da outra.
Definimos o coeficiente de determinação ou explicação do modelo, que é
dado por:
SQreg bSxy
R =
=
SQtot
Syy
2
O coeficiente está entre 0 ≤ R 2 ≤ 1 logo, quanto mais próximo de 1
Estiver o valor de R 2 , melhor será o ajuste do modelo e quanto mais
Próximo de 0 (zero), pior é o ajuste.
14. 14
Conceitos fundamentais
Análise de Variância
F=
QMReg
~ F1; n − 2
QMRes
H 0 : β1 = 0
H1 : β1 ≠ 0
se H0 verdadeiro (Não existe relação linear)
se H0 falso (existe relação linear)
15. 15
Realização do experimento
Disciplina de Jogos Educacionais da graduação em
Licenciatura em Computação da UFRPE;
O curso contou com a participação de 98 alunos do sétimo
período na modalidade de EAD;
A disciplina teve duração de dois meses durante o primeiro
semestre de 2013;
Dentre os módulos que foram abordados:
Semana 1 - Nativos digitais, Geração Y e imigrantes digitais
Semana 2 - Estilos de aprendizagem
Semana 3 - Design de jogos educacionais
Semana 4 - Projeto conceitual e fundamentos de Game Design
Semanas 5 e 6 - Implementação de jogos.
16. 16
Realização do experimento
Durante a disciplina diversos artefatos de interação foram
utilizados, tais como: utilização de fóruns, vídeo-aulas, material em
texto, disponibilização de slides e envio de atividades;
Processo de avaliação e construção da variável resposta:
Primeira unidade foi composta por três atividades virtuais e uma prova
escrita presencial;
Segunda unidade foi composta por duas atividades virtuais e uma prova
escrita;
O desempenho (variável resposta) foi calculado através da média das
duas unidades.
17. 17
Realização do experimento
Variáveis
Sobre
Desemp_final
Int_forum_sem1, Int_forum_sem2,
Int_forum_sem2, Int_forum_sem4,
Int_forum_sem5,
Esta variável foi composta por dados das 5
atividades
virtuais
e
das
duas
provas
presenciais,
totalizando
uma
média
representativa do desempenho final do aluno.
Esta variável foi composta pelo somatório das
quantidades de interações nos seis fóruns
disponibilizados na disciplina durante todo o
curso.
Vídeo_sem1,
Vídeo_sem2, Essa variável foi composta pelo somatório das
Vídeo_sem3
Vídeo_sem4, quantidades de interações nas vídeo aulas
Vídeo_sem5, disponibilizadas pelo professor da disciplina.
Vídeo_sem6
Mat_sem1, Mat_sem2, Mat_sem3, Esta variável foi composta através dos dados
Mat_sem4, Mat_sem5, Mat_sem6
de acesso dos materiais em formato de textos,
apostilas disponibilizadas para leitura.
Ppt_sem1, Ppt_sem2, Ppt_sem3, Variável que mostra a quantidade de acesso ao
Ppt_sem4, Ppt_sem5, Ppt_sem6
material do tipo slide.
Media_horas_acesso
Esta variável foi composta pela hora média que
os alunos costumam acessar o ambiente virtual.
19. 19
Realização do experimento
Teste do pressuposto de normalidade
No estudo tivemos como variável dependente o desempenho final
do aluno na disciplina (média final) e como variáveis independentes:
(1) media da quantidade de interações em fóruns (MediaIntForum),
(2) média das interações com vídeo-aulas (MediaIntVideo),
(3) média das interações com textos (MediaIntMat)
(4) média das interações com slides em formato .ppt (MediaIntPtt).
Ao aplicarmos os testes de normalidade foi verificado que apenas a variável
(MediaIntForum ) segue uma distribuição normal
Variável
MediaIntForum
MediaIntVideo
MediaIntMat
MediaIntPtt
Resultado do teste
Shapiro-Wilks
p-value = 0.1886
p-value = 0.0003031
p-value = 0.000419
p-value = 0.01826
20. 20
Realização do experimento
Verificando o ajuste do modelo linear múltiplo
Call:
lm(formula = Desemp_Final ~ MediaIntForum + MediaIntVideo +
MediaIntMat + MediaIntPtt)
Residuals:
Min 1Q Median 3Q Max
-35.602 -11.216 3.434 9.384 25.975
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 16.2680 3.8052 4.275 5.29e-05 ***
MediaIntForum 3.7069 0.2966 12.499 < 2e-16 ***
MediaIntVideo 1.1275 2.7798 0.406 0.686
MediaIntMat -1.7159 2.4482 -0.701 0.485
MediaIntPtt -2.2358 2.6594 -0.841 0.403
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
21. 21
Realização do experimento
• Estimando o modelo linear (lm())
Como podemos observar, apenas a variável MediaIntForum
obteve um resultado satisfatório quanto ao teste de normalidade;
Abaixo temos o modelo de regressão simples que mostra a
inclinação da reta de regressão ajustada na relação entre as duas
variáveis.
> dados <- lm(Desemp_Final~MediaIntForum)
> dadosReg
Call:
lm(formula = Desemp_Final ~ MediaIntForum)
Coefficients:
(Intercept) MediaIntForum
13.110
3.626
23. 23
Realização do experimento
Teste de significância (summary)
> summary(dadosReg)
Call:
lm(formula = Desemp_Final ~ MediaIntForum)
Residuals:
Min
1Q
Median
3Q
Max
-38.491
-10.284
2.693
10.095
25.416
Coefficients:
Estimate
Std. Error t value
Pr(>|t|)
(Intercept)
13.1097
3.3396
3.926
0.000179 ***
MediaIntForum
3.6259
0.2653
13.668
< 2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '
Residual standard error: 14.04 on 82 degrees of freedom
Multiple R-squared: 0.795,
Adjusted R-squared: 0.7912
F-statistic: 186.8 on 1 and 82 DF, p-value: < 2.2e-16
24. 24
Realização do experimento
Análise de resíduos
•possibilitou a verificação das
premissas do modelo;
•(Residuals vs Fitted)
correspondeu aos resíduos
comparados aos valores preditos
pelo modelo;
•(normal Q-Q plot) mostrou o
gráfico de quantis para os
resíduos, no qual foi possível
verificar a normalidade dos
resíduos.
25. 25
Considerações finais
• Podemos afirmar que o modelo linear simples explicou a relação entre dados
de interação via fórum e o desempenho dos alunos;
• Podemos ainda afirmar, com uma confiança de 95%, que 79,12% dos alunos
que interagem via fórum de discussão, a medida que aumenta a quantidade de
interação, tende a aumentar o despenho acadêmico;
• Este resultado é satisfatório, se pensarmos que podemos aplicar modelos
desta natureza para desenvolver sistemas que possam prever a proporção de
alunos que terão desempenhos satisfatórios em um curso, baseado nas suas
interações iniciais;
• Como trabalhos futuros pretendemos aplicar uma modelagem envolvendo
mais de uma variável independente e modelos não lineares, utilizando a análise
de regressão linear generalizada;