Apresentacao do artigo na Conferencia STIL

DP-SYMPTOM-IDENTIFIER: UMA ESTRATÉGIA
PARA CLASSIFICAR SINTOMAS DE DEPRESSÃO
UTILIZANDO UM CONJUNTO DE DADOS
TEXTUAIS NA LÍNGUA PORTUGUESA
Autores: Vinicius Casani
Rafael Mantovani
Alinne Souza
Francisco Carlos Souza
STIL 2021 - Symposium in Information and Human Language Technology

Agenda
● Introdução
● Trabalhos relacionados
● Estratégia DP-Symptom-Identifier
● Experimentos
● Considerações finais

Depressão no Mundo e no
Brasil
“A depressão afeta 4,4% da
população mundial, no Brasil a
parcela da população afetada é
de 5,8%”
● Sintomas:
○ Psíquicos
○ Fisiológicos
○ Comportamentais
● Períodos Temporais Fonte: Organização Mundial da Saúde

Trabalhos Relacionados
● Mais de 20 estudos encontrados
● Apenas um em português
○ Coleta realizada no Facebook
○ Sentenças positivas
○ Sentenças negativas
■ “Odeio minha vida”
■ “Me sentindo triste”
● Foco na identificação de
sentimentos positivos e negativos

Estratégia DP-Symptom-Identifier

Etapa 1 - Coleta e rotulação dos dados
● Coleta de dados: Aplicação de Coleta
de Dados (ACD)
○ API do Twitter
○ Sentenças pré-selecionadas (200
exemplos)
Sentença Categoria
Eu quero morrer Comportamental
Não desejo sair de casa Comportamental
Tenho dificuldade para dormir Fisiológico
Estou sempre cansado Fisiológico
Me sinto inútil Psíquico
Sou infeliz Psíquico

Etapa 1 - Coleta e rotulação dos dados
● Rotulação
○ Aplicação web
○ Auxílio de uma psicóloga

Etapa 2 - Pré-processamento
● Base de dados de Treinamento
○ 2008 tweets de 1988 usuários
1. Limpeza dos dados
a. Caracteres minúsculos;
b. Números;
c. Emojis;
d. Pontuações;
e. Espaços desnecessários;
f. Citações e retweets;
2. Remoção de Stopwords
a. Palavras sem informações relevantes;
3. Stemming
a. Redução ao radical da palavra ou termo

Etapa 3 - Extração de Características
● Term Frequency-Inverse Document
Frequency (TF-IDF)
○ Relevância de um termo em um
corpus
○ Mais de 10 mil atributos descritivos
○ Remoção dos atributos
correlacionados em mais de 95%
○ Overfiting
● Bag-of-Words (BoW)
○ Frequência de cada termo na base
○ 4650 atributos descritivos
○ Remoção dos atributos com
frequencia menor que 10 (340
atributos restantes)

Avaliação da qualidade do conjunto de dados
● Base de treinamento anteriormente criada
● Validação cruzada de 10 partições
● Algoritmos
○ Support Vector Machines (SVMs)
○ Naive Bayes (NB)
○ Multilayer Perceptron (MLP)
○ Random Forest (RF)
● Desempenho dos modelos mensurados por
meio da AUC
○ Representa a medida de separabilidade, ou
seja, mostra até que ponto o modelo
avaliado é capaz de separar corretamente
as classes (Flach et al. 2011).
● Resultados obtidos:
Algoritmo AUC sd
RF 0.935 0.015
SVM 0.927 0.013
MLP 0.900 0.009
NB 0.725 0.020

Contribuições
● Estratégia DP-Symptom-Identifier para coletar e analisar mensagens
compartilhadas em português no Twitter a fim de identificar um dos três tipos de
sintomas da depressão;
● Criação de uma base de dados em português, rotulada por uma psicóloga, a qual
pode ser utilizada por modelos de aprendizado de máquina no contexto de
problemas psicológicos;

Trabalhos Futuros
● Expandir o conjunto de dados, adicionando mais tweets;
● Rotula-los usando as ferramentas desenvolvidas;
● Incrementar os experimentos com os algoritmos preditivos; e
● Expandir a coleta de dados para outras redes sociais.

Apresentacao do artigo na Conferencia STIL

Mais conteúdo relacionado

Último

Destaque

Apresentacao do artigo na Conferencia STIL

Notas do Editor