3. A compreensão da linguagem natural e extração de padrões em
dados não estruturados não é uma tarefa trivial.
Diferentes técnicas de estatística e ML podem ser utilizadas para
mineração de dados em texto com foco na extração da informação.
Introdução
3
4. A modelagem de tópicos é uma técnica
de mineração de texto que fornece
métodos para identificar palavras-chave
co-ocorrentes para resumir grandes
coleções de informações textuais.
Introdução: Modelagem de Tópicos
4
Diferentes algoritmos podem ser utilizados para modelagem de
tópicos, dentre eles os de fatoração de matrizes.
5. A maioria dos modelos de tópicos são
baseados na mesma suposição básica:
● Cada documento consiste em uma
mistura de tópicos
● Cada tópico consiste em uma
coleção de palavras
Introdução: Modelagem de Tópicos
5
Dessa forma, a semântica do documento está sendo governada por
algumas variáveis ocultas ou “latentes” que não estamos
observando.
6. A descoberta de tópicos em documentos
de texto é útil para diferentes finalidades:
● agrupamento de documentos
semelhantes
● resumo de documentos
● recuperação de informações
● recomendações de conteúdos
Introdução: Modelagem de Tópicos
6
7. O LSA é uma das técnicas fundamentais na modelagem de tópicos. A ideia
central é usar uma matriz de co-ocorrência (termo-documento) e decompor
em matrizes separadas de termo-tópico e tópico-documento.
LSA: Latent Semantic Analysis
7
8. A matriz de termo-documento (co-ocorrência) pode ser construída de
diferentes formas, geralmente passa por um pipeline de NLP para maximizar
a representatividade
LSA: Term-Document
8
10. LSA: Term-Document com Tf-IDF
10
A abordagem mais utilizada no LSA na criação da matriz de
termo-documento é utilizar o TF*IDF
RAW TF TF*IDF
11. LSA: Fatoração da Matriz
11
A matriz termo-documento com dimensões m x n, admite uma fatoração SVD
● U: Vetor singular esquerdo, matriz com m termos e n conceitos
● S: Valores singulares, matriz diagonal com os pesos de cada conceito
● Vt: Vetor singular direito, n conceitos e m documentos
13. LSA: Fatoração da Matriz
13
A escolha dos tópicos, ou valores singulares, se faz pela ordem S1 > S2 > S3
> Sn da matriz tópico-tópico. Quanto maior o valor singular mais
importante é o tópico associado a ele. Dessa forma é realizada o
truncamento da matriz em um valor K, onde K é a quantidade de tópicos.
Termo-Documento = Termo-Tópico * Tópico-Tópico * Tópico-Documento
15. LSA: Tópico dos documentos
15
Os três primeiros documentos são do Tópico 0
(computador', 'TI', 'gamer') e os três últimos do Tópico
1 ('comida', 'fria', 'ai')
Tópico-Tópico * Tópico-Documento = Tópico-Documento
16. LSA
16
● Método simples e de fácil implementação
● A fatoração SVD utilizada pode ser computacionalmente custosa
para uma matriz com muitos dados
● Modelo linear, pode não funcionar bem em conjuntos de dados
com dependências não lineares.
● Uma alternativa ao LSA é o pLSA que adiciona o conceito de
probabilidade na distribuição dos termos/documentos nos
tópicos
17. O pLSA usa um método probabilístico em vez do SVD. A idéia central é
encontrar um modelo probabilístico com tópicos latentes que possam gerar
os dados que observamos em nossa matriz de termo-documento.
pLSA: Probabilistic Latent Semantic Analysis
17
18. Os parâmetros das funções P(z), P(d|z), P(w|z) são desconhecidas e devem
ser estimadas.
O pLSA utiliza o método de Expectation Maximization (EM) para estimar os
parâmetros da função de probabilidade.
pLSA: Probabilistic Latent Semantic Analysis
18
19. O EM é um método iterativo para encontrar estimativas de máxima
verossimilhança em modelos estatísticos. Os passos são:
● uma etapa de expectativa (E), que cria uma função para a expectativa
da log-verossimilhança avaliada usando a estimativa atual dos
parâmetros
● e uma etapa de maximização (M), que calcula os parâmetros
maximizando o log esperado pela probabilidade encontrada na etapa E.
● Estas estimativas paramétricas são então usadas para determinar a
distribuição das variáveis latentes no próximo passo E.
pLSA: Expectation Maximization (EM)
19
21. pLSA: Probabilistic Latent Semantic Analysis
21
Existe um paralelo entre as probabilidades do pLSA e as matrizes do LSA.
P(Z) = P(W|Z) = P(D|Z) =
22. pLSA
22
● O pLSA adiciona um tratamento probabilístico de tópicos e
palavras sobre o LSA. Em alguns casos se torna um modelo mais
flexível.
● Uma alternativa mais conhecida para modelar probabilidade com
extração de tópicos é o método Latent Dirichlet Allocation (LDA).
23. Conclusão
23
● As duas técnicas apresentada (LSA e pLSA) podem ser utilizadas
para modelagem de tópicos e descoberta de conhecimento em
base de dados textual.
● A semântica de cada Tópico está associada a
coleção de palavras contidas no tópico,
uma interpretação ainda é necessária.