UFG - Topic Modeling in Text

Modelagem de Tópicos em Texto
LSA e pLSA
Fundamentos Teóricos para Análise de Dados
Marlesson Santana
~

• Introdução
• Modelagem de Tópico
• Latent Semantic Analysis
• Probabilistic Latent Semantic Analysis
• Conclusão
Roteiro
2

A compreensão da linguagem natural e extração de padrões em
dados não estruturados não é uma tarefa trivial.
Diferentes técnicas de estatística e ML podem ser utilizadas para
mineração de dados em texto com foco na extração da informação.
Introdução
3

A modelagem de tópicos é uma técnica
de mineração de texto que fornece
métodos para identificar palavras-chave
co-ocorrentes para resumir grandes
coleções de informações textuais.
Introdução: Modelagem de Tópicos
4
Diferentes algoritmos podem ser utilizados para modelagem de
tópicos, dentre eles os de fatoração de matrizes.

A maioria dos modelos de tópicos são
baseados na mesma suposição básica:
● Cada documento consiste em uma
mistura de tópicos
● Cada tópico consiste em uma
coleção de palavras
5
Dessa forma, a semântica do documento está sendo governada por
algumas variáveis ocultas ou “latentes” que não estamos
observando.

A descoberta de tópicos em documentos
de texto é útil para diferentes finalidades:
● agrupamento de documentos
semelhantes
● resumo de documentos
● recuperação de informações
● recomendações de conteúdos
6

O LSA é uma das técnicas fundamentais na modelagem de tópicos. A ideia
central é usar uma matriz de co-ocorrência (termo-documento) e decompor
em matrizes separadas de termo-tópico e tópico-documento.
LSA: Latent Semantic Analysis
7

A matriz de termo-documento (co-ocorrência) pode ser construída de
diferentes formas, geralmente passa por um pipeline de NLP para maximizar
a representatividade
LSA: Term-Document
8

LSA: Term-Document
9
Tokenização
Normalização
Vetorização
Stopwords
BoW
n-gramas
Stemming
Correção Lexical
Entidade Nomeada
Binário
TF
TF-IDF

LSA: Term-Document com Tf-IDF
10
A abordagem mais utilizada no LSA na criação da matriz de
termo-documento é utilizar o TF*IDF
RAW TF TF*IDF

LSA: Fatoração da Matriz
11
A matriz termo-documento com dimensões m x n, admite uma fatoração SVD
● U: Vetor singular esquerdo, matriz com m termos e n conceitos
● S: Valores singulares, matriz diagonal com os pesos de cada conceito
● Vt: Vetor singular direito, n conceitos e m documentos

12
Termo-Documento = Termo-Tópico * Tópico-Tópico * Tópico-Documento

13
A escolha dos tópicos, ou valores singulares, se faz pela ordem S1 > S2 > S3
> Sn da matriz tópico-tópico. Quanto maior o valor singular mais
importante é o tópico associado a ele. Dessa forma é realizada o
truncamento da matriz em um valor K, onde K é a quantidade de tópicos.
Termo-Documento = Termo-Tópico * Tópico-Tópico * Tópico-Documento

LSA: Semântica dos Tópicos
14
Tópico 0: 'computador', 'TI', 'gamer'
Tópico 1: 'comida', 'fria', 'ai'
Termo-Tópico * Tópico-Tópico = Termo-Tópico

LSA: Tópico dos documentos
15
Os três primeiros documentos são do Tópico 0
(computador', 'TI', 'gamer') e os três últimos do Tópico
1 ('comida', 'fria', 'ai')
Tópico-Tópico * Tópico-Documento = Tópico-Documento

LSA
16
● Método simples e de fácil implementação
● A fatoração SVD utilizada pode ser computacionalmente custosa
para uma matriz com muitos dados
● Modelo linear, pode não funcionar bem em conjuntos de dados
com dependências não lineares.
● Uma alternativa ao LSA é o pLSA que adiciona o conceito de
probabilidade na distribuição dos termos/documentos nos
tópicos

O pLSA usa um método probabilístico em vez do SVD. A idéia central é
encontrar um modelo probabilístico com tópicos latentes que possam gerar
os dados que observamos em nossa matriz de termo-documento.
pLSA: Probabilistic Latent Semantic Analysis
17

Os parâmetros das funções P(z), P(d|z), P(w|z) são desconhecidas e devem
ser estimadas.
O pLSA utiliza o método de Expectation Maximization (EM) para estimar os
parâmetros da função de probabilidade.
18

O EM é um método iterativo para encontrar estimativas de máxima
verossimilhança em modelos estatísticos. Os passos são:
● uma etapa de expectativa (E), que cria uma função para a expectativa
da log-verossimilhança avaliada usando a estimativa atual dos
parâmetros
● e uma etapa de maximização (M), que calcula os parâmetros
maximizando o log esperado pela probabilidade encontrada na etapa E.
● Estas estimativas paramétricas são então usadas para determinar a
distribuição das variáveis latentes no próximo passo E.
pLSA: Expectation Maximization (EM)
19

pLSA: Expectation Maximization (EM)
20

21
Existe um paralelo entre as probabilidades do pLSA e as matrizes do LSA.
P(Z) = P(W|Z) = P(D|Z) =

pLSA
22
● O pLSA adiciona um tratamento probabilístico de tópicos e
palavras sobre o LSA. Em alguns casos se torna um modelo mais
flexível.
● Uma alternativa mais conhecida para modelar probabilidade com
extração de tópicos é o método Latent Dirichlet Allocation (LDA).

Conclusão
23
● As duas técnicas apresentada (LSA e pLSA) podem ser utilizadas
para modelagem de tópicos e descoberta de conhecimento em
base de dados textual.
● A semântica de cada Tópico está associada a
coleção de palavras contidas no tópico,
uma interpretação ainda é necessária.

Referência
24
● https://nbviewer.jupyter.org/urls/storage.googleapis.com/ms_geral/notebooks/topic_modeling/LSA%20-%20pLSA%20-%
20Topic%20Modeling.ipynb
● https://medium.com/nanonets/topic-modeling-with-lsa-psla-lda-and-lda2vec-555ff65b0b05
● http://www.iro.umontreal.ca/~nie/IFT6255/Hofmann-UAI99.pdf

UFG - Topic Modeling in Text

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a UFG - Topic Modeling in Text

Semelhante a UFG - Topic Modeling in Text (20)

Mais de Marlesson Santana

Mais de Marlesson Santana (11)

UFG - Topic Modeling in Text