Mineração Texto Processamento Linguagem Natural

Pág: 1
Facilitador: MSc. José Ahirton Batista Lopes Filho
Minicurso - Mineração de Texto e
Processamento de Linguagem Natural

Pág: 2
Roteiro
• Introdução
• Processamento de Descoberta de Conhecimento
– Dados Estruturados (Knowledge Discovery in Databases)
– Dados Não Estruturados (Knowledge Discovery from Text)
• Mineração de Textos - Conceitos e Definições
• Processo de Mineração de Textos
– Tipos de Abordagens de Dados
– Preparação dos Dados
– Indexação e Normalização
– Cálculo da Relevância de Termos
– Seleção de Termos
– Análise de Resultados
• Análise Semântica
• Outras Técnicas de Descoberta de Conhecimento em Textos

Pág: 3
Introdução
• O que é Mineração de Textos?
o Evolução da área de Recuperação de Informações (RI);
o Processo de Descoberta de Conhecimento;
o Foco em Dados Não Estruturados:
 Redes Sociais;
 Blogs;
 Microblogs;
 Compartilhadores de Vídeo.

Pág: 4
Processo de Descoberta de Conhecimento
• Descoberta de Conhecimento Apoiada por Computador
(Knowledge Discovery - KD);
o Descoberta de Conhecimento em Dados Estruturados (KDD);
o Descoberta de Conhecimento em Dados não Estruturados (KDT).

Pág: 5
Descoberta de Conhecimento em Dados
Estruturados
• Primeiras aplicações de Descoberta de Conhecimento:
o Métodos Estatísticos;
o Métodos de Inteligência Artificial;
o Métodos da área de Recuperação de Informações;
o Descoberta de Conhecimento em Bancos de Dados (Knowledge
Discovery in Databases - KDD);
o Os processos de KDD - Práticas para melhorar os resultados das
explorações feitas utilizando ferramentas tradicionais de
exploração de dados.

Pág: 6
Descoberta de Conhecimento em Dados
Estruturados
• Geralmente, as etapas do processo de KDD são:

Pág: 7
Descoberta de Conhecimento em Dados Não
Estruturados
• Considera-se mais complexa, por conta dos dados possuírem
a característica da não estruturação.
o Faz-se necessárias técnicas e ferramentas específicas para tratamento
deste tipo de dados;
o Descoberta de Conhecimento em Textos (Knowledge Discovery from
Text - KDT);
o Recuperação de Informações, KDT, e Mineração de Textos possuem
alto grau de dependência no que diz respeito ao Processamento de
Linguagem Natural;
o Na prática, o processo de KDT é centrado no processo de Mineração
de Textos.

Pág: 8
Mineração de Textos – Conceitos e Definições
• Processo de extração de padrões interessantes e não triviais,
informações e (ou) conhecimento a partir de coleções de texto não
estruturados dos mais variados tipos.
o Busca de informações específicas em documentos;
o Análise qualitativa e quantitativa de grandes volumes de textos;
o Melhor compreensão de textos disponíveis em documentos.
• Moura descreve a Mineração de Textos como sendo uma área de
pesquisa tecnológica cujo objetivo é a busca por padrões,
tendências e regularidades em textos escritos em linguagem
natural.
o Já Wives, afirma que a mineração de textos pode ser entendida como
a aplicação de técnicas de KDD sobre dados extraídos de textos.

Pág: 9
Processo de Mineração de Textos

Pág: 10
Tipos de Abordagens de Dados
• Comumente apresentam-se dois tipos de abordagens para
análise de dados textuais na área de mineração de textos:
• Análise Semântica: envolve conhecimento morfológico, sintático,
semântico, pragmático, do discurso e do mundo;
• Análise Estatística: envolve aprendizado estatístico a partir de
dados, que normalmente inclui as etapas de codificação dos
dados, estimativa dos dados e modelos de representação de
documentos.

Pág: 11
Preparação dos Dados
• Além de prover uma redução dimensional, o objetivo desta
etapa é tentar identificar similaridades em função da
morfologia ou do significado dos termos nos textos.
• Existem vários métodos de cálculo de similaridade. Além
disso, diversos métodos de RI foram criados, formando uma
taxonomia de modelos, que incluem o booleano, o espaço-
vetorial, o probabilístico, o difuso (fuzzy), o da busca direta, o
de aglomerados (clusters), o lógico e, o contextual ou
conceitual.

Pág: 12
Indexação e Normalização
• Facilita a identificação de similaridade de significado entre
palavras, considerando as variações morfológicas e problemas
de sinonímia.
• Nesta fase as características dos documentos são identificadas
e adicionadas ao SRI. Este processo tem como resultado a
geração de um índice. Esse índice é construído através de um
processo de indexação.
• Suas principais fases são: identificação de termos (simples ou
compostos); a remoção de stopwords (palavras irrelevantes); e
normalização morfológica (stemming).

Pág: 13

Pág: 14

Pág: 15
Cálculo da Relevância
• Nem todas as palavras presentes em um documento possuem
a mesma importância.
• O termos mais frequentemente utilizados costumam ter
significado mais importante, assim como as palavras
constantes em títulos ou em outras estruturas.
– Cálculo de relevância de uma palavra em relação ao texto: basea-se na
frequência da mesma, em análise estrutural do documento ou na sua
posição sintática de uma palavra;
– Peso: indica a importância da palavra em relação a um texto;
– Existem várias fórmulas para cálculo do peso. As mais comuns são
baseadas em cálculos simples de frequência: frequência absoluta,
frequência relativa, frequência inversa de documentos.

Pág: 16
Seleção de Termos
• Seleção de termos corresponde à etapa de seleção das
palavras retiradas do texto, após os processos de pré-
processamento e cálculo da relevância. Esta técnica pode ser
baseada no peso dos termos ou na sua posição sintática em
relação ao texto.
• Principais técnicas de seleção de termos: filtragem baseada
no peso do termo, seleção baseada no peso do termo,
seleção por análise de co-ocorrência, seleção por Latent
Semantic Indexing e Seleção por análise de linguagem
natural.

Pág: 17
Análise de Resultados
• Esta fase envolve a aplicação de técnicas de análise dos
resultados de um sistema de recuperação de informações,
particularmente os resultados do processo de mineração de
textos.
• Na prática, há a utilização de métricas bibliométricas, as quais
podem ser utilizadas nos SRI como forma de avaliação do mesmo,
isto é, para saber se o mecanismo funcionou ou não como deveria.
• Nesse caso, as métricas poderiam informar para o usuário
quantos e quais documentos lhe são relevantes, além de quanto
cada um deles tem importância no contexto.
• As principais métricas de análise de SRI são: recall, precision, fall-
out e effort.

Pág: 18
Análise de Resultados
• Recall (abrangência ou revocação): mede a habilidade do sistema em
recuperar os documentos mais relevantes para seu usuário, com base no
termo ou expressão utilizado na formulação de sua busca.
• Precision (precisão): mede a habilidade do sistema em manter os
documentos irrelevantes fora do resultado de uma consulta.
• Fall-out: Esta técnica considera que a quantidade de documentos
irrelevantes poder ser modificada pelo crescimento ou decrescimento da
base de dados.
• Effort: Mede o esforço gasto pelo usuário durante o processo de busca,
desde a preparação da consulta, passando pelo processo de análise de
resultados até a reformulação da consulta quando necessário, ou seja,
toda a interação do usuário com o sistema.

Pág: 19
Outras Técnicas de
Descoberta de Conhecimento em Textos
• Descoberta por:
– Extração de Passagens
– Análise Semântica Latente
– Análise Linguística
– Descoberta por Análise de Conteúdo
– Descoberta por Sumarização
– Descoberta por Associação entre Passagens
– Descoberta por Listas de Conceitos-Chave
– Descoberta de Estruturas de Textos
– Descoberta por Recuperação de Informações (RI)
– Descoberta Tradicional após Extração
– Descoberta por Descrição de Classes de Textos
– Descoberta por Associação entre Textos
– Descoberta por Associação entre Características
– Descoberta por Hipertextos
– Descoberta por Manipulação de Formalismos
– Descoberta por Combinação de Representações
– Descoberta por Comparação de Modelos Mentais
– Descoberta por Análise de Sequências Temporais

Pág: 20
Conclusões
• A Mineração de Textos faz parte da área de processo de descoberta de
conhecimento, e tem sido cada vez mais utilizada por conta da existência
de técnicas efetivas de descoberta de conhecimento em bases de dados
não estruturados.
• Uma vez que a maioria dos dados disponibilizados, não somente na
Internet, mas cada vez mais nas empresas em geral, é armazenado neste
formato, este tipo de técnica possui um vasto campo de aplicação.
• Também é interessante ressaltar que existem trabalhos os quais
constataram que as tecnologias advindas da área ainda são muito pouco
aplicadas fora do meio acadêmico.

Pág: 21
OBRIGADO
Contato: ahirtonlopes@gmail.com

Mineração Texto Processamento Linguagem Natural

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Mineração Texto Processamento Linguagem Natural

Semelhante a Mineração Texto Processamento Linguagem Natural (20)

Mais de Ahirton Lopes

Mais de Ahirton Lopes (20)

Mineração Texto Processamento Linguagem Natural

Notas do Editor