Minerando informações de textos

Minerando
informações de textos
Trilha - Machine Learning
Bárbara Barbosa
@bahbbc

Quem sou eu
● Mestranda em Sistemas de
Informação - EACH/USP
● Organizadora do Rails Girls SP
desde 2015
● Cientista de dados na Creditas

Ciclo de vida de
um projeto de
Data Science

Ciclo de vida de um projeto de Data
Science
1 - Identificando o problema

Science
2 - Preparando os dados

Science
3 - Analisando os dados

Science
4 - Visualizar ideias

Science
5 - Apresentação das descobertas

Que parte de um projeto de DS entra o
pré processamento textual?
Problema Preparação
dos dados
Análise de
dados
Visualização
de dados
Apresentação
10% 70% 10% 10% +80%

Mineração de textos
Processo de extrair informação à partir dos textos. Normalmente requer um pré
processamento dos dados.

Dicionário para
começar a falar
a língua do
NLP/PLN

Definições
● Corpus é um conjunto de n documentos;
● Termos são pedacinhos de cada documento, quebrados em palavras,
radicais ou conjunto de palavras;
Usaremos os termos de cada documento para fazer o pré processamento.
Considerando-se termos = palavras podemos fazer um pouco de pré
processamento para reduzir o conjunto de dados e evitar redundância.

Processos de
limpeza e
preparação de
textos

Tokenização
● Converter as frases do texto em palavras individuais;
É necessário para as próximas etapas de limpeza.

Limpeza de texto
● Conversão de todo o texto para letras minúsculas;
● Remover pontuações;
● Remover números;

Limpeza de texto
Cuidado com a limpeza textual!

StopWords
Uma lista de Stopwords é uma lista de palavras que não tem potencial para ajudar
a caracterizar o conteúdo de um texto.
Palavras como a, o, de, do, um, mais, mas, como, ou, seu, sua, etc.

StopWords
O snowball possui uma lista padrão de Stop Words para o português:
http://snowball.tartarus.org/algorithms/portuguese/stop.txt
StopWords podem reduzir o conjunto de dados de 30% a 50%

Stemming
Alguns experimentos mostram redução de 5% do tamanho original do córpus.

Matrizes de palavras
● Binária
Doc 1 - Gatos pretos dão mais sorte que gatos brancos.
Doc 2 - Meus gatos dão muito trabalho.
gatos pretos dão mais sorte que brancos doce muito
1 1 1 1 1 1 1 0 0
1 0 1 0 0 0 0 0 1

● Frequência
gatos pretos dão mais sorte que brancos doce muito
2 1 1 1 1 1 1 0 0
1 0 1 0 0 0 0 0 1

Bag of Words (BoW)
São as matrizes de frequências, com um nome mais bonito.

● TF-IDF (Term Frequency Inverse Document Frequency)
gatos pretos dão mais sorte que brancos meus trabalho muito
0 0.3 0.3 0.3 0.3 0.3 0.3 0 0 0
0 0 0.3 0 0 0 0 0.3 0.3 0.3

Vamos fazer a conta para a primeira frase:
tfidf(gatos) = 2 * log(2/2) = 0
tfidf(pretos) = 1 * log(2/1) = 0.30

Qual nosso problema?
Vamos usar o dataset do 20newsGroup*
Queremos que dado um certo texto sejamos capazes de dizer em qual categoria
ele será inserido.
*https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

Depois de tanta teoria...
Vamos ver um pouco de código!
bit.ly/2sVNbtg

Mas pra que eu
vou usar tudo
isso?

E depois de todo esse
pré-processamento?
Agora começa a análise de dados!
Agrupamento, classificação, visualização, etc.

Bárbara Barbosa
Twitter: @bahbbc
Email: barbarab.claudino@gmail.com
LinkedIn: https://br.linkedin.com/in/bahbbc
Dúvidas?

Minerando informações de textos

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Minerando informações de textos

Semelhante a Minerando informações de textos (20)

Minerando informações de textos