O documento apresenta o ciclo de vida de um projeto de ciência de dados, com foco no pré-processamento de textos. Descreve as etapas como tokenização, remoção de stopwords, stemming e a construção de matrizes como bag-of-words e TF-IDF. O objetivo é classificar textos em categorias usando o conjunto de dados 20newsgroups após a preparação dos dados textuais.
11. Que parte de um projeto de DS entra o
pré processamento textual?
Problema Preparação
dos dados
Análise de
dados
Visualização
de dados
Apresentação
10% 70% 10% 10% +80%
12. Mineração de textos
Processo de extrair informação à partir dos textos. Normalmente requer um pré
processamento dos dados.
14. Definições
● Corpus é um conjunto de n documentos;
● Termos são pedacinhos de cada documento, quebrados em palavras,
radicais ou conjunto de palavras;
Usaremos os termos de cada documento para fazer o pré processamento.
Considerando-se termos = palavras podemos fazer um pouco de pré
processamento para reduzir o conjunto de dados e evitar redundância.
19. StopWords
Uma lista de Stopwords é uma lista de palavras que não tem potencial para ajudar
a caracterizar o conteúdo de um texto.
Palavras como a, o, de, do, um, mais, mas, como, ou, seu, sua, etc.
20. StopWords
O snowball possui uma lista padrão de Stop Words para o português:
http://snowball.tartarus.org/algorithms/portuguese/stop.txt
StopWords podem reduzir o conjunto de dados de 30% a 50%
27. Matrizes de palavras
● TF-IDF (Term Frequency Inverse Document Frequency)
Vamos fazer a conta para a primeira frase:
tfidf(gatos) = 2 * log(2/2) = 0
tfidf(pretos) = 1 * log(2/1) = 0.30
29. Qual nosso problema?
Vamos usar o dataset do 20newsGroup*
Queremos que dado um certo texto sejamos capazes de dizer em qual categoria
ele será inserido.
*https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
30. Depois de tanta teoria...
Vamos ver um pouco de código!
bit.ly/2sVNbtg