O documento apresenta o ciclo de vida de um projeto de ciência de dados, com foco no pré-processamento de textos. Descreve as etapas como tokenização, remoção de stopwords, stemming e a construção de matrizes como bag-of-words e TF-IDF. O objetivo é classificar textos em categorias usando o conjunto de dados 20newsgroups após a preparação dos dados textuais.
Sistemas de Processamento de Linguagem Natural na PráticaWilliam Colen
Lições aprendidas na busca por insights em dados não estruturados
Apresentado no QConSP 2018
https://qconsp.com/sp2018/presentation/criando-sistemas-de-processamento-de-linguagem-natural-na-pratica
Perspectivas na Análise de Textos Não-EstruturadosBruno Guide
Slides da apresentação conduzida no IV Workshop de Linguística Computacional, evento organizado pelo Grupo de Estudos de Linguística Computacional da Universidade de São Paulo (USP).
Discussão sobre estruturação de conjuntos de dados linguísticos, o apoio dado pela estrutura linguística nessa tarefa e o estudo de caso com textos legislativos.
Sistemas de Processamento de Linguagem Natural na PráticaWilliam Colen
Lições aprendidas na busca por insights em dados não estruturados
Apresentado no QConSP 2018
https://qconsp.com/sp2018/presentation/criando-sistemas-de-processamento-de-linguagem-natural-na-pratica
Perspectivas na Análise de Textos Não-EstruturadosBruno Guide
Slides da apresentação conduzida no IV Workshop de Linguística Computacional, evento organizado pelo Grupo de Estudos de Linguística Computacional da Universidade de São Paulo (USP).
Discussão sobre estruturação de conjuntos de dados linguísticos, o apoio dado pela estrutura linguística nessa tarefa e o estudo de caso com textos legislativos.
O ABC das CAT's: O que você nunca se atreveu a perguntarJorge Davidson
Breve apresentação sobre CAT Tools, ou ferramentas de tradução assistida por computador, realizada no Congresso da Abrates 2015, em São Paulo, Brasil. O objetivo foi explicar em termos claros e simples qual é a lógica de funcionamento dessas ferramentas, apresentar as CAT's mais utilizadas e algumas formas de classificá-las, além de assinalar fatores a considerar na hora de decidir a compra.
Introdução a programação com Python (para jornalistas)Álvaro Justen
Slides do mini-curso de introdução a programação utilizando a linguagem Python, focado em jornalistas.
Esse mini-curso foi ministrado durante o 12o Congresso da ABRAJI (1 de julho de 2017).
O ABC das CAT's: O que você nunca se atreveu a perguntarJorge Davidson
Breve apresentação sobre CAT Tools, ou ferramentas de tradução assistida por computador, realizada no Congresso da Abrates 2015, em São Paulo, Brasil. O objetivo foi explicar em termos claros e simples qual é a lógica de funcionamento dessas ferramentas, apresentar as CAT's mais utilizadas e algumas formas de classificá-las, além de assinalar fatores a considerar na hora de decidir a compra.
Introdução a programação com Python (para jornalistas)Álvaro Justen
Slides do mini-curso de introdução a programação utilizando a linguagem Python, focado em jornalistas.
Esse mini-curso foi ministrado durante o 12o Congresso da ABRAJI (1 de julho de 2017).
11. Que parte de um projeto de DS entra o
pré processamento textual?
Problema Preparação
dos dados
Análise de
dados
Visualização
de dados
Apresentação
10% 70% 10% 10% +80%
12. Mineração de textos
Processo de extrair informação à partir dos textos. Normalmente requer um pré
processamento dos dados.
14. Definições
● Corpus é um conjunto de n documentos;
● Termos são pedacinhos de cada documento, quebrados em palavras,
radicais ou conjunto de palavras;
Usaremos os termos de cada documento para fazer o pré processamento.
Considerando-se termos = palavras podemos fazer um pouco de pré
processamento para reduzir o conjunto de dados e evitar redundância.
19. StopWords
Uma lista de Stopwords é uma lista de palavras que não tem potencial para ajudar
a caracterizar o conteúdo de um texto.
Palavras como a, o, de, do, um, mais, mas, como, ou, seu, sua, etc.
20. StopWords
O snowball possui uma lista padrão de Stop Words para o português:
http://snowball.tartarus.org/algorithms/portuguese/stop.txt
StopWords podem reduzir o conjunto de dados de 30% a 50%
27. Matrizes de palavras
● TF-IDF (Term Frequency Inverse Document Frequency)
Vamos fazer a conta para a primeira frase:
tfidf(gatos) = 2 * log(2/2) = 0
tfidf(pretos) = 1 * log(2/1) = 0.30
29. Qual nosso problema?
Vamos usar o dataset do 20newsGroup*
Queremos que dado um certo texto sejamos capazes de dizer em qual categoria
ele será inserido.
*https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
30. Depois de tanta teoria...
Vamos ver um pouco de código!
bit.ly/2sVNbtg