Visão geral sobre
Text Mining
Instituto tecnológico Vale (ITV)
Ehilton Kazuo Chiba Yoshidome - CBCC/UFPA
Fernando Fábio D....
Agenda
● Introdução (O que é text mining e qual sua importância?)(Fernando)
● KDT:
● - Introdução (Kazuo)
● - Etapas do pr...
Introdução
● Crescimento no volume de informações.
● ~80% dos dados de uma empresa são não estruturados.
● Problemas:
● “L...
KDT: introdução
Tipos de Descoberta de Conhecimento (Morais &
Ambrósio ,2007)
KDT: etapas do processo
Entender o
domínio da
aplicação.
Selecionar o
conjunto de
dados.
Integrar e
verificar e
salvar o d...
KDT: etapas do processo
Limpeza, pré-
processamento e
transformação.
DADOS
Remover espaços em
branco
Remover pontuações
Re...
CATEGORIZAÇÃO
● Rocchio (centroid);
○ Desvantagem: contexto
de palavras (palavras
próximas)
● Métodos:
○ palavras-chave ou...
CLASSIFICAÇÃO
● Gerar definição de conceitos.
- Termos e grau de associação e relevância.
● Pode-se utilizar um dicionário...
TAREFA DE MINERAÇÃO
● Lista de conceitos-chave:
○ Permite a constatação de
que existem temas
dominantes em uma
coleção ou ...
ESTUDO DE CASO
Ehilton Kazuo Fernando Gama
● Trabalho com foco no
delineamento de padrões
associativos relativos ao
índice...
REFERÊNCIAS
LOH, S.; WIVES, L.K.; OLIVEIRA, J.P.M. Concept-Based Knowledge Discovery in Texts
Extracted from the Web.
MORA...
Próximos SlideShares
Carregando em…5
×

Visão geral sobre Text Mining

536 visualizações

Publicada em

Uma abordagem introdutória sobre text mining em uma apresentação no ITV (Instituto Tecnológico Vale). Ministrado por Ehilton Kazuo e Fernando Gama da Mata.

  • Seja o primeiro a comentar

Visão geral sobre Text Mining

  1. 1. Visão geral sobre Text Mining Instituto tecnológico Vale (ITV) Ehilton Kazuo Chiba Yoshidome - CBCC/UFPA Fernando Fábio D. Gama da Mata - CBSI/UFPA
  2. 2. Agenda ● Introdução (O que é text mining e qual sua importância?)(Fernando) ● KDT: ● - Introdução (Kazuo) ● - Etapas do processo (Fernando) ● - Categorização (Kazuo) ● - Classificação (Fernando) ● - Tarefa de mineração (Kazuo) ● - Estudo de caso (Ambos)
  3. 3. Introdução ● Crescimento no volume de informações. ● ~80% dos dados de uma empresa são não estruturados. ● Problemas: ● “Lixo de dados” ● Sobrecarga de informações.
  4. 4. KDT: introdução Tipos de Descoberta de Conhecimento (Morais & Ambrósio ,2007)
  5. 5. KDT: etapas do processo Entender o domínio da aplicação. Selecionar o conjunto de dados. Integrar e verificar e salvar o data set. Limpeza, pré- processamento e transformação . Desenvolviment o de um modelo e construção de uma hipótese. Escolher o algoritmo. Interpretação dos resultados e visualização. Teste e verificação.
  6. 6. KDT: etapas do processo Limpeza, pré- processamento e transformação. DADOS Remover espaços em branco Remover pontuações Remover números Converter maiúsculas em minúsculas Remover stopwords Remover words Remover stemmings
  7. 7. CATEGORIZAÇÃO ● Rocchio (centroid); ○ Desvantagem: contexto de palavras (palavras próximas) ● Métodos: ○ palavras-chave ou frases; ○ grau de relevância.
  8. 8. CLASSIFICAÇÃO ● Gerar definição de conceitos. - Termos e grau de associação e relevância. ● Pode-se utilizar um dicionário. ● É possível gerar automaticamente umvocabulário próprio.
  9. 9. TAREFA DE MINERAÇÃO ● Lista de conceitos-chave: ○ Permite a constatação de que existem temas dominantes em uma coleção ou em um único texto ● Associação ou correlação: ○ Confiança: proporção nos textos que tem em X e Y. Relação ao número de textos que têm apenas no X; ○ Suporte: é a proporção nos textos que têm X e Y. Relação a todos os textos da coleção. Confiança = 82.1%, Suporte = 23 documentos Confiança = 93.3%, Suporte = 14 documentos X Y
  10. 10. ESTUDO DE CASO Ehilton Kazuo Fernando Gama ● Trabalho com foco no delineamento de padrões associativos relativos ao índice de risco de atropelamento nas ferrovias operadas pela Vale. ● A base para o desenvolvimento consiste em dados textuais descritos pelos funcionários da Vale. ● Trabalho com foco na extração de artigos científicos na área da Metagenômica; ● Buscar frameworks similares no ramo. ● Criar um dicionário com os jargões da área analisada.
  11. 11. REFERÊNCIAS LOH, S.; WIVES, L.K.; OLIVEIRA, J.P.M. Concept-Based Knowledge Discovery in Texts Extracted from the Web. MORAIS, E. A. M.; AMBRÓSIO, A. P. L. Mineração de Textos (2007). WIVES, L.K. Agrupamento de Informações Textuais. <http://www.leandro.wives.nom. br/pt-br/publicacoes/semacad.pdf>. Acesso em 24/04/2014.

×