O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

TDC2017 | POA Trilha DataScience - Aplicacoes, tecnicas e ferramentas para descoberta de conhecimento em textos

120 visualizações

Publicada em

Trilha Data Sience - Aplicações, técnicas e ferramentas para descoberta de conhecimento em textos

Publicada em: Educação
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

TDC2017 | POA Trilha DataScience - Aplicacoes, tecnicas e ferramentas para descoberta de conhecimento em textos

  1. 1. Aplicações, técnicas e ferramentas para D C T Aline de Campos
  2. 2. Interdisciplinar… Bacharel em Ciência da Computação ICEG/UPF Mestre em Comunicação e Informação PPGCOM/UFRGS Atualmente… Professora Adjunta na Escola de Tecnologia da Faculdade Senac Porto Alegre Coordenadora de Projetos de Pesquisa e Inovação Tecnologia, comunicação e informação… Consultora em capacitações interdisciplinares e projetos digitais, desenvolvimento de sistemas web, user experience, sistemas colaborativos e ciência de dados. A C
  3. 3. Dados estruturados Dados semiestruturados Dados não estruturados E-mails, conteúdos em HTML, estruturas em XML Textos livres, documentos de texto, comentários Sistemas gerenciadores de banco de dados D
  4. 4. Knowledge Discovery in Texts (KDT), também chamado de Mineração de Textos, usado como forma de encontrar padrões e estabelecer tendências em um conjunto de informações textuais. Extração de índices significativos a partir do texto para gerar informação acessível para processos computacionais. Análise de palavras, grupos de palavras ou documentos por frequência, similaridades ou relações com outras variáveis de interesse. D
  5. 5. E Definição de objetivos Seleção de dados 1 2
  6. 6. Transformação ações nos documentos de acordo com o domínio específico. Limpeza remoção de valores inválidos, atributos, erros de digitação e etc. Seleção e redução para fins de processamento de informações e capacidade de processamento. Pré-processamento3 E
  7. 7. Projeto de dados Escolha de técnicas 4 5 E
  8. 8. P Extração Buscar, procurando transformar dados não estruturados em dados estruturados, análise de características de domínio. Classificação Indica assuntos e temas contidos em um documento, a qual classe pertence de acordo com as características definidas para cada classe. Agrupamento Associar para facilitar a identificação de classes, sem a necessidade de pré-definição, uso de similaridade e afinidade, identificação de padrões. Processamento de linguagem natural conversão para representação formal e manipulável computacionalmente, análise morfológica (substantivo, verbo, pronome..), sintática (relações formais entre as palavras), semântica (significado), pragmática (significado de baseado no contexto).
  9. 9. Mineração 6 E Aplicação da(s) técnica(s) nos dados selecionados. Análise Estatística, focado na freqüência de aparição de cada termo e Análise Semântica, através de significados, conhecimentos morfológicos e de contexto.
  10. 10. Interpretação 7 Consolidação 8 E
  11. 11. C Assuntos correlacionados e novos insights que possam colaborar na hipótese levantada. Levantamento de termos associados aos elementos de pesquisa e posterior categorização para estudos futuros. Espera-se com este estudo o levantamento de um conjunto de técnicas, ferramentas, algoritmos, equações, métricas, características, frameworks e novas teorias que possam corroborar na formulação de projetos futuros voltados a convergência dos temas analisados.
  12. 12. Pré-processamento Mineração de textos Pós-processamento/Análise Seleção de termos-chave Busca por artigos com os termos-chave Leitura de abstract seleção de 25 artigos Avaliação dos artigos selecionados Seleção final de 15 artigos C
  13. 13. Collaborative systems Sistemas colaborativos User experience Experiência do usuário Recommendation Algorithms Algoritmos de recomendação Web scraping Extração de dados web Predictive analytics Análise preditiva Definição de objetivos1 C
  14. 14. Collaborative systems Sistemas colaborativos AMBIENTE/LOCAL User experience Experiência do usuário ASPECTOS NORTEADORES Web scraping Extração de dados web COLETA DE DADOS Recommendation Algorithms Algoritmos de recomendação PROCESSO APLICADO Predictive analytics Análise preditiva ANÁLISE Definição de objetivos1 C
  15. 15. A composição da base se deu através de pesquisa por termos na busca de Periódicos CAPES/MEC Seleção de dados2 C
  16. 16. Criado no Word Tagul Cloud: https://tagul.com/create Sistemas de informação Ciência da computação Recuperação de informação Interação Humano-Computador Web Semântica Inteligência artificial Matemática Sistemas especialistas Entre 2005 e 2016 Predominância de 2009 a 2012 Seleção de dados2 C
  17. 17. Transformação de arquivos PDF em arquivos no formato TXT, bem como a criação de um único arquivo com todo o corpus e posterior varredura manual limpando elementos adicionais e incorretos. Pré-processamento3 C
  18. 18. Utilização de conjunto de stopwords pré-definidos em idioma inglês e adição de novas palavras e elementos advindo da análise manual do corpus. Projeto de Dados4 C
  19. 19. Escolha da técnica5 C Agrupamento (clustering) Não havia definição prévia de classes. Análise de padrões, tendências e correlações por frequência, similaridade e associação. Seleção de ferramentas que pudessem auxiliar dentro da técnica escolhida.
  20. 20. TagCrowd https://tagcrowd.com/ Nuvem de palavras, parametrização de idioma, número máximo de palavras, frequência mínima, agrupamento de palavras similares e stopwords. WordCounter https://wordcounter.net/ Dados estatísticos sobre textos, contagem de palavras e de caracteres, densidade de palavras-chave. VoyantTools http://voyant-tools.org/ Leitura e de análise baseada em mineração de textos, com dezenas de ferramentas voltadas a frequências, densidade e elementos de visualização. Sobek http://sobek.ufrgs.br/ Ferramenta que gera visualização de termos relevantes em um texto a partir da análise de frequência destes termos e suas correlações. A f
  21. 21. Sem agrupamento de similares Máximo: 100 Mínimo: 5 Ferramenta: TagCrowd Mineração6 C
  22. 22. Com agrupamento de similares Máximo: 100 Mínimo: 5 Ferramenta: TagCrowd Mineração6 C
  23. 23. Com agrupamento de similares Máximo: 100 Mínimo: 5 Ferramenta: TagCrowd Mineração6 C
  24. 24. Com agrupamento de similares Máximo de palavras: 200 Mínimo de palavras: 200 Ferramenta: TagCrowd Mineração6 C
  25. 25. Ferramenta: WordCounter Mineração6 C
  26. 26. Ferramenta: WordCounter Mineração6 C
  27. 27. Ferramenta: Sobek Mineração6 C
  28. 28. Ferramenta: VoyantTools >> Trends Mineração6 C
  29. 29. C Interpretação7
  30. 30. Consolidação8 C
  31. 31. Filtragem de spam Identificação de idiomas Avaliação da Satisfação do Cliente Análise de Sentimento em Pesquisas de Opinião Área jurídica Diagnóstico de doenças Fóruns de discussão Inteligência de negócios Gestão do Conhecimento Marketing O ?
  32. 32. Aline de Campos alinedecampos@gmail.com http://alinedecampos.org V ?! Aplicações, técnicas e ferramentas para D C T

×