SlideShare uma empresa Scribd logo
1 de 17
Baixar para ler offline
Introdução à Mineração de
Textos
Andrei Martins e Charles Mendes
Quem somos – Andrei Martins
 Cientista de Dados na Genoa
Performance, onde atua com o
desenvolvimento de sistemas inteligentes
para otimização do atendimento em Call
Centers.
 Como parte de seu mestrado na
Universidade de São Paulo conduz
pesquisa na área de Sistemas de
Recomendação.
Quem somos – Charles Mendes
 Cientista de Dados e Analista
Desenvolvedor na Genoa Performance,
atua com o desenvolvimento de sistemas
inteligentes para otimização do
atendimento para empresas de
Telecomunicação.
 Estudante de Mestrado pela
Universidade de São Paulo, com
pesquisa na área de Sistemas Inteligentes
aplicado na detecção automática de
falhas no desenvolvimento de software.
Mineração de Textos – O que é?
 Mineração de texto é o processo de descoberta de conhecimento a
partir de conteúdo textual (não estruturado).
• Segundo Ah-hwee Tan [1], 80% das
informações de uma companhia
estão contidas em documentos
textuais (registro de histórico de
atividades, memorandos,
documentos, e-mails, projetos,
estratégias, etc).
[1] Text Mining: the state of the art and the challenges, Ah-hwee Tan – 1999.
Mineração de Textos – Principais Tarefas
 As principais tarefas que são feitos dentro da Mineração de Texto:
• Reconhecimento de entidades;
• Análise de sentimento;
• Análise quantitativa do texto;
• Classificação;
• Agrupamento;
• Sumarização de textos;
• Outras...
Mineração de Textos - Principais Etapas
 “Um processo de Mineração de
Textos para extração e organização
não supervisionada de
conhecimento pode ser dividido em
três fases principais: Pré-
Processamento dos Documentos,
Extração de Padrões com
Agrupamento de Textos e Avaliação
do Conhecimento.” [2]
[2] REZENDE, S. O., MARCACINI, R. M., MOURA, M. F. / Revista de Sistemas de Informacao da FSMA n. 7 (2011) pp. 7-21.
http://www.fsma.edu.br/si/edicao7/FSMA_SI_2011_1_Principal_3.pdf
Tecnologias que utilizaremos
 Para o desenvolvimento deste meetup, vamos utilizar:
Entre outros...
Demo 1 – Pré-processamento
Demo disponível: https://github.com/MackMendes/MineracaoTexto-Nerdzao/blob/master/preproc.Rmd
Nuvem de palavras
 É uma representação gráfica de frequência de palavras, dando maior
destaque para os termos mais frequentes.
Análise quantitativa do texto
 Considere um corpus de 10 documentos (N = 10), o termo “Nerd”
está contido em 1 documento (Doc1) e esse documento contém 100
palavras, então:
 Frequência das Palavras (TF): TF(“Nerd”, Doc1) = 4 / 100 = 0.04
 “Raridade da palavra” (IDF): IDF(Nerd) = log10(10/1) = 1
 TF * IDF = 0.04 * 1 = 0.04
N-gram – (Bigrama, N=2)
 Input: “Hoje vamos falar sobre Mineracao de Texto”.
 Output:
Demo 2:
 Iremos aplicar técnicas básicas de Mineração de Texto em tweets dos
quatros times paulistas com as maiores torcidas.
Demo disponível: https://github.com/MackMendes/MineracaoTexto-Nerdzao/blob/master/preproc.Rmd
Começando os estudos...
 Cursos:
 Coursera (É possível assistir as aulas destes cursos gratuitamente! Se quiser
obter o certificado de conclusão do curso, é necessário pagar o valor do
curso):
 Curso de “Machine Learning” do Andrew Ng: https://pt.coursera.org/learn/machine-
learning
 Uma série de cursos para a carreira “Data Science”:
https://pt.coursera.org/specializations/jhu-data-science
 Curso de “Text Mining and Analytics”: https://pt.coursera.org/learn/text-mining
 EDX:
 Curso “Data, Analytics and Learning”: https://www.edx.org/course/data-analytics-
learning-utarlingtonx-link5-10x
Começando os estudos...
 Livros:
http://tidytextmining.com/index.html
Começando os estudos...
 Mestrado (stricto sensu) - Universidade Pública:
Programa de Pós-graduação na USP:
- USP IME: https://www.ime.usp.br/dcc/pos
- USP PPgSI: http://ppgsi.each.usp.br/
- USP ICMC (São Carlos): http://icmc.usp.br/pos-graduacao/ppgccmc/
Aluno Especial:
- USP IME (Aluno especial): https://www.ime.usp.br/dcc/pos/ae
- USP PPgSI (Aluno especial): http://ppgsi.each.usp.br/solicitacao/
- USP ICMC (Aluno especial): http://icmc.usp.br/pos-
graduacao/ppgccmc/ingresso
Dúvidas?
Contatos
GitHub: github.com/a-n-d-r-e-i
Twitter: @andreisnitram
Linkedin: linkedin.com/in/amartins13
GitHub: github.com/MackMendes
Twitter: @CharlesMendesMa
Blog: charlesmms.azurewebsites.net
Linkedin: linkedin.com/in/charles-mendes-
de-macedo

Mais conteúdo relacionado

Semelhante a Introdução à mineração de textos - Nerdzão

Apostila Tecnologia da Informação (TI)
Apostila Tecnologia da Informação (TI)Apostila Tecnologia da Informação (TI)
Apostila Tecnologia da Informação (TI)Ricardo Terra
 
PTI - funções básicas de um computador.pdf
PTI - funções básicas de um computador.pdfPTI - funções básicas de um computador.pdf
PTI - funções básicas de um computador.pdfHELENO FAVACHO
 
Softwares e Aplicativos Windows
Softwares e Aplicativos WindowsSoftwares e Aplicativos Windows
Softwares e Aplicativos WindowsRobson Santos
 
Softwares E Aplicativos Robs
Softwares E Aplicativos RobsSoftwares E Aplicativos Robs
Softwares E Aplicativos RobsRobson Santos
 
Carreira em Desenvolvimento de Software
Carreira em Desenvolvimento de SoftwareCarreira em Desenvolvimento de Software
Carreira em Desenvolvimento de SoftwareFlávio de Sousa
 
Empregando Machine Learning na Agricultura com o FME
Empregando Machine Learning na Agricultura com o FMEEmpregando Machine Learning na Agricultura com o FME
Empregando Machine Learning na Agricultura com o FMESolutial OFICIAL
 
Analise de Projeto de Sistemas EEEP.pptx
Analise de Projeto de Sistemas EEEP.pptxAnalise de Projeto de Sistemas EEEP.pptx
Analise de Projeto de Sistemas EEEP.pptxALLYSONALVESCARVALHO
 
Sistemas de Informações Gerenciais - Aula4
Sistemas de Informações Gerenciais - Aula4Sistemas de Informações Gerenciais - Aula4
Sistemas de Informações Gerenciais - Aula4Leandro Rezende
 
Encontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresceEncontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresceCarolina Karklis
 
A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...
A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...
A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...Marcirio Chaves
 
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...Leinylson Fontinele
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de InformaçãoPiedley macedo
 
Apresentação Outdoor171
Apresentação Outdoor171Apresentação Outdoor171
Apresentação Outdoor171nilojr90
 
Componentes dos Sistemas de Informação - Proª Cristiane fidelix
Componentes dos Sistemas de Informação - Proª Cristiane fidelixComponentes dos Sistemas de Informação - Proª Cristiane fidelix
Componentes dos Sistemas de Informação - Proª Cristiane fidelixCris Fidelix
 

Semelhante a Introdução à mineração de textos - Nerdzão (20)

Informática Aplicada 2
Informática Aplicada  2Informática Aplicada  2
Informática Aplicada 2
 
Apostila Tecnologia da Informação (TI)
Apostila Tecnologia da Informação (TI)Apostila Tecnologia da Informação (TI)
Apostila Tecnologia da Informação (TI)
 
PTI - funções básicas de um computador.pdf
PTI - funções básicas de um computador.pdfPTI - funções básicas de um computador.pdf
PTI - funções básicas de um computador.pdf
 
Softwares e Aplicativos Windows
Softwares e Aplicativos WindowsSoftwares e Aplicativos Windows
Softwares e Aplicativos Windows
 
Softwares E Aplicativos Robs
Softwares E Aplicativos RobsSoftwares E Aplicativos Robs
Softwares E Aplicativos Robs
 
Aula nº1
Aula nº1Aula nº1
Aula nº1
 
Tecnologia Juridica
Tecnologia JuridicaTecnologia Juridica
Tecnologia Juridica
 
Como desenvolver-software
Como desenvolver-softwareComo desenvolver-software
Como desenvolver-software
 
Carreira em Desenvolvimento de Software
Carreira em Desenvolvimento de SoftwareCarreira em Desenvolvimento de Software
Carreira em Desenvolvimento de Software
 
Aula01 ananeri
Aula01 ananeriAula01 ananeri
Aula01 ananeri
 
Empregando Machine Learning na Agricultura com o FME
Empregando Machine Learning na Agricultura com o FMEEmpregando Machine Learning na Agricultura com o FME
Empregando Machine Learning na Agricultura com o FME
 
Analise de Projeto de Sistemas EEEP.pptx
Analise de Projeto de Sistemas EEEP.pptxAnalise de Projeto de Sistemas EEEP.pptx
Analise de Projeto de Sistemas EEEP.pptx
 
eXtreme Programming
eXtreme ProgrammingeXtreme Programming
eXtreme Programming
 
Sistemas de Informações Gerenciais - Aula4
Sistemas de Informações Gerenciais - Aula4Sistemas de Informações Gerenciais - Aula4
Sistemas de Informações Gerenciais - Aula4
 
Encontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresceEncontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresce
 
A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...
A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...
A Identificação de Riscos Novos e Potencializados em Projetos de Tecnologia d...
 
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTO...
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
Apresentação Outdoor171
Apresentação Outdoor171Apresentação Outdoor171
Apresentação Outdoor171
 
Componentes dos Sistemas de Informação - Proª Cristiane fidelix
Componentes dos Sistemas de Informação - Proª Cristiane fidelixComponentes dos Sistemas de Informação - Proª Cristiane fidelix
Componentes dos Sistemas de Informação - Proª Cristiane fidelix
 

Introdução à mineração de textos - Nerdzão

  • 1. Introdução à Mineração de Textos Andrei Martins e Charles Mendes
  • 2. Quem somos – Andrei Martins  Cientista de Dados na Genoa Performance, onde atua com o desenvolvimento de sistemas inteligentes para otimização do atendimento em Call Centers.  Como parte de seu mestrado na Universidade de São Paulo conduz pesquisa na área de Sistemas de Recomendação.
  • 3. Quem somos – Charles Mendes  Cientista de Dados e Analista Desenvolvedor na Genoa Performance, atua com o desenvolvimento de sistemas inteligentes para otimização do atendimento para empresas de Telecomunicação.  Estudante de Mestrado pela Universidade de São Paulo, com pesquisa na área de Sistemas Inteligentes aplicado na detecção automática de falhas no desenvolvimento de software.
  • 4. Mineração de Textos – O que é?  Mineração de texto é o processo de descoberta de conhecimento a partir de conteúdo textual (não estruturado). • Segundo Ah-hwee Tan [1], 80% das informações de uma companhia estão contidas em documentos textuais (registro de histórico de atividades, memorandos, documentos, e-mails, projetos, estratégias, etc). [1] Text Mining: the state of the art and the challenges, Ah-hwee Tan – 1999.
  • 5. Mineração de Textos – Principais Tarefas  As principais tarefas que são feitos dentro da Mineração de Texto: • Reconhecimento de entidades; • Análise de sentimento; • Análise quantitativa do texto; • Classificação; • Agrupamento; • Sumarização de textos; • Outras...
  • 6. Mineração de Textos - Principais Etapas  “Um processo de Mineração de Textos para extração e organização não supervisionada de conhecimento pode ser dividido em três fases principais: Pré- Processamento dos Documentos, Extração de Padrões com Agrupamento de Textos e Avaliação do Conhecimento.” [2] [2] REZENDE, S. O., MARCACINI, R. M., MOURA, M. F. / Revista de Sistemas de Informacao da FSMA n. 7 (2011) pp. 7-21. http://www.fsma.edu.br/si/edicao7/FSMA_SI_2011_1_Principal_3.pdf
  • 7. Tecnologias que utilizaremos  Para o desenvolvimento deste meetup, vamos utilizar: Entre outros...
  • 8. Demo 1 – Pré-processamento Demo disponível: https://github.com/MackMendes/MineracaoTexto-Nerdzao/blob/master/preproc.Rmd
  • 9. Nuvem de palavras  É uma representação gráfica de frequência de palavras, dando maior destaque para os termos mais frequentes.
  • 10. Análise quantitativa do texto  Considere um corpus de 10 documentos (N = 10), o termo “Nerd” está contido em 1 documento (Doc1) e esse documento contém 100 palavras, então:  Frequência das Palavras (TF): TF(“Nerd”, Doc1) = 4 / 100 = 0.04  “Raridade da palavra” (IDF): IDF(Nerd) = log10(10/1) = 1  TF * IDF = 0.04 * 1 = 0.04
  • 11. N-gram – (Bigrama, N=2)  Input: “Hoje vamos falar sobre Mineracao de Texto”.  Output:
  • 12. Demo 2:  Iremos aplicar técnicas básicas de Mineração de Texto em tweets dos quatros times paulistas com as maiores torcidas. Demo disponível: https://github.com/MackMendes/MineracaoTexto-Nerdzao/blob/master/preproc.Rmd
  • 13. Começando os estudos...  Cursos:  Coursera (É possível assistir as aulas destes cursos gratuitamente! Se quiser obter o certificado de conclusão do curso, é necessário pagar o valor do curso):  Curso de “Machine Learning” do Andrew Ng: https://pt.coursera.org/learn/machine- learning  Uma série de cursos para a carreira “Data Science”: https://pt.coursera.org/specializations/jhu-data-science  Curso de “Text Mining and Analytics”: https://pt.coursera.org/learn/text-mining  EDX:  Curso “Data, Analytics and Learning”: https://www.edx.org/course/data-analytics- learning-utarlingtonx-link5-10x
  • 14. Começando os estudos...  Livros: http://tidytextmining.com/index.html
  • 15. Começando os estudos...  Mestrado (stricto sensu) - Universidade Pública: Programa de Pós-graduação na USP: - USP IME: https://www.ime.usp.br/dcc/pos - USP PPgSI: http://ppgsi.each.usp.br/ - USP ICMC (São Carlos): http://icmc.usp.br/pos-graduacao/ppgccmc/ Aluno Especial: - USP IME (Aluno especial): https://www.ime.usp.br/dcc/pos/ae - USP PPgSI (Aluno especial): http://ppgsi.each.usp.br/solicitacao/ - USP ICMC (Aluno especial): http://icmc.usp.br/pos- graduacao/ppgccmc/ingresso
  • 17. Contatos GitHub: github.com/a-n-d-r-e-i Twitter: @andreisnitram Linkedin: linkedin.com/in/amartins13 GitHub: github.com/MackMendes Twitter: @CharlesMendesMa Blog: charlesmms.azurewebsites.net Linkedin: linkedin.com/in/charles-mendes- de-macedo