Processamento de Linguagem natural com PHP

3.507 visualizações

Publicada em

Esta palestra aborda o problema de processamento de linguagem natural em php, onde não temos a disposição nenhuma ferramenta para este tipo de trabalho e o lançamento do Texta - Text Analizer

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Processamento de Linguagem natural com PHP

  1. 1. PROCESSAMENTO DE LINGUAGEM em PHP Ivo NascimentoWednesday, October 19, 11
  2. 2. Ivo Nascimento ivo@o8o.com.br Code Repository Latest Projects github.com/iannsp PEAR PEAR2 Blue Seed php5minutes ianntech.com.br http://o8o.com.brWednesday, October 19, 11
  3. 3. 1. - Por que? 2. - Como? 2.1 - TF-IDF 2.2 - NLP Agenda 2.3 ?Wednesday, October 19, 11
  4. 4. Por Que?Wednesday, October 19, 11
  5. 5. dado um corpus, analisa o conteúdo TF-IDF calculando a Term Frequency-Inverse importância relativa de um termo. Document FrequencyWednesday, October 19, 11
  6. 6. tf * idfWednesday, October 19, 11
  7. 7. O desafio de um ser humano não eh deixar para tras a condição de estudante mas descobrir o que estudar. Extração de informaçãoWednesday, October 19, 11
  8. 8. $terms =Array(‘O’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘eh’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’); TokenizaçãoWednesday, October 19, 11
  9. 9. $terms =Array(‘o’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘é’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’); NormalizaçãoWednesday, October 19, 11
  10. 10. $terms =Array(‘o’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘é’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’); Stop-wordsWednesday, October 19, 11
  11. 11. $dictPositive = Array( ‘desafio’=>0.2, $dictNegative = Array( ‘ser’=>0.3, ‘não’ =>0.45, ‘humano’ =>0.21, ‘tras’ =>0.21); ‘deixar’ =>0.21, ‘condição’ =>0.33, ‘estudante’ =>0.4, ‘descobrir’ =>0.133, ‘estudar’ =>0.33); AprendizadoWednesday, October 19, 11
  12. 12. Positiva $terms =Array(‘desafio’, ‘ser’, ‘humano’, ‘não’, ‘deixar’, #estudante ‘tras’,‘condição’,‘estudante’, ‘descobrir’,‘estudar’); #desafio Classi caçãoWednesday, October 19, 11
  13. 13. O desafio de um ser humano não é deixar para tras a condição de estudante mas descobrir o que estudar.$BIGRAM=Array((null,‘o’),(‘o’,‘desafio’),(‘desafio’,’de’),(‘de’,’um’),(‘um’,‘ser’),(‘ser’,‘humano’),(‘humano’ ,‘não’),(‘não,’’é’),(‘é’,‘deixar’),(‘deixar’,‘para’),(‘para’,‘tras’),(‘tras’,‘condicao’),(‘condicao’,’de’),(‘de’,‘estudante’),(‘estudante’,‘mas’),(‘mas’,‘descobrir’),(‘descobrir’,’o’),(‘o’,‘que’),(‘que’,‘estudar’),(‘estudar’,null)); n-gram(bigram,trigram,...)Wednesday, October 19, 11
  14. 14. Distância Euclidiana Coeficiente de Relção de Pearson Coeficiente de Jaccard Filtro Bayesiano Coef. Dice Análise Qui-quadradoWednesday, October 19, 11
  15. 15. Termos Homógrafos ordem não importa Problemas da abordagem tf-idfWednesday, October 19, 11
  16. 16. dado um corpus, analisa o conteúdo e busca NLP compreensão do todo.Wednesday, October 19, 11
  17. 17. É uma área da inteligência arti cial e da linguística que estuda os problemas da geração e compreensão automática de linguas humanas naturais.(wikipedia)Wednesday, October 19, 11
  18. 18. Natural Language Tool Kit http://www.nltk.org/ NLTKWednesday, October 19, 11
  19. 19. O evento é bom. O evento vai ser bom. O evento foi bom. O evento já foi bom. O evento seria bom.Wednesday, October 19, 11
  20. 20. O evento é bom. S O evento é bom NLPWednesday, October 19, 11
  21. 21. Where are the NLP and M.P. tools for use in PHP? http://bit.ly/aCbfR0 The Biggest QuestionWednesday, October 19, 11
  22. 22. A unica maneira de rodar a NLTK http://bit.ly/n69g0 PIP (python in PHP)Wednesday, October 19, 11
  23. 23. O Início http://bit.ly/oZte8b https://github.com/iannsp/texta Texta - Text AnalizerWednesday, October 19, 11
  24. 24. Texta - Text AnalizerWednesday, October 19, 11

×