SlideShare uma empresa Scribd logo
1 de 93
Baixar para ler offline
ORGANICER
Organizando Informação
      com Python

  Rodrigo Dias Arruda Senra
    IC-Unicamp / Globo.com


                             PythonBrasil [8], RJ 2012
Apenas um rapaz latino americano...

   • Engenheiro de Computação
     Graduação-MSc-(defesa PhD 10/12/12) IC-Unicamp



   • Desenvolvedor1996, hoje na Globo.com )
     (no mercado desde
                       e Projetista de Software



   • Entusiasta de FLOSS 1999)
     (atuante na comunidade desde




                          2
Roteiro
• Motivação
• Problemas
• Organografos
• Organicer (preview)
• Python Snippets



                        3
Motivação
5
k-Means Hull          Sebastiani          Support Vector
                   Content Management
          Chen                                  Machines
    Clustering Nearest Neighbors Sokal Hierarchies
                    Information Retrieval Python
 Semantic Web                                       Neural
                      Folksonomy
 Mongo Data Sharing                 Classification Nets
                             RSS     Javascript
    Naïve Bayes        Social Networks      Visualization
  Digital Libraries     Organization          Cognition
                 Syndication      Tagging
       Jaccard              XML            Personal Desktop
CouchDB Databases
                        Feeds Go Evaluation CAPES
 User Interfaces                             Taxonomy
    Crescenzi Information Extraction                  CNPq
   Automation Cosine              NoSQL Classification
                            RDF
 Organographs Dice              Matching Wrappers
                      INCT 5                          Fapesp
6
Quantos conceitos ?




        6
Quantos conceitos ?
Em que ordem eles apareceram ?




              6
Quantos conceitos ?
Em que ordem eles apareceram ?
    Como categorizá-los ?




              6
Quantos conceitos ?
Em que ordem eles apareceram ?
    Como categorizá-los ?
       De onde vieram ?




              6
Quantos conceitos ?
  Em que ordem eles apareceram ?
       Como categorizá-los ?
          De onde vieram ?
Quais as relações entre os conceitos ?




                  6
Quantos conceitos ?
  Em que ordem eles apareceram ?
       Como categorizá-los ?
          De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?




                  6
Quantos conceitos ?
  Em que ordem eles apareceram ?
       Como categorizá-los ?
          De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
                  ...



                  6
Quantos conceitos ?
         Em que ordem eles apareceram ?
              Como categorizá-los ?
                  De onde vieram ?
      Quais as relações entre os conceitos ?
      Quais são relevantes para mim agora ?
                           ...
[Miller 1956] regra 7±2: capacidade cognitiva é limitada


                          6
Problemas
Qual das categorias abaixo é a que melhor
acomoda o objeto acima ?




                    8
Motivação


Vermelhos ?    Triangulos ?   Relacionados ?




                    9
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




             10
Uma breve história no tempo




Muito mais difícil que
                         10
O que há de errado ?




         11
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado




                        11
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente




                        11
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito




                        11
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência



                        11
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência

5. Organização não é reutilizável
                        11
Objetivos
Objetivos

1. Avaliar hierarquias criadas manualmente
Objetivos

1. Avaliar hierarquias criadas manualmente

2. Reorganizar conteúdo dinamicamente
Objetivos

1. Avaliar hierarquias criadas manualmente

2. Reorganizar conteúdo dinamicamente

3. Reutilizar organização
Avaliar Hierarquias




        13
Avaliar Hierarquias

             muito conteúdo junto




        13
Avaliar Hierarquias

              muito conteúdo junto

             duplicado, deslocado




        13
Avaliar Hierarquias

              muito conteúdo junto

             duplicado, deslocado
                         muitos
                      agregadores




        13
Avaliar Hierarquias

                        muito conteúdo junto

                       duplicado, deslocado
                                   muitos
                                agregadores



profundo demais

                  13
Avaliar Similaridade
Matriz de Similaridade   Dendograma
Reorganizar conteúdo dinamicamente


        Autor
               Data de Publicação


Alice

        2011           Artigo 1

        2008          Artigo 2
Beto

         2011           Artigo 3


                                    15
Reorganizar conteúdo dinamicamente


        Autor                            Data de Publicação
               Data de Publicação              Autor


Alice

        2011           Artigo 1

        2008          Artigo 2
Beto

         2011           Artigo 3


                                    15
Reorganizar conteúdo dinamicamente


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011           Artigo 1                 Alice

        2008          Artigo 2                  Beto
Beto                                     2008

         2011           Artigo 3                 Alice


                                    15
Reorganizar conteúdo dinamicamente


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011                                    Alice            Artigo 1

        2008          Artigo 2                  Beto
Beto                                     2008

         2011           Artigo 3                 Alice


                                    15
Reorganizar conteúdo dinamicamente


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011                                    Alice            Artigo 1

        2008                                    Beto
Beto                                     2008

         2011           Artigo 3                 Alice            Artigo 2


                                    15
Reorganizar conteúdo dinamicamente


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011                                    Alice            Artigo 1

        2008                                    Beto             Artigo 3
Beto                                     2008

         2011                                    Alice            Artigo 2


                                    15
Reorganizar conteúdo dinamicamente
                                          a TAREFA é importante!


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011                                    Alice            Artigo 1

        2008                                    Beto             Artigo 3
Beto                                     2008

         2011                                    Alice            Artigo 2


                                    15
Reutilizar organização




          16
Reutilizar organização




          16
Reutilizar organização




          16
Organografos
Metodologia
coleção




               18
Metodologia
coleção


          organizar




                      18
Metodologia
coleção


          organizar



                           avaliar




                      18
Metodologia
coleção


          organizar



                                         avaliar




                           reorganizar
                      18
Metodologia
coleção


              organizar



                                             avaliar



      compartilhar
                               reorganizar
                          18
19
Organografos
  ... são artefatos que tornam explícito como organizar
informação digital no contexto de uma tarefa específica.




                          19
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container




                                                                                  Autor do
                                                                                 Organofrafo




                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container
                  • patterns
                  • dictionaries
                  • rules
                  • probabilities                                                 Autor do
                                                                                 Organofrafo
                  • templates/wrappers

                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container

                                        • matching
                                        • dice
                                        • jaccard                                 Autor do
                                        • overlap                                Organofrafo
                                        • cosine

                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container

                                                     • FOAF
                                                     • Dbpedia
                                                     • Schema.org                 Autor do
                                                     • Freebase                  Organofrafo

                                                     • MusicBrainz
                                                     • Geonames
                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container



                                                         • Naive Bayes
                                                         • SVM
                                                         • Nearest Neighbors
                                                                        Autor do
                                                                       Organofrafo
                                                         • LDA
                                                         • LSI
                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container



                                                                 • Filesystem
                                                                 • Gmail
                                                                 • Evernote  Autor do
                                                                            Organofrafo
                                                                 • Delicious
                                                                 • Dropbox, Box
                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container




                                                                            • Fuse, Dokan
                                                                            • Infoviz do
                                                                                  Autor
                                                                                 Organofrafo
                                                                            • D3

                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container




                                                                                  Autor do
                                                                                 Organofrafo




                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                20
acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’)

organograph:
	

 input: collection(‘file:///some/local/dir/docs’)
    output: collection(‘rodsenra@dropbox:/output’)
	

 id: ‘docs by year’
	

 level:
        label: format(‘YYYY’, input.Vcnt.publication_date)
	

      level:
           classifier: naive_bayes(classes=acmccs98.Vagg[1],
                                   train=acmccs98.Vagg[2:] + acmccs98.Vcnt)
            label: classifier.class
Organicer
Hierarquia
de Origem
Pre-processamento



BeautifulSoup
 pyPdf
           Hierarquia
           de Origem
Extração
 NLTK

         Pre-processamento



BeautifulSoup
 pyPdf
           Hierarquia
           de Origem
pymongo
        Índice de
         Facetas




                Extração
 NLTK

           Pre-processamento



BeautifulSoup
 pyPdf
             Hierarquia
             de Origem
Workflow de Transformação
        pymongo
        Índice de
         Facetas




                Extração
 NLTK

           Pre-processamento



BeautifulSoup
 pyPdf
             Hierarquia
             de Origem
Workflow de Transformação
        pymongo
        Índice de
         Facetas


                               numpy scikit-learn
 NLTK           Extração       networkx gensim

           Pre-processamento



BeautifulSoup
 pyPdf
             Hierarquia
             de Origem
Workflow de Transformação
        pymongo
        Índice de
         Facetas


                               numpy scikit-learn
 NLTK           Extração       networkx gensim

           Pre-processamento
                                                 Hierarquia
                                                 Resultante

BeautifulSoup                            Visualização
 pyPdf
             Hierarquia
             de Origem
Workflow de Transformação
        pymongo
        Índice de
         Facetas


                               numpy scikit-learn
 NLTK           Extração       networkx gensim

           Pre-processamento
                                                 Hierarquia
                                                 Resultante

BeautifulSoup                            Visualização       D3.js
 pyPdf                                                    InfoViz.js
             Hierarquia
                                                            ObsPy
             de Origem                                    matplotlib
Workflow de Transformação
        pymongo
        Índice de
         Facetas


                               numpy scikit-learn
 NLTK           Extração       networkx gensim

                               Navegação da
           Pre-processamento
                                Hierarquia            Hierarquia
                                                      Resultante

BeautifulSoup              Iterador           Visualização      D3.js
 pyPdf                                                        InfoViz.js
             Hierarquia
                                                                ObsPy
             de Origem                                        matplotlib
Workflow de Transformação
        pymongo
        Índice de
         Facetas


                               numpy scikit-learn
 NLTK           Extração       networkx gensim

                               Navegação da
           Pre-processamento
                                Hierarquia            Hierarquia
                                                      Resultante

BeautifulSoup              Iterador           Visualização      D3.js
 pyPdf                                                        InfoViz.js
                           os.walk
             Hierarquia    evernote                             ObsPy
             de Origem     pydelicious                        matplotlib
Conclusão
Resumo


• Organografos: metodologia, arquitetura,utilização
• Capturar a tarefa por trás de uma organização
• Avaliar, reorganizar e compartilhar.



                           27
Agradecimentos

• Laboratório de Sistemas de Informação (IC-Unicamp)
  http://www.lis.ic.unicamp.br
• Brazilian Institute for Web Science Research
  http://webscience.org.br
• Globo.com



                           28
Obrigado a todos
                         pela atenção.

                            Rodrigo Dias Arruda Senra
                                 http://rodrigo.senra.nom.br
                                      rsenra@acm.org


As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.

Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que
não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material
resultante. Em caso de alterações, favor consultar o autor.

Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm
seus direitos de copyright.
Execução de Organografo


                         Workflow de Transformação


Índice de
 Facetas


                                       FCat()
        Extração                       FHil()




                       Navegação da
   Pre-processamento
                        Hierarquia              Hierarquia
                                                Resultante

                   Iterador



     Hierarquia
     de Origem         Usuário do Organografo   Visualização
Organicer




   31
Organicer




   31
Organicer




   31
Organicer




   31
Organicer




   31

Mais conteúdo relacionado

Destaque

Show Pyrotécnico - Keynote PythonBrasil[9] 2013
Show Pyrotécnico - Keynote PythonBrasil[9] 2013Show Pyrotécnico - Keynote PythonBrasil[9] 2013
Show Pyrotécnico - Keynote PythonBrasil[9] 2013Rodrigo Senra
 
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rodrigo Senra
 
Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Rodrigo Senra
 
Rest, Gateway e Compiladores
Rest, Gateway e CompiladoresRest, Gateway e Compiladores
Rest, Gateway e CompiladoresRodrigo Senra
 
Python: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de DadosPython: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de DadosRodrigo Senra
 
Cientista de Dados - A profissão mais sexy do século 21
Cientista de Dados - A profissão mais sexy do século 21Cientista de Dados - A profissão mais sexy do século 21
Cientista de Dados - A profissão mais sexy do século 21Rodrigo Senra
 
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Rodrigo Senra
 
pa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processingpa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text ProcessingRodrigo Senra
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosRodrigo Senra
 

Destaque (10)

Show Pyrotécnico - Keynote PythonBrasil[9] 2013
Show Pyrotécnico - Keynote PythonBrasil[9] 2013Show Pyrotécnico - Keynote PythonBrasil[9] 2013
Show Pyrotécnico - Keynote PythonBrasil[9] 2013
 
Cientista de Dados
Cientista de DadosCientista de Dados
Cientista de Dados
 
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
 
Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia
 
Rest, Gateway e Compiladores
Rest, Gateway e CompiladoresRest, Gateway e Compiladores
Rest, Gateway e Compiladores
 
Python: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de DadosPython: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de Dados
 
Cientista de Dados - A profissão mais sexy do século 21
Cientista de Dados - A profissão mais sexy do século 21Cientista de Dados - A profissão mais sexy do século 21
Cientista de Dados - A profissão mais sexy do século 21
 
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
 
pa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processingpa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processing
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de Dados
 

Organicer: Organizando informação com Python

  • 1. ORGANICER Organizando Informação com Python Rodrigo Dias Arruda Senra IC-Unicamp / Globo.com PythonBrasil [8], RJ 2012
  • 2. Apenas um rapaz latino americano... • Engenheiro de Computação Graduação-MSc-(defesa PhD 10/12/12) IC-Unicamp • Desenvolvedor1996, hoje na Globo.com ) (no mercado desde e Projetista de Software • Entusiasta de FLOSS 1999) (atuante na comunidade desde 2
  • 3. Roteiro • Motivação • Problemas • Organografos • Organicer (preview) • Python Snippets 3
  • 5. 5
  • 6. k-Means Hull Sebastiani Support Vector Content Management Chen Machines Clustering Nearest Neighbors Sokal Hierarchies Information Retrieval Python Semantic Web Neural Folksonomy Mongo Data Sharing Classification Nets RSS Javascript Naïve Bayes Social Networks Visualization Digital Libraries Organization Cognition Syndication Tagging Jaccard XML Personal Desktop CouchDB Databases Feeds Go Evaluation CAPES User Interfaces Taxonomy Crescenzi Information Extraction CNPq Automation Cosine NoSQL Classification RDF Organographs Dice Matching Wrappers INCT 5 Fapesp
  • 7. 6
  • 9. Quantos conceitos ? Em que ordem eles apareceram ? 6
  • 10. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? 6
  • 11. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? 6
  • 12. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? 6
  • 13. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? 6
  • 14. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? ... 6
  • 15. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? ... [Miller 1956] regra 7±2: capacidade cognitiva é limitada 6
  • 17. Qual das categorias abaixo é a que melhor acomoda o objeto acima ? 8
  • 18. Motivação Vermelhos ? Triangulos ? Relacionados ? 9
  • 19. Uma breve história no tempo 10
  • 20. Uma breve história no tempo 10
  • 21. Uma breve história no tempo 10
  • 22. Uma breve história no tempo 10
  • 23. Uma breve história no tempo 10
  • 24. Uma breve história no tempo 10
  • 25. Uma breve história no tempo 10
  • 26. Uma breve história no tempo 10
  • 27. Uma breve história no tempo Muito mais difícil que 10
  • 28. O que há de errado ? 11
  • 29. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 11
  • 30. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 11
  • 31. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 3. Critério não é explícito 11
  • 32. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 3. Critério não é explícito 4. Relação estática de pertinência 11
  • 33. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 3. Critério não é explícito 4. Relação estática de pertinência 5. Organização não é reutilizável 11
  • 35. Objetivos 1. Avaliar hierarquias criadas manualmente
  • 36. Objetivos 1. Avaliar hierarquias criadas manualmente 2. Reorganizar conteúdo dinamicamente
  • 37. Objetivos 1. Avaliar hierarquias criadas manualmente 2. Reorganizar conteúdo dinamicamente 3. Reutilizar organização
  • 39. Avaliar Hierarquias muito conteúdo junto 13
  • 40. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado 13
  • 41. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado muitos agregadores 13
  • 42. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado muitos agregadores profundo demais 13
  • 43. Avaliar Similaridade Matriz de Similaridade Dendograma
  • 44. Reorganizar conteúdo dinamicamente Autor Data de Publicação Alice 2011 Artigo 1 2008 Artigo 2 Beto 2011 Artigo 3 15
  • 45. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 Artigo 1 2008 Artigo 2 Beto 2011 Artigo 3 15
  • 46. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Artigo 1 Alice 2008 Artigo 2 Beto Beto 2008 2011 Artigo 3 Alice 15
  • 47. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Alice Artigo 1 2008 Artigo 2 Beto Beto 2008 2011 Artigo 3 Alice 15
  • 48. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Alice Artigo 1 2008 Beto Beto 2008 2011 Artigo 3 Alice Artigo 2 15
  • 49. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Alice Artigo 1 2008 Beto Artigo 3 Beto 2008 2011 Alice Artigo 2 15
  • 50. Reorganizar conteúdo dinamicamente a TAREFA é importante! Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Alice Artigo 1 2008 Beto Artigo 3 Beto 2008 2011 Alice Artigo 2 15
  • 56. Metodologia coleção organizar 18
  • 57. Metodologia coleção organizar avaliar 18
  • 58. Metodologia coleção organizar avaliar reorganizar 18
  • 59. Metodologia coleção organizar avaliar compartilhar reorganizar 18
  • 60. 19
  • 61. Organografos ... são artefatos que tornam explícito como organizar informação digital no contexto de uma tarefa específica. 19
  • 62. Papéis Autoria de Organografo NLP Domínio ML Data UX Container Autor do Organofrafo Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 63. Papéis Autoria de Organografo NLP Domínio ML Data UX Container • patterns • dictionaries • rules • probabilities Autor do Organofrafo • templates/wrappers Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 64. Papéis Autoria de Organografo NLP Domínio ML Data UX Container • matching • dice • jaccard Autor do • overlap Organofrafo • cosine Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 65. Papéis Autoria de Organografo NLP Domínio ML Data UX Container • FOAF • Dbpedia • Schema.org Autor do • Freebase Organofrafo • MusicBrainz • Geonames Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 66. Papéis Autoria de Organografo NLP Domínio ML Data UX Container • Naive Bayes • SVM • Nearest Neighbors Autor do Organofrafo • LDA • LSI Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 67. Papéis Autoria de Organografo NLP Domínio ML Data UX Container • Filesystem • Gmail • Evernote Autor do Organofrafo • Delicious • Dropbox, Box Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 68. Papéis Autoria de Organografo NLP Domínio ML Data UX Container • Fuse, Dokan • Infoviz do Autor Organofrafo • D3 Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 69. Papéis Autoria de Organografo NLP Domínio ML Data UX Container Autor do Organofrafo Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 20
  • 70. acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’) organograph: input: collection(‘file:///some/local/dir/docs’) output: collection(‘rodsenra@dropbox:/output’) id: ‘docs by year’ level: label: format(‘YYYY’, input.Vcnt.publication_date) level: classifier: naive_bayes(classes=acmccs98.Vagg[1], train=acmccs98.Vagg[2:] + acmccs98.Vcnt) label: classifier.class
  • 71.
  • 73.
  • 76. Extração NLTK Pre-processamento BeautifulSoup pyPdf Hierarquia de Origem
  • 77. pymongo Índice de Facetas Extração NLTK Pre-processamento BeautifulSoup pyPdf Hierarquia de Origem
  • 78. Workflow de Transformação pymongo Índice de Facetas Extração NLTK Pre-processamento BeautifulSoup pyPdf Hierarquia de Origem
  • 79. Workflow de Transformação pymongo Índice de Facetas numpy scikit-learn NLTK Extração networkx gensim Pre-processamento BeautifulSoup pyPdf Hierarquia de Origem
  • 80. Workflow de Transformação pymongo Índice de Facetas numpy scikit-learn NLTK Extração networkx gensim Pre-processamento Hierarquia Resultante BeautifulSoup Visualização pyPdf Hierarquia de Origem
  • 81. Workflow de Transformação pymongo Índice de Facetas numpy scikit-learn NLTK Extração networkx gensim Pre-processamento Hierarquia Resultante BeautifulSoup Visualização D3.js pyPdf InfoViz.js Hierarquia ObsPy de Origem matplotlib
  • 82. Workflow de Transformação pymongo Índice de Facetas numpy scikit-learn NLTK Extração networkx gensim Navegação da Pre-processamento Hierarquia Hierarquia Resultante BeautifulSoup Iterador Visualização D3.js pyPdf InfoViz.js Hierarquia ObsPy de Origem matplotlib
  • 83. Workflow de Transformação pymongo Índice de Facetas numpy scikit-learn NLTK Extração networkx gensim Navegação da Pre-processamento Hierarquia Hierarquia Resultante BeautifulSoup Iterador Visualização D3.js pyPdf InfoViz.js os.walk Hierarquia evernote ObsPy de Origem pydelicious matplotlib
  • 85. Resumo • Organografos: metodologia, arquitetura,utilização • Capturar a tarefa por trás de uma organização • Avaliar, reorganizar e compartilhar. 27
  • 86. Agradecimentos • Laboratório de Sistemas de Informação (IC-Unicamp) http://www.lis.ic.unicamp.br • Brazilian Institute for Web Science Research http://webscience.org.br • Globo.com 28
  • 87. Obrigado a todos pela atenção. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rsenra@acm.org As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra. Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Em caso de alterações, favor consultar o autor. Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright.
  • 88. Execução de Organografo Workflow de Transformação Índice de Facetas FCat() Extração FHil() Navegação da Pre-processamento Hierarquia Hierarquia Resultante Iterador Hierarquia de Origem Usuário do Organografo Visualização
  • 89. Organicer 31
  • 90. Organicer 31
  • 91. Organicer 31
  • 92. Organicer 31
  • 93. Organicer 31