beta
                      CoGrOO 4.0
                                                                 26 de julho de 2012
FISL 13
13º Fórum Internacional de Software Livre – A tecnologia que liberta

                                      Arthur Branco Costa
                                             William Colen




                                      cogroo.org                                       1
O que é o CoGrOO?


   CoGrOO é um corretor gramatical para
português do Brasil, que pode ser usado nas
    principais suítes livres de escritório.




                   cogroo.org                 2
●   Usuário entra um texto
●   O verificador executa
    uma análise
    gramatical e busca
    padrões de erros na
    estrutura gerada
●   O verificador sugere correções para o texto.




                             cogroo.org            3
Integração BrOffice.org




           cogroo.org     4
Integração BrOffice.org




           cogroo.org     5
Integração BrOffice.org




           cogroo.org     6
Como funciona?
●   Processamento de Linguagem Natural probabilística +
    sistema de regras:
    ●   Aprendizado de máquina usando corpus na fase de análise
    ●   Regras de erros são aplicados nas estruturas resultantes




                                    cogroo.org                     7
Como funciona?




   http://ccsl.ime.usp.br/cogroo/comunidade/grammar
      cogroo.org                                      8
Como funciona?




   http://ccsl.ime.usp.br/cogroo/comunidade/grammar
      cogroo.org                                      9
Analisador de Textos
●   Delimitador de sentenças e tokens
●   Etiquetador morfológico
●   Identificador de sintagmas
●   Identificador de sujeitos
●   Etc...




                                cogroo.org   10
Como funciona?




      http://ccsl.ime.usp.br/cogroo/comunidade/rules
     cogroo.org                                    11
As versões do CoGrOO
●   CoGrOO 1.0 – 2005 (Poli-USP, FINEP)
    ●   Perl – n-gramas
    ●   Primeiro corretor gramatical integrado ao OO (no mundo!)
    ●   Regras XML
●   CoGrOO 2.0 – 2007 (Poli-USP, TCC)
    ●   Primeira versão usando Java + OpenNLP
●   CoGrOO 3.0 – 2009 (órfão, depois CCSL)
    ●   Primeira versão totalmente integrada ao OO (instalador OXT, cobrinha
        azul – OO 3.0)
    ●   CoGrOO Comunidade




                                    cogroo.org                                 12
CoGrOO 4.0 (2012)
●   Nova licença: Apache 2.0 (antes era LGPL)
    ●   Compatível tanto com o LibreOffice quanto com o Apache
        OpenOffice
    ●   Menores restrições de uso




                              cogroo.org                         13
Novidades
●   Núcleo reescrito do zero!
    ●   Desde 2009 → colaboração com o Apache OpenNLP
         –   Grande parte do código de avaliação e treinamento foi transferido
             para o Apache OpenNLP
    ●   Benefícios:
         –   Maior qualidade na implementação (mais olhos)
         –   Menor quantidade de linhas de código para manutenção
         –   Maior proporção do código trata apenas de correção gramatical


                                             Apache




                                     cogroo.org                                  14
Novidades
●   Regras plugáveis: checkers
    ●   3 tipos
         –   XML: arquivo de configuração
         –   Regras em Java
              ● Tipadas (deprecated)
              ● Livres


         –   Regras de regência (em implementação, participação de alunas da
             UFMG)




                                    cogroo.org                                 15
Novidades
●   Novos recursos linguísticos (meu mestrado)
    ●   Modelos linguíticos treinados com um novo corpus
    ●   Novo dicionário (Jspell.br)
    Ganho nas análises gramaticais!




                                cogroo.org                 16
Novidades
●   Repositório central Maven (quanto tivermos
    release)
●   Nova API
    ●   Muito mais modular
    ●   Pronta para novos idiomas!
    ●   http://ccsl.ime.usp.br/redmine/projects/cogroo/wiki/API_CoGrOO_4x




                                   cogroo.org                               17
API




cogroo.org   18
API




cogroo.org   19
API




cogroo.org   20
E está pronto para usar!!




          cogroo.org        21
Código no GitHub




      cogroo.org   22
Código no GitHub




      cogroo.org   23
Código no GitHub




      cogroo.org   24
Obrigado pela oportunidade e pela atenção!


               http://cogroo.org
             http://ccsl.ime.usp.br




                     cogroo.org              25

CoGrOO 4.0 no FISL 13

  • 1.
    beta CoGrOO 4.0 26 de julho de 2012 FISL 13 13º Fórum Internacional de Software Livre – A tecnologia que liberta Arthur Branco Costa William Colen cogroo.org 1
  • 2.
    O que éo CoGrOO? CoGrOO é um corretor gramatical para português do Brasil, que pode ser usado nas principais suítes livres de escritório. cogroo.org 2
  • 3.
    Usuário entra um texto ● O verificador executa uma análise gramatical e busca padrões de erros na estrutura gerada ● O verificador sugere correções para o texto. cogroo.org 3
  • 4.
  • 5.
  • 6.
  • 7.
    Como funciona? ● Processamento de Linguagem Natural probabilística + sistema de regras: ● Aprendizado de máquina usando corpus na fase de análise ● Regras de erros são aplicados nas estruturas resultantes cogroo.org 7
  • 8.
    Como funciona? http://ccsl.ime.usp.br/cogroo/comunidade/grammar cogroo.org 8
  • 9.
    Como funciona? http://ccsl.ime.usp.br/cogroo/comunidade/grammar cogroo.org 9
  • 10.
    Analisador de Textos ● Delimitador de sentenças e tokens ● Etiquetador morfológico ● Identificador de sintagmas ● Identificador de sujeitos ● Etc... cogroo.org 10
  • 11.
    Como funciona? http://ccsl.ime.usp.br/cogroo/comunidade/rules cogroo.org 11
  • 12.
    As versões doCoGrOO ● CoGrOO 1.0 – 2005 (Poli-USP, FINEP) ● Perl – n-gramas ● Primeiro corretor gramatical integrado ao OO (no mundo!) ● Regras XML ● CoGrOO 2.0 – 2007 (Poli-USP, TCC) ● Primeira versão usando Java + OpenNLP ● CoGrOO 3.0 – 2009 (órfão, depois CCSL) ● Primeira versão totalmente integrada ao OO (instalador OXT, cobrinha azul – OO 3.0) ● CoGrOO Comunidade cogroo.org 12
  • 13.
    CoGrOO 4.0 (2012) ● Nova licença: Apache 2.0 (antes era LGPL) ● Compatível tanto com o LibreOffice quanto com o Apache OpenOffice ● Menores restrições de uso cogroo.org 13
  • 14.
    Novidades ● Núcleo reescrito do zero! ● Desde 2009 → colaboração com o Apache OpenNLP – Grande parte do código de avaliação e treinamento foi transferido para o Apache OpenNLP ● Benefícios: – Maior qualidade na implementação (mais olhos) – Menor quantidade de linhas de código para manutenção – Maior proporção do código trata apenas de correção gramatical Apache cogroo.org 14
  • 15.
    Novidades ● Regras plugáveis: checkers ● 3 tipos – XML: arquivo de configuração – Regras em Java ● Tipadas (deprecated) ● Livres – Regras de regência (em implementação, participação de alunas da UFMG) cogroo.org 15
  • 16.
    Novidades ● Novos recursos linguísticos (meu mestrado) ● Modelos linguíticos treinados com um novo corpus ● Novo dicionário (Jspell.br) Ganho nas análises gramaticais! cogroo.org 16
  • 17.
    Novidades ● Repositório central Maven (quanto tivermos release) ● Nova API ● Muito mais modular ● Pronta para novos idiomas! ● http://ccsl.ime.usp.br/redmine/projects/cogroo/wiki/API_CoGrOO_4x cogroo.org 17
  • 18.
  • 19.
  • 20.
  • 21.
    E está prontopara usar!! cogroo.org 21
  • 22.
    Código no GitHub cogroo.org 22
  • 23.
    Código no GitHub cogroo.org 23
  • 24.
    Código no GitHub cogroo.org 24
  • 25.
    Obrigado pela oportunidadee pela atenção! http://cogroo.org http://ccsl.ime.usp.br cogroo.org 25