Cogroo Google Oss Jam Sao Paulo V01

1.192 visualizações

Publicada em

Apresentação do Corretor Gramatical Cogroo no Google OSS Jam

Publicada em: Tecnologia, Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.192
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
17
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Boa tarde Meu objetivo nessa palestra é apresentar o corretor gramatical Cogroo, que hoje é um projeto oficial do CCSL.
  • Breve motivação PLN O Cogroo é um aplicativo que usa Processamento de Linguagens Naturais - Mesmo sem saber usamos constantemente sistemas que aplicam a técnica de PLN em vários níveis EXEMPLO Quando fazemos uma busca na Web e o sistema oferece sugestões alternativas para a busca
  • A informação desestruturada tem um alto valor agregado, mas para as máquinas esta informação tem muito ruído , apresenta a semântica oculta e busca por dados contidos nesses documentos é ineficiente .
  • MOTIVAÇÃO – Killer Search Engine Como interagimos com os buscadores? PALAVRAS CHAVE Busca por termos, como consensuar, ou por fatos, datas e lugares, é simples mesmo para os buscadores atuais. Responder questões mais sofisticadas requer que informações sejam extraídas de diversas fontes na Web, e até mesmo fazendo inferências (tirar conclusões sobre dados conhecidos). PLN hoje está muito em alta com os buscadores atuais.
  • CoGrOO foi o primeiro, e ainda é o único, corretor gramatical de código aberto para a língua portuguesa. Desde a versão 2.0/3.0 já teve mais de 35 mil downloads, mas esse número não diz muito, pois muitos dos usuários de OOo no Brasil são empresas, tanto públicas quanto privadas.
  • Quando começamos em 2004 o processo de implementar uma extenção CG no OOo ainda era muito rudimentar. era dificílimo criar o corretor gramatical que rodasse sobre o sistema. A primeira versão da interface foi feita usando Basic. Em seguida, conhecendo melhor conseguimos implementar em Java usando UNO. Fomos pioneiros nessa integração e outros corretores em desenvolvimento adotaram nossa implementação. Ref Internacional Fato de muito orgulho para nós foi descobrir uma referencia para no nosso projeto no Linguateca e também saber que houveram derivações do CoGrOO, como o projeto Golfiño (Corretor Gramatical Galego)
  • FATOS
  • Demonstrar no Writer Explicar como funciona um corretor ortográfico. Explicar todos os desafios. Mostrar um erro que não é detectado e introduzir o cogroo
  • Cogroo Google Oss Jam Sao Paulo V01

    1. 1. William D. Colen M. Silva Graduado Engenharia da Computação – Poli USP 2006 Mestrando Ciência da Computação – IME USP 2009-? Desenvolvedor CoGrOO 2004-? Apresentação do Corretor Gramatical CoGrOO Open Source Jam São Paulo 1º de setembro de 2009
    2. 2. O que existe por trás do CoGrOO? Texto livre PLN
    3. 3. O que é Processamento de Linguagem Natural? <ul>É o que torna possível - <li>Tradutores automáticos
    4. 4. Corretores ortográficos e gramaticais
    5. 5. Buscadores (Web)
    6. 6. Ferramentas para Web Semântica
    7. 7. Indexadores para BI
    8. 8. Sugestões de compras
    9. 9. ... </li></ul>
    10. 10. Boa parte do conhecimento humano está em documentos difíceis de serem interpretados por computadores Informação: <ul><li>Alto valor
    11. 11. Mais atualizada
    12. 12. Mas..
    13. 13. Muito ruido
    14. 14. Semântica oculta
    15. 15. Busca ineficiente </li></ul>Texto, E-mail, Áudio, Video
    16. 16. Exemplo: busca na WEB - Qual o significado de “procrastinar”? - Quando nasceu Napoleão? - Quantas toneladas de café foram produzidas em 1901? - O que os cientistas pensam quanto a ética de experiências com células tronco? Que tal no lugar de fazer busca na Web usando palavra-chave, fazer perguntas diretas e específicas sobre um tema?
    17. 17. Apresentação do CoGrOO <ul><li>Primeiro (e atualmente único) corretor gramatical Livre para a língua portuguesa
    18. 18. Primeiro lançamento abril/2006
    19. 19. Mais de 44 mil downloads diretos (contando apenas da versão 2.0 em diante)
    20. 20. Estimativa: >> 100 mil usuários
    21. 21. Usado por empresas estatais e privadas. Algumas empresas tem ele instalado em milhares de máquinas
    22. 22. Reconhecido como um importante esforço para o desenvolvimento do BrOffice.org </li></ul>
    23. 23. Apresentação do CoGrOO <ul><li>Foi o primeiro corretor gramatical integrado ao OOo do mundo.
    24. 24. Segundo mais utilizado (perde apenas para o Language Tool, que suporta inglês).
    25. 25. O projeto Golfiño (Galego) foi criado a partir do CoGrOO.
    26. 26. Recebemos pedidos para criar versões do CoGrOO para outros idiomas, como português de Portugal e para o Espanhol.
    27. 27. Módulos foram para outros trabalhos, como por exemplo um grupo de pesquisa sobre saúde usou o CoGrOO na análise de prescrições medicas. </li></ul>
    28. 28. Apresentação do CoGrOO <ul><li>Hospedado pelo SourceForge
    29. 29. Desde 2009 é um projeto oficial do CCSL
    30. 30. Licença LGPL
    31. 31. Fácil instalação e uso
    32. 32. Atualizações frequentes
    33. 33. Apoio da comunidade
    34. 34. Já foi integrado com </li><ul><li>OpenOffice.org (Bruno Sant'Anna – Google SoC)
    35. 35. AbiWord (Gabriel Bakiewicz – Google SoC)
    36. 36. WebSevices LangBot Apoema (Bruno Sant'Anna) </li><ul><li>Firefox Ubiquity e iGoogle Gadget </li></ul></ul></ul>
    37. 37. Corretor ortográfico <ul><li>Usuário entra um texto
    38. 38. Verificador ortográfico tenta encontrar a palavra digitada em seu banco de dados
    39. 39. Caso a palavra não seja encontrada ele usa algoritmos de similaridade para encontrar possíveis correções </li></ul>
    40. 40. Corretor Gramatical <ul><li>Usuário entra um texto
    41. 41. O verificador executa uma análise gramatical e busca padrões de erros na estrutura gerada </li></ul><ul><li>O verificador sugere correções para o texto. </li></ul>
    42. 42. Integração BrOffice.org
    43. 43. Integração BrOffice.org
    44. 44. Integração BrOffice.org
    45. 45. Integração Firefox Ubiquity: http://apoema.net/langbot/pt_BR/gc.lb
    46. 49. Ferramentas de desenvolvimento: teste de regras
    47. 50. Ferramentas de desenvolvimento: busca no dicionário
    48. 51. Ferramentas de desenvolvimento: analisador de texto
    49. 52. Ferramentas de desenvolvimento: analisador de texto
    50. 53. Ferramentas de desenvolvimento: analisador de texto
    51. 54. Ferramentas de desenvolvimento: analisador de texto
    52. 55. Como você pode colaborar? <ul><li>(A) Melhorar a experiência do usuário – detectar falhas </li><ul><li>Filtrar problemas reportados, fazer investigação inicial de erros
    53. 56. Conversar com usuários em fóruns e gerenciar o Bug Track
    54. 57. Requisitos: expert em português, conhecer as capacidades e limitações do CoGrOO </li></ul><li>(B) Implementação e manutenção das regras </li><ul><li>Contato com (A) para implementar mudanças sugeridas pelos usuários
    55. 58. Requisitos: bom em português, raciocínio lógico e informática </li></ul><li>(C) Confecção e manutenção dos dicionários léxicos </li><ul><li>Contato com (A) para implementar mudanças sugeridas pelos usuários
    56. 59. Viabilizar união do dicionário ortográfico com o gramatical
    57. 60. Requisitos: bom em português, básico de programação </li></ul></ul>
    58. 61. Como você pode colaborar? <ul><li>Programador de interface gráfica </li><ul><li>Desenvolver aplicações que auxiliariam o trabalho de A, B e C: editores de dicionários, editores de regras etc
    59. 62. Requisitos: básico em programação OO, Java e Eclipse Plug-in </li></ul><li>Programador do motor de correção </li><ul><li>Manutenção do código, desenvolvimento de testes unitários, melhorias nos algoritmos (tempo e uso de memória)
    60. 63. Requisitos: experiência em programação OO, Java multithread, Maven e Junit </li></ul><li>Tecnologia e qualidade </li><ul><li>Aplicar integração continua, builds diários, criar e manter a página do projeto
    61. 64. Requisitos: qualidade de software </li></ul></ul>
    62. 65. Como você pode ajudar? <ul><li>Pesquisadores (IC, Mestrado e Doutorado) </li><ul><li>Melhorar os diversos analisadores do CoGrOO </li></ul><li>Doação de recursos financeiros
    63. 66. Oferecimento de bolsas de Iniciação Científica, Mestrado, Doutorado e pós-doutorado.
    64. 67. Recursos linguísticos – Corpus, léxico </li></ul>
    65. 68. <ul><li>Nasceu em 2009
    66. 69. Instância do Qualipso Competence Centre no Brasil - melhorar a confiabilidade e qualidade do FLOSS
    67. 70. Áreas de pesquisa: qualidade de código-fonte; aspectos jurídicos (licenças); usabilidade; processo ágil de desenvolvimento; testes automatizados; modelos de negócios para start-ups etc.
    68. 71. Objetivos: </li><ul><li>pesquisa científica e tecnológica relacionada a Software Livre
    69. 72. Desenvolvimento de Software Livre inovador
    70. 73. Disseminação de conhecimento sobre Software Livre </li></ul></ul>http://ccsl.ime.usp.br
    71. 74. http://ccsl.ime.usp.br
    72. 75. Obrigado pela oportunidade e pela atenção! [email_address] http://cogroo.sourceforge.net

    ×