Bigorna

759 visualizações

Publicada em

Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).

Publicada em: Tecnologia, Diversão e humor
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
759
No SlideShare
0
A partir de incorporações
0
Número de incorporações
22
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Bigorna

  1. 1. Projecto Bigorna Andr´ Santos e pg15973@alunos.uminho.pt Dep. Inform´tica, UM a 13 de Abril de 2010
  2. 2. Projecto Bigorna conjunto de ferramentas para desafios de migra¸˜o ortogr´fica ca a motivado pelo Acordo Ortogr´fico de 1990 a projecto para o Sapo Summerbits 2009 evoluiu para problemas gen´ricos de migra¸˜es de grafias e co Andr´ Santos, MEI, UM e Jos´ Jo˜o Almeida, DI, UM e a Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  3. 3. Contexto - Acordo Ortogr´fico de 1990 a altera¸˜es ditadas pelo acordo n˜o podem ser determinadas co a automaticamente porque se baseiam em crit´rios fon´ticos e e e por vezes podem ser amb´ ıguas; ´ importante manter uma Base de Conhecimento do Acordo e Ortogr´fico, uma tabela contendo lemas, altera¸˜es e regras a co baseada nas listas existentes; Como determinar quais as palavras candidatas a integrar a BCAO? Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  4. 4. Trabalho desenvolvido recolher recursos ligados ao AO1990 criar um corrector ortogr´fico para a actualiza¸˜o do a ca Portuguˆs e criar um conversor de textos para a nova vers˜o a criar um classificador de textos construir ferramentas capazes de inferir regras de mudan¸a a c partir de bi-textos Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  5. 5. Recursos dicion´rios, conversores, listas de palavras a lista do ILTEC, com cerca de 9000 entradas Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  6. 6. Lista do ILTEC PT :: BR :: OA1990 :: prefPT :: prefBR :: Comm ancil´ide :: ancil´ide :: anciloide :: anciloide :: anciloide :: o o ancir´ide :: ancir´ide :: anciroide :: anciroide :: anciroide :: o o androgin´ide :: androgin´ide :: androginoide :: androginoide :: androgin o o andr´ide :: andr´ide :: androide :: androide :: androide :: o o anec´ico :: anec´ico :: anecoico :: anecoico :: anecoico :: o o anel´ctrico :: anel´trico, anel´ctrico :: anel´trico, anel´ctrico :: e e e e e anel´trico :: anel´ctrico,anel´trico :: anel´ctrico nPT e e e e Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  7. 7. Actualiza¸˜o do dicion´rio ca a Ponto de partida: jspell (gerado na UM, propagado para outros dicion´rios com o Chuveiro de Dicion´rios) a a actualiza¸˜o a partir da lista do ILTEC ca Depois de expandidas as actualiza¸˜es, foram obtidas 11500 co palavras Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  8. 8. jspell acalentar/#vt/XYPLD/ coiote/#nm/p/ laico/#a/fidp/ zinco/#nm// Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  9. 9. Ferramentas de convers˜o a dois conversores: pt2ptao e br2brao usadas as regras de expans˜o do jspell e a lista do ILTEC a Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  10. 10. Convers˜o - Exemplo a $ pt2ptao A adop¸~o do acordo implica a actualiza¸~o de algumas ca ca A ado¸~o do acordo implica a atualiza¸~o de algumas fe ca ca $ br2brao Ele fez um v^o rasante sobre a ar´ia. o e Ele fez um voo rasante sobre a areia. Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  11. 11. Classificador procura cada palavra de um texto em dicion´rios PT-PT e a PT-BR no fim, considera-se que o texto pertence ` linguagem que a fizer mais matches Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  12. 12. Classifica¸˜o - Exemplo ca $ whichPT AmorPerd.ptPT AmorPerd.ptBR AmorPerd.ptPT pt AmorPerd.ptBR br Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  13. 13. Compara¸˜o l´xica ca e ferramentas capazes de, atrav´s da an´lise de textos, construir e a programas para auxiliar em migra¸˜es co script para detectar diferen¸as lingu´ c ısticas entre duas vers˜es o de um texto Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  14. 14. lexdiff - Exemplo $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head 32 acad´mico => acad^mico e e 16 Vila Real => Vila-Real 14 ideia => id´ia e 12 redarguiu => redarg¨iu u 7 g´nio => g^nio e e 6 cinquenta => cinq¨enta u 5 Ant´nio => Ant^nio o o 4 reflectiu => refletiu 4 projectos => projetos Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  15. 15. lexdiff - Exemplo $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head 36 et => ect 34 d^m => d´m e e 18 d´i => dei e 17 g¨i => gui u 15 q¨e => que u 11 g^n => g´n e e 9 m^n => m´n o o 8 at => act 7 q¨i => qui u 7 e¸ => ec¸ c c Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  16. 16. Projecto Bigorna Andr´ Santos e pg15973@alunos.uminho.pt Dep. Inform´tica, UM a 13 de Abril de 2010

×