Making the most of a 100-year-old dictionary

641 visualizações

Publicada em

A presentation about Dicionário-Aberto, the project, current status, and applications.

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
641
No SlideShare
0
A partir de incorporações
0
Número de incorporações
11
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
  • Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
  • Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
  • Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo:    HIPER   que tem por tipo [ao]s? ([^;:.,]+)   HIPER  a que pertencem? [oa]s? ([^;:.,]+)   HIPER  a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
  • Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
  • Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
  • Exemplo de pesquisa reversa com terminado por (sufixo)
  • Caso real ! (um pouco adaptado, para não dar nas vistas)
  • Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)
  • Making the most of a 100-year-old dictionary

    1. 1. Making the most of a 100-year-old dictionary Alberto Simões, Álvaro Iriarte
    2. 2. http://dicionario-aberto.net Tarefa 1: Criar utilizador no Dicionário-Aberto. 1. Aceder ao sítio do dicionário; 2. Usar ligação “entrar/registar”; 3. Preencher formulário “registar”; 4. Visitar caixa do correio, e esperar pelo e-mail de registo; 5. Confirmar registo no sítio do dicionário; 6. Entrar no sítio do dicionário com o utilizador criado.
    3. 3. Parte I História do Dicionário Aberto
    4. 4. Não existência de um “dicionário livre de língua”, da língua Portuguesa para PLN: Disponível para acesso local; Disponível em formato electrónico; Disponível em formato legível por computador; Motivação
    5. 5. Inexistência de mão de obra para a criação de um dicionário de raiz; Inexistência de editoras interessadas em disponibilizar versões livres dos seus dicionários; Existência de dicionários com mais de 90 anos, no domínio público… em formato papel! Problemas
    6. 6. Desafiar equipa portuguesa dos Distributed Proofreaders do Projecto Gutenberg para transcrever um destes dicionários; Dicionário escolhido: Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo (1913) Razão: digitalizado (imagens) pela Biblioteca Nacional. Desafio
    7. 7. Processo demorado, por etapas, por voluntários; Obrigado, Manuela! Revisto por mais voluntários; Obrigado, Rita! Processo com mais de quatro anos! Transcrição
    8. 8. Transcrição num dialecto tipo Wiki; Adição diária de 100/200 palavras, desde início de 2007; Sítio on-line a partir de Junho de 2007! Palavras adicionadas disponíveis no dia seguinte! Incorporação terminada a 2 de Março de 2010! Incorporação
    9. 9. Estatísticas
    10. 10. Estatísticas
    11. 11. Formato usado simples para ser aprendido e usado pelos voluntários; Formato demasiado vago e ambíguo; Transformação num formato XML rico; Subconjunto do TEI para dicionários; De forma completamente automática!! Estruturação
    12. 12. Dicionário com grafia de 1913! Modernização da grafia de forma semi-automática: 1. Construção de regras de conversão; 2. Validação manual! 3. Voluntários responsáveis, precisam-se.! Modernização
    13. 13. Modernização
    14. 14. Disponível em PDF e Base de Dados SQL; Disponível como motor de pesquisa para Firefox; Disponível em ePub; Disponível em StarDict; Disponível em API RESTless: Aplicação para iOS disponível; Aplicação para Android e Win8 em desenvolvimento. Outras Funcionalidades
    15. 15. Parte II Interface Geral
    16. 16. Pesquisa Simples
    17. 17. Sugestões “léxicas”
    18. 18. Folhear o Dicionário
    19. 19. Palavra aleatória
    20. 20. Palavras “Favoritas”
    21. 21. Histórico Ortográfico
    22. 22. Parte III Pesquisa Avançada
    23. 23. Pesquisa por afixos; Ocorrências nas definições; Relações léxico-conceptuais entre termos introduzidos; Resultados ordenados por relevância. Pesquisa Avançada
    24. 24. Pesquisa por “prefixo”
    25. 25. Pesquisa por “sufixo”
    26. 26. Pesquisa de “infixos”
    27. 27. base de dados conceptuais / dicionário onomasiológico / dicionário de produção ou codificador (mais do que um thesaurus, que ordena palavras por sinónimos, hiperónimos ou outras relações léxico-conceptuais) Pesquisa Reversa
    28. 28. dicionário codificador: endurecer + metal ⇒ temperar Pesquisa Reversa
    29. 29. Criação de uma ontologia de forma automática usando padrões (Hearst 1992) Pesquisa Ontológica
    30. 30. Pesquisa Ontológica Completação da Ontologia por regras matemáticas Permite que se use informação incompleta: Verbete A indica sinonímia com B. Verbete B não faz qualquer referência a A…
    31. 31. Estrutura Ontológica
    32. 32. Pesquisa Ontológica
    33. 33. Parte IV Exercícios
    34. 34. Palavras Cruzadas: _ _ _ _ _ _ _ F E U (Vértebra; 10 letras) E P I _ _ _ _ _ _ _ (Vértebra; 10 letras) Procura por Afixos
    35. 35. Dicionário de Rimas (gráficas) Que palavras rimam com “camafeu”? Pesquisa por Afixos
    36. 36. Estudo de Morfologia (produtividade de afixos): Todos os adjectivos em -vel (como amável) podem formar advérbios em -velmente (amavelmente)? Pesquisa por Afixos
    37. 37. Estudo de Morfologia (produtividade de afixos): Um professor de Língua Portuguesa disse aos alunos que o sufíxo "-ería" em Espanhol, é sempre "-aria" em Português. cafeteríaES = cafetariaPT É verdade? Pesquisa por Afixos
    38. 38. Dicionários Ideológicos/Onomasiológicos: O que acontece à “água” com o “frio”? Quem é o “médico” dos “olhos”? Que palavras derivam do prefixo grego “orthos”? Pesquisa Reversa
    39. 39. Procurar “sargaço”. O que difere da pesquisa reversa? Pesquisa Ontológica
    40. 40. Procurar “pirilampo” na pesquisa reversa, e na pesquisa ontológica. Quais são as diferenças? Pesquisa Ontológica
    41. 41. Que variedades de oliveiras (ou “espécie de oliveiras”) há? Uso da pesquisa reversa Uso da pesquisa ontológica Pesquisa Ontológica
    42. 42. Making the most of a 100-year-old dictionary Alberto Simões, Álvaro Iriarte

    ×