SlideShare uma empresa Scribd logo
1 de 42
Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte
http://dicionario-aberto.net
Tarefa 1: Criar utilizador no Dicionário-Aberto.
1. Aceder ao sítio do dicionário;
2. Usar ligação “entrar/registar”;
3. Preencher formulário “registar”;
4. Visitar caixa do correio, e esperar pelo e-mail de registo;
5. Confirmar registo no sítio do dicionário;
6. Entrar no sítio do dicionário com o utilizador criado.
Parte I
História do Dicionário Aberto
Não existência de um “dicionário livre de língua”, da
língua Portuguesa para PLN:
Disponível para acesso local;
Disponível em formato electrónico;
Disponível em formato legível por computador;
Motivação
Inexistência de mão de obra para a criação de um
dicionário de raiz;
Inexistência de editoras interessadas em
disponibilizar versões livres dos seus dicionários;
Existência de dicionários com mais de 90 anos, no
domínio público… em formato papel!
Problemas
Desafiar equipa portuguesa dos Distributed
Proofreaders do Projecto Gutenberg para transcrever
um destes dicionários;
Dicionário escolhido: Novo Diccionário da Língua
Portuguesa de Cândido de Figueiredo (1913)
Razão: digitalizado (imagens) pela Biblioteca Nacional.
Desafio
Processo demorado, por etapas, por voluntários;
Obrigado, Manuela!
Revisto por mais voluntários;
Obrigado, Rita!
Processo com mais de quatro anos!
Transcrição
Transcrição num dialecto tipo Wiki;
Adição diária de 100/200 palavras, desde início de 2007;
Sítio on-line a partir de Junho de 2007!
Palavras adicionadas disponíveis no dia seguinte!
Incorporação terminada a 2 de Março de 2010!
Incorporação
Estatísticas
Estatísticas
Formato usado simples para ser aprendido e usado
pelos voluntários;
Formato demasiado vago e ambíguo;
Transformação num formato XML rico;
Subconjunto do TEI para dicionários;
De forma completamente automática!!
Estruturação
Dicionário com grafia de 1913!
Modernização da grafia de forma semi-automática:
1. Construção de regras de conversão;
2. Validação manual!
3. Voluntários responsáveis, precisam-se.!
Modernização
Modernização
Disponível em PDF e Base de Dados SQL;
Disponível como motor de pesquisa para Firefox;
Disponível em ePub;
Disponível em StarDict;
Disponível em API RESTless:
Aplicação para iOS disponível;
Aplicação para Android e Win8 em desenvolvimento.
Outras Funcionalidades
Parte II
Interface Geral
Pesquisa Simples
Sugestões “léxicas”
Folhear o Dicionário
Palavra aleatória
Palavras “Favoritas”
Histórico Ortográfico
Parte III
Pesquisa Avançada
Pesquisa por afixos;
Ocorrências nas definições;
Relações léxico-conceptuais entre termos
introduzidos;
Resultados ordenados por relevância.
Pesquisa Avançada
Pesquisa por “prefixo”
Pesquisa por “sufixo”
Pesquisa de “infixos”
base de dados conceptuais / dicionário onomasiológico / dicionário de
produção ou codificador
(mais do que um thesaurus, que ordena palavras por sinónimos,
hiperónimos ou outras relações léxico-conceptuais)
Pesquisa Reversa
dicionário codificador:
endurecer + metal ⇒ temperar
Pesquisa Reversa
Criação de uma ontologia de forma automática
usando padrões (Hearst 1992)
Pesquisa Ontológica
Pesquisa Ontológica
Completação da Ontologia por regras matemáticas
Permite que se use informação incompleta:
Verbete A indica sinonímia com B.
Verbete B não faz qualquer referência a A…
Estrutura Ontológica
Pesquisa Ontológica
Parte IV
Exercícios
Palavras Cruzadas:
_ _ _ _ _ _ _ F E U (Vértebra; 10 letras)
E P I _ _ _ _ _ _ _ (Vértebra; 10 letras)
Procura por Afixos
Dicionário de Rimas (gráficas)
Que palavras rimam com “camafeu”?
Pesquisa por Afixos
Estudo de Morfologia (produtividade de afixos):
Todos os adjectivos em -vel (como amável) podem
formar advérbios em -velmente (amavelmente)?
Pesquisa por Afixos
Estudo de Morfologia (produtividade de afixos):
Um professor de Língua Portuguesa disse aos alunos que o
sufíxo "-ería" em Espanhol, é sempre "-aria" em Português.
cafeteríaES = cafetariaPT
É verdade?
Pesquisa por Afixos
Dicionários Ideológicos/Onomasiológicos:
O que acontece à “água” com o “frio”?
Quem é o “médico” dos “olhos”?
Que palavras derivam do prefixo grego “orthos”?
Pesquisa Reversa
Procurar “sargaço”.
O que difere da pesquisa reversa?
Pesquisa Ontológica
Procurar “pirilampo” na pesquisa reversa, e na
pesquisa ontológica.
Quais são as diferenças?
Pesquisa Ontológica
Que variedades de oliveiras (ou “espécie de
oliveiras”) há?
Uso da pesquisa reversa
Uso da pesquisa ontológica
Pesquisa Ontológica
Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte

Mais conteúdo relacionado

Semelhante a Making the most of a 100-year-old dictionary (8)

Apresentação Dicionário 22
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22
 
DicionáRio
DicionáRioDicionáRio
DicionáRio
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Webofscience2011
Webofscience2011Webofscience2011
Webofscience2011
 
Glossário APDSI para a Sociedade da Informação v2007
Glossário APDSI para a Sociedade da Informação v2007Glossário APDSI para a Sociedade da Informação v2007
Glossário APDSI para a Sociedade da Informação v2007
 
Obras de referência
Obras de referênciaObras de referência
Obras de referência
 
Referências bibliográficas outubro 2021
Referências bibliográficas   outubro 2021Referências bibliográficas   outubro 2021
Referências bibliográficas outubro 2021
 
Linguística de Corpus, Terminologia e Tradução
Linguística de Corpus, Terminologia e TraduçãoLinguística de Corpus, Terminologia e Tradução
Linguística de Corpus, Terminologia e Tradução
 

Mais de Alberto Simões

Mais de Alberto Simões (20)

Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 

Último

clubinho-bio-2.pdf vacinas saúde importância
clubinho-bio-2.pdf vacinas saúde importânciaclubinho-bio-2.pdf vacinas saúde importância
clubinho-bio-2.pdf vacinas saúde importância
LuanaAlves940822
 
AS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdf
AS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdfAS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdf
AS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdf
ssuserbb4ac2
 
Plano de aula ensino fundamental escola pública
Plano de aula ensino fundamental escola públicaPlano de aula ensino fundamental escola pública
Plano de aula ensino fundamental escola pública
anapsuls
 

Último (20)

ufcd_9649_Educação Inclusiva e Necessidades Educativas Especificas_índice.pdf
ufcd_9649_Educação Inclusiva e Necessidades Educativas Especificas_índice.pdfufcd_9649_Educação Inclusiva e Necessidades Educativas Especificas_índice.pdf
ufcd_9649_Educação Inclusiva e Necessidades Educativas Especificas_índice.pdf
 
prova do exame nacional Port. 2008 - 2ª fase - Criterios.pdf
prova do exame nacional Port. 2008 - 2ª fase - Criterios.pdfprova do exame nacional Port. 2008 - 2ª fase - Criterios.pdf
prova do exame nacional Port. 2008 - 2ª fase - Criterios.pdf
 
Poema - Reciclar é preciso
Poema            -        Reciclar é precisoPoema            -        Reciclar é preciso
Poema - Reciclar é preciso
 
Apresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativosApresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativos
 
análise obra Nós matamos o cão Tinhoso.pdf
análise obra Nós matamos o cão Tinhoso.pdfanálise obra Nós matamos o cão Tinhoso.pdf
análise obra Nós matamos o cão Tinhoso.pdf
 
Trabalho sobre as diferenças demograficas entre EUA e Senegal
Trabalho sobre as diferenças demograficas entre EUA e SenegalTrabalho sobre as diferenças demograficas entre EUA e Senegal
Trabalho sobre as diferenças demograficas entre EUA e Senegal
 
PLANO DE ESTUDO TUTORADO COMPLEMENTAR 1 ANO 1 BIMESTRE.pdf
PLANO DE ESTUDO TUTORADO COMPLEMENTAR 1 ANO 1 BIMESTRE.pdfPLANO DE ESTUDO TUTORADO COMPLEMENTAR 1 ANO 1 BIMESTRE.pdf
PLANO DE ESTUDO TUTORADO COMPLEMENTAR 1 ANO 1 BIMESTRE.pdf
 
Slides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptx
Slides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptxSlides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptx
Slides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptx
 
Memórias_póstumas_de_Brás_Cubas_ Machado_de_Assis
Memórias_póstumas_de_Brás_Cubas_ Machado_de_AssisMemórias_póstumas_de_Brás_Cubas_ Machado_de_Assis
Memórias_póstumas_de_Brás_Cubas_ Machado_de_Assis
 
clubinho-bio-2.pdf vacinas saúde importância
clubinho-bio-2.pdf vacinas saúde importânciaclubinho-bio-2.pdf vacinas saúde importância
clubinho-bio-2.pdf vacinas saúde importância
 
AS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdf
AS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdfAS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdf
AS COLUNAS B E J E SUAS POSICOES CONFORME O RITO.pdf
 
Plano de aula ensino fundamental escola pública
Plano de aula ensino fundamental escola públicaPlano de aula ensino fundamental escola pública
Plano de aula ensino fundamental escola pública
 
Diálogo Crátilo de Platão sócrates daspdf
Diálogo Crátilo de Platão sócrates daspdfDiálogo Crátilo de Platão sócrates daspdf
Diálogo Crátilo de Platão sócrates daspdf
 
Enunciado_da_Avaliacao_1__Sociedade_Cultura_e_Contemporaneidade_(ED70200).pdf
Enunciado_da_Avaliacao_1__Sociedade_Cultura_e_Contemporaneidade_(ED70200).pdfEnunciado_da_Avaliacao_1__Sociedade_Cultura_e_Contemporaneidade_(ED70200).pdf
Enunciado_da_Avaliacao_1__Sociedade_Cultura_e_Contemporaneidade_(ED70200).pdf
 
Exercícios de Clima no brasil e no mundo.pdf
Exercícios de Clima no brasil e no mundo.pdfExercícios de Clima no brasil e no mundo.pdf
Exercícios de Clima no brasil e no mundo.pdf
 
"Nós Propomos! Mobilidade sustentável na Sertã"
"Nós Propomos! Mobilidade sustentável na Sertã""Nós Propomos! Mobilidade sustentável na Sertã"
"Nós Propomos! Mobilidade sustentável na Sertã"
 
UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...
UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...
UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...
 
Semana Interna de Prevenção de Acidentes SIPAT/2024
Semana Interna de Prevenção de Acidentes SIPAT/2024Semana Interna de Prevenção de Acidentes SIPAT/2024
Semana Interna de Prevenção de Acidentes SIPAT/2024
 
Slides Lição 8, Central Gospel, Os 144 Mil Que Não Se Curvarão Ao Anticristo....
Slides Lição 8, Central Gospel, Os 144 Mil Que Não Se Curvarão Ao Anticristo....Slides Lição 8, Central Gospel, Os 144 Mil Que Não Se Curvarão Ao Anticristo....
Slides Lição 8, Central Gospel, Os 144 Mil Que Não Se Curvarão Ao Anticristo....
 
Slides Lição 9, CPAD, Resistindo à Tentação no Caminho, 2Tr24.pptx
Slides Lição 9, CPAD, Resistindo à Tentação no Caminho, 2Tr24.pptxSlides Lição 9, CPAD, Resistindo à Tentação no Caminho, 2Tr24.pptx
Slides Lição 9, CPAD, Resistindo à Tentação no Caminho, 2Tr24.pptx
 

Making the most of a 100-year-old dictionary

Notas do Editor

  1. transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
  2. Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
  3. Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
  4. Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo:    HIPER   que tem por tipo [ao]s? ([^;:.,]+)   HIPER  a que pertencem? [oa]s? ([^;:.,]+)   HIPER  a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
  5. Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
  6. Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
  7. Exemplo de pesquisa reversa com terminado por (sufixo)
  8. Caso real ! (um pouco adaptado, para não dar nas vistas)
  9. Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)