Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Sumário
Introdução
Fundamentação Teórica
Proposta de trabalho
Estudo de Caso
Resultados Esperados
Planejamento

O que são Ontologias?
Servem como
esquemas de
metadados
[MAEDCHE, 2001];
Fornecendo um
vocabulário
controlado de
conceitos
[MAEDCHE, 2001];
Compostas por
[DRUMOND, 2009]:
• conceitos,
relacionamentos
taxonômicos e não
taxonômicos, instâncias
dos conceitos e
asserções/regras;
Podem definir um
conjunto de
primitivas de
representação para
modelar um domínio
de conhecimento
[GRUBER, 2008].
É uma visão abstrata
do mundo que se
deseja representar.
[GRUBER, 1995]

Problemas Encontrados
Inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa.
Poucas ontologias construídas na língua portuguesa.
Poucos trabalhos científicos sobre construção de ontologias na língua portuguesa
Reduzido o número de Grupos de Pesquisa no Brasil sobre construção de Ontologias.
A aprendizagem das ontologias depende da linguística utilizada.

Hipótese
Como criar ontologias de forma
semi-automatizada a partir de
documentos textuais que
descrevem o modelo de
domínio da Segurança Pública?

Objetivos
1 - Projetar
um arcabouço
computacional
2 - Criar um
arcabouço
computacional
4 - Validar a
construção de
ontologias na
área
estudada.
3 - Realizar o
Estudo de
Caso na área
de Segurança
Pública

Processo de Extração de Ontologias
Pré-
Processamento
Extração Termos
Identificação de
Conceitos
Extração de
Relações
Gerador de
Ontologias Ontologias
[CIMIANO, 2006] adaptado

Pré-Processamento
Analisador
Seleção Importador
Conversor
PDF/Doc/XLS
e etc
UTF-8
Streaming/
Tokenização
Saída StopList

Extração de Termos
Pesagem dos Termos
métodos
estatísticos
TF-DCF
[LOPES, 2012]
Filtragem de Lixo
Entrada
StopList
Refinagem
Gerador de
Termos
Candidatos
UTF-8

Identificador de Conceitos
Etiquetagem
Morfossintática
[DOMINGUES, 2007]
hipótese de Markov
[DOMINGUES, 2011]
Gerador da Lista de
Conceitos
UTF-8

Extração de Relações
Taxonômicas
Relações
hierárquicas
Não-taxonômicas
Abordagem de
SERRA
Gerador da Lista de
Relações
UTF-8

Estruturação das Ontologias
Gerador da
estrutura
Memória RAM
Exportador
OWL RDF

Visualização
Integrador
Protegé
Validação
Manual
Exportador
PDF

Estudo de Caso
Segurança Pública – Convênio entre SSP/GO e UFG
Documentos digitais disponíveis (Livros, Trabalhos
Acadêmicos, Periódicos).
Etapa manual de treinamento e validação

Resultados Esperados
Sabença: Um arcabouço computacional
Semi-automatizado
Desenvolvido
na linguagem
Java
Extensível
para novos
métodos e
padrões
Modelo
documentado
Ontologias na
área de
Segurança
Pública.

Conclusão
A automatização completa da aprendizagem de ontologias é algo estudado
por décadas e de difícil realização.
O maior desafio é a criação das regras (axiomas) que acredito ser o gargalo
da automatização. As regras são dificílimas para o ser humano construir e não
chegamos a técnicas satisfatórias que recriem esse intelecto humano.
O arcabouço proposto se enquadra como semi-automatizado por não
implementar os axiomas e a sua validação será manual com ajuda de
especialista de domínio.

Referências
BUITELAAR, P.; BUITELAAR, P.; CIMIANO, P. Ontology Learning and
Population: Bridging the Gap between Text and Knowledge - Volume
167 Frontiers in Artificial Intelligence and Applications. IOS Press,
Amsterdam, The Netherlands, The Netherlands, 2008.
BUITELAAR, P.; OLEJNIK, D.; SINTEK, M. A protege plug-in for ontology
extraction from text based on linguistic analysis. In: Proceedings of the
1st European Semantic Web Symposium (ESWS), Heraklion, Greece, 2004.

Referências
CAO, Y.; WANG, X.; ZHANG, F.; YANG, W. Ontology-based domain
knowledge acquisition technology. In: Computational Intelligence and
Design (ISCID), 2012 Fifth International Symposium on, volume 2, p. 487–
490, Oct 2012.
CARVALHEIRA, L. C. D. C. Método semi-automático de construção de
ontologias parciais de domínio com base em textos. Master’s thesis,
Escola Politécnica da Universidade de São Paulo, Departamento de
Engenharia da Computação e Sistemas Digitais, ago 2007.

Referências
CIARAMITA, M.; GANGEMI, A.; RATSCH, E.; ŠARIC, J.; ROJAS, I.
Unsupervised learning of semantic relations between concepts of a
molecular biology ontology. In: Proceedings of the 19th International Joint
Conference on Artificial Intelligence, IJCAI’05, p. 659–664, San Francisco,
CA, USA, 2005. Morgan Kaufmann Publishers Inc.
CIMIANO, P.; VÖLKER, J. Text2onto: A framework for ontology learning
and data-driven change discovery. In: Proceedings of the 10th
International Conference on Natural Language Processing and Information
Systems, NLDB’05, p. 227–238, Berlin, Heidelberg, 2005. Springer-Verlag.

Referências
CONRADO, M. D. S.; FELIPPO, A. D.; PARDO, T. A. S.; REZENDE, S. O. A
survey of automatic term extraction for brazilian portuguese. Journal of
the Brazilian Computer Society, 20(1):12, 2014.
DOMINGUES, M. L.; FAVERO, E. L.; MEDEIROS, I. P. Etiquetagem de
palavras para o português do brasil. In: Proceedings of TIL - V Workshop
em tecnologia da informação e da linguagem humana, p. 4, Rio de Janeiro,
Brazil, 06 2007. Anais do XXVII Congresso da SBC.
DRUMOND, L. R. Aquisição automatizada de hierarquias de conceitos de
ontologias utilizando aprendizagem estatística relacional. Master’s
thesis, UFMA, Engenharia de Eletricidade, 2009.

Referências
GRUBER, T. Ontology (Computer Science) - definition in Encyclopedia of
Database Systems. In: Liu, L.; Özsu, T. M., editors, Encyclopedia of
Database System, 2008.
FERREIRA, V. H. Uma proposta para descoberta automática de relações
não-taxonômicas a partir de corpus em língua portuguesa. Master’s
thesis, Universidade Católica do Rio Grande do Sul, Faculdade de
Informática, dez 2012.
GAMMA, E.; JOHNSON, R.; HELM, R.; VLISSIDES, J. Padrões de Projetos:
Soluções Reutilizáveis. BOOKMAN COMPANHIA ED, 2006.

Referências
LEE, C.-S.; KAO, Y.-F.; KUO, Y.-H.; WANG, M.-H. Automated ontology
construction for unstructured text documents. Data Knowl. Eng.,
60(3):547–566, Mar. 2007.
LOPES, L. Extração automática de conceitos a partir de textos em língua
portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul -
PUCRS, Faculdade de Informática, jan 2012.
LOPES, L.; FERNANDES, P.; VIEIRA, R. Domain term relevance through tf-dcf.
In: Proceedings of the 2012 International Conference on Artificial
Intelligence (ICAI 2012), ICAI 2012, p. 1001–1007, Las Vegas, USA, 2012.
CSREA Press.

Referências
MAEDCHE, A.; STAAB, S. Ontology Learning for the Semantic Web. IEEE
Intelligent Systems, 16(2):72–79, Mar. 2001.
MENDONÇA, F.; ALMEIDA, M. B.; SOUZA, R. R.; SILVA, D. L. Extração
automática de termos candidatos às ontologias: um estudo de caso no
domínio da hemoterapia. In: Malucelli, A.; Bax, M. P., editors, ONTOBRAS-MOST,
volume 938 de CEUR Workshop Proceedings, p. 170–175. CEUR-WS.
org, 2012.
MORAES, S. M. W. Construção de estruturas ontológicas a partir de
textos: Um estudo baseado no método Formal Concept Analysis e em
papéis semânticos. Master’s thesis, PUC-RS, Faculdade de Informática,
mar 2012.

Referências
SAINCHEZ, D.; MORENO, A. Learning non-taxonomic relationships from
web documents for domain ontology construction. Data and Knowledge
Engineering, 64(3):600 – 623, 2008.
SERRA, I.; GIRARDI, R.; NOVAIS, P. Parnt: A statistic based approach to
extract non-taxonomic relationships of ontologies from text. In:
Information Technology: New Generations (ITNG), 2013 Tenth International
Conference on, p.561–566, April 2013.
SILVA, J.; BRANCO, A.; CASTRO, S.; REIS, R. Out-of-the-box robust
parsing of portuguese. In: Pardo, T.; Branco, A.; Klautau, A.; Vieira, R.; de
Lima, V., editors, Computational Processing of the Portuguese Language,
volume 6001 de Lecture Notes in Computer Science, p. 75–85. Springer
Berlin Heidelberg, 2010.

Referências
STANFORD.EDU. The Protégé project. http://protege.stanford.edu, último
acesso em julho de 2013.
TELINE, M. F. Avaliação de métodos de extração automática de
terminologias para textos em portugues. Master’s thesis, Universidade de
São Paulo, ICMCUSP São Carlos, fev 2004.
WONG, W.; LIU, W.; BENNAMOUN, M. Ontology learning from text: A look
back and into the future. ACM Comput. Surv., 44(4):20:1–20:36, Sept.
2012.
ZAHRA, F. M.; MALUCELLI, A.; FREDDO, A. R.; TACLA, C. A. Ferramentas
para aprendizagem de ontologias a partir de textos. In: Perspectivas em
Ciência da Informação, volume 19, p. 3–21, 2014.

Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Semelhante a Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Semelhante a Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais (20)

Mais de Norton Guimarães

Mais de Norton Guimarães (18)

Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Notas do Editor