1) O documento discute a construção semi-automática de ontologias a partir de textos em português.
2) É proposta a criação de um arcabouço computacional para extrair termos, conceitos e relações de documentos e estruturar as ontologias.
3) O arcabouço será validado por meio de um estudo de caso na área de segurança pública para gerar ontologias nessa área.
4. O que são Ontologias?
Servem como
esquemas de
metadados
[MAEDCHE, 2001];
Fornecendo um
vocabulário
controlado de
conceitos
[MAEDCHE, 2001];
Compostas por
[DRUMOND, 2009]:
• conceitos,
relacionamentos
taxonômicos e não
taxonômicos, instâncias
dos conceitos e
asserções/regras;
Podem definir um
conjunto de
primitivas de
representação para
modelar um domínio
de conhecimento
[GRUBER, 2008].
É uma visão abstrata
do mundo que se
deseja representar.
[GRUBER, 1995]
5. Problemas Encontrados
Inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa.
Poucas ontologias construídas na língua portuguesa.
Poucos trabalhos científicos sobre construção de ontologias na língua portuguesa
Reduzido o número de Grupos de Pesquisa no Brasil sobre construção de Ontologias.
A aprendizagem das ontologias depende da linguística utilizada.
6. Hipótese
Como criar ontologias de forma
semi-automatizada a partir de
documentos textuais que
descrevem o modelo de
domínio da Segurança Pública?
7. Objetivos
1 - Projetar
um arcabouço
computacional
2 - Criar um
arcabouço
computacional
4 - Validar a
construção de
ontologias na
área
estudada.
3 - Realizar o
Estudo de
Caso na área
de Segurança
Pública
8. Processo de Extração de Ontologias
Pré-
Processamento
Extração Termos
Identificação de
Conceitos
Extração de
Relações
Gerador de
Ontologias Ontologias
[CIMIANO, 2006] adaptado
16. Estudo de Caso
Segurança Pública – Convênio entre SSP/GO e UFG
Documentos digitais disponíveis (Livros, Trabalhos
Acadêmicos, Periódicos).
Etapa manual de treinamento e validação
17. Resultados Esperados
Sabença: Um arcabouço computacional
Semi-automatizado
Desenvolvido
na linguagem
Java
Extensível
para novos
métodos e
padrões
Modelo
documentado
Ontologias na
área de
Segurança
Pública.
19. Conclusão
A automatização completa da aprendizagem de ontologias é algo estudado
por décadas e de difícil realização.
O maior desafio é a criação das regras (axiomas) que acredito ser o gargalo
da automatização. As regras são dificílimas para o ser humano construir e não
chegamos a técnicas satisfatórias que recriem esse intelecto humano.
O arcabouço proposto se enquadra como semi-automatizado por não
implementar os axiomas e a sua validação será manual com ajuda de
especialista de domínio.
20. Referências
BUITELAAR, P.; BUITELAAR, P.; CIMIANO, P. Ontology Learning and
Population: Bridging the Gap between Text and Knowledge - Volume
167 Frontiers in Artificial Intelligence and Applications. IOS Press,
Amsterdam, The Netherlands, The Netherlands, 2008.
BUITELAAR, P.; OLEJNIK, D.; SINTEK, M. A protege plug-in for ontology
extraction from text based on linguistic analysis. In: Proceedings of the
1st European Semantic Web Symposium (ESWS), Heraklion, Greece, 2004.
21. Referências
CAO, Y.; WANG, X.; ZHANG, F.; YANG, W. Ontology-based domain
knowledge acquisition technology. In: Computational Intelligence and
Design (ISCID), 2012 Fifth International Symposium on, volume 2, p. 487–
490, Oct 2012.
CARVALHEIRA, L. C. D. C. Método semi-automático de construção de
ontologias parciais de domínio com base em textos. Master’s thesis,
Escola Politécnica da Universidade de São Paulo, Departamento de
Engenharia da Computação e Sistemas Digitais, ago 2007.
22. Referências
CIARAMITA, M.; GANGEMI, A.; RATSCH, E.; ŠARIC, J.; ROJAS, I.
Unsupervised learning of semantic relations between concepts of a
molecular biology ontology. In: Proceedings of the 19th International Joint
Conference on Artificial Intelligence, IJCAI’05, p. 659–664, San Francisco,
CA, USA, 2005. Morgan Kaufmann Publishers Inc.
CIMIANO, P.; VÖLKER, J. Text2onto: A framework for ontology learning
and data-driven change discovery. In: Proceedings of the 10th
International Conference on Natural Language Processing and Information
Systems, NLDB’05, p. 227–238, Berlin, Heidelberg, 2005. Springer-Verlag.
23. Referências
CONRADO, M. D. S.; FELIPPO, A. D.; PARDO, T. A. S.; REZENDE, S. O. A
survey of automatic term extraction for brazilian portuguese. Journal of
the Brazilian Computer Society, 20(1):12, 2014.
DOMINGUES, M. L.; FAVERO, E. L.; MEDEIROS, I. P. Etiquetagem de
palavras para o português do brasil. In: Proceedings of TIL - V Workshop
em tecnologia da informação e da linguagem humana, p. 4, Rio de Janeiro,
Brazil, 06 2007. Anais do XXVII Congresso da SBC.
DRUMOND, L. R. Aquisição automatizada de hierarquias de conceitos de
ontologias utilizando aprendizagem estatística relacional. Master’s
thesis, UFMA, Engenharia de Eletricidade, 2009.
24. Referências
GRUBER, T. Ontology (Computer Science) - definition in Encyclopedia of
Database Systems. In: Liu, L.; Özsu, T. M., editors, Encyclopedia of
Database System, 2008.
FERREIRA, V. H. Uma proposta para descoberta automática de relações
não-taxonômicas a partir de corpus em língua portuguesa. Master’s
thesis, Universidade Católica do Rio Grande do Sul, Faculdade de
Informática, dez 2012.
GAMMA, E.; JOHNSON, R.; HELM, R.; VLISSIDES, J. Padrões de Projetos:
Soluções Reutilizáveis. BOOKMAN COMPANHIA ED, 2006.
25. Referências
LEE, C.-S.; KAO, Y.-F.; KUO, Y.-H.; WANG, M.-H. Automated ontology
construction for unstructured text documents. Data Knowl. Eng.,
60(3):547–566, Mar. 2007.
LOPES, L. Extração automática de conceitos a partir de textos em língua
portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul -
PUCRS, Faculdade de Informática, jan 2012.
LOPES, L.; FERNANDES, P.; VIEIRA, R. Domain term relevance through tf-dcf.
In: Proceedings of the 2012 International Conference on Artificial
Intelligence (ICAI 2012), ICAI 2012, p. 1001–1007, Las Vegas, USA, 2012.
CSREA Press.
26. Referências
MAEDCHE, A.; STAAB, S. Ontology Learning for the Semantic Web. IEEE
Intelligent Systems, 16(2):72–79, Mar. 2001.
MENDONÇA, F.; ALMEIDA, M. B.; SOUZA, R. R.; SILVA, D. L. Extração
automática de termos candidatos às ontologias: um estudo de caso no
domínio da hemoterapia. In: Malucelli, A.; Bax, M. P., editors, ONTOBRAS-MOST,
volume 938 de CEUR Workshop Proceedings, p. 170–175. CEUR-WS.
org, 2012.
MORAES, S. M. W. Construção de estruturas ontológicas a partir de
textos: Um estudo baseado no método Formal Concept Analysis e em
papéis semânticos. Master’s thesis, PUC-RS, Faculdade de Informática,
mar 2012.
27. Referências
SAINCHEZ, D.; MORENO, A. Learning non-taxonomic relationships from
web documents for domain ontology construction. Data and Knowledge
Engineering, 64(3):600 – 623, 2008.
SERRA, I.; GIRARDI, R.; NOVAIS, P. Parnt: A statistic based approach to
extract non-taxonomic relationships of ontologies from text. In:
Information Technology: New Generations (ITNG), 2013 Tenth International
Conference on, p.561–566, April 2013.
SILVA, J.; BRANCO, A.; CASTRO, S.; REIS, R. Out-of-the-box robust
parsing of portuguese. In: Pardo, T.; Branco, A.; Klautau, A.; Vieira, R.; de
Lima, V., editors, Computational Processing of the Portuguese Language,
volume 6001 de Lecture Notes in Computer Science, p. 75–85. Springer
Berlin Heidelberg, 2010.
28. Referências
STANFORD.EDU. The Protégé project. http://protege.stanford.edu, último
acesso em julho de 2013.
TELINE, M. F. Avaliação de métodos de extração automática de
terminologias para textos em portugues. Master’s thesis, Universidade de
São Paulo, ICMCUSP São Carlos, fev 2004.
WONG, W.; LIU, W.; BENNAMOUN, M. Ontology learning from text: A look
back and into the future. ACM Comput. Surv., 44(4):20:1–20:36, Sept.
2012.
ZAHRA, F. M.; MALUCELLI, A.; FREDDO, A. R.; TACLA, C. A. Ferramentas
para aprendizagem de ontologias a partir de textos. In: Perspectivas em
Ciência da Informação, volume 19, p. 3–21, 2014.
Notas do Editor
Motivação:
Problemas:
A inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa do Brasil.
O reduzido número de ontologias disponíveis na língua portuguesa em áreas específicas do conhecimento.
A inexistência de ontologias nas áreas de Segurança Pública, Agropecuária, Zootecnia, Pedagogia, entre outras.
O reduzido número de trabalhos científicos com abordagens práticas que visam a construção de ontologias na língua portuguesa do Brasil.
Motivação:
Hipótese:
Como criar ontologias de forma semi-automatizada a partir de documentos textuais que descrevem o modelo de domínio da Segurança Pública?
Objetivos
Projetar o arcabouço computacional
Criar o arcabouço computacional
Realizar o Estudo de Caso
Problemas:
A inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa do Brasil.
O reduzido número de ontologias disponíveis na língua portuguesa em áreas específicas do conhecimento.
A inexistência de ontologias nas áreas de Segurança Pública, Agropecuária, Zootecnia, Pedagogia, entre outras.
O reduzido número de trabalhos científicos com abordagens práticas que visam a construção de ontologias na língua portuguesa do Brasil.
Motivação:
Hipótese:
Como criar ontologias de forma semi-automatizada a partir de documentos textuais que descrevem o modelo de domínio da Segurança Pública?
Objetivos
Projetar o arcabouço computacional
Criar o arcabouço computacional
Realizar o Estudo de Caso
Problemas:
A inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa do Brasil.
O reduzido número de ontologias disponíveis na língua portuguesa em áreas específicas do conhecimento.
A inexistência de ontologias nas áreas de Segurança Pública, Agropecuária, Zootecnia, Pedagogia, entre outras.
O reduzido número de trabalhos científicos com abordagens práticas que visam a construção de ontologias na língua portuguesa do Brasil.
Motivação:
Hipótese:
Como criar ontologias de forma semi-automatizada a partir de documentos textuais que descrevem o modelo de domínio da Segurança Pública?
Objetivos
Projetar o arcabouço computacional
Criar o arcabouço computacional
Realizar o Estudo de Caso
Pré-Requisito de todas as etapas
Etapa mais complexa, termos ligados ao domínio
O objetivo é obter os substantivos e seus modificadores (adjetivos e advérbios)
Gerar os “termos candidatos”
geralmente etapa manual de validação
Independente de linguagem – melhor que método linguístico
O Term Frequency-Disjoint Corpora Frequency (TF-DCF), baseia-se na frequência do termo absoluto de cada termo, temperada pela sua frequência em outro corpora (contrastante).
São extraídos os candidatos a termos
Morfossintática
etiquetas morfossintáticas que as identificam como categorias gramaticais (substantivos, verbos, entre outros)
gênero e número para um substantivo
Expert Advisory Group on Language
Engineering Standards (EAGLES) sugere 13 etiquetas básicas
Hipótese de Markov
A hipótese de que a probabilidade de uma palavra depende apenas da palavra anterior
Relações hierárquicas – Método de Heast ((<Termo1> é um <Termo principal>).
descoberta das relações is-a (ou seja, hiperoímia/hiponímia), equivalências, atributos gerais de termos (inclusive relações has-a (tem um) ou part-of (parte de)),
Página 28 em diante
As relações não-taxonômica são as interações entre os conceitos
os verbos são bons indicadores de relações não-taxonômica
As relações não-taxonômicas não estão relacionadas com a hierarquia, contribuem na estruturação de um domínio e na classificação de conceitos
Abordagem de Serra
Independente (propriedade [paí e mãe] e agregação[parte-todo]) ou dependente do domínio (específico da área)
Abordagem de Ferreira