O documento discute um arcabouço computacional chamado Sabença para aprendizagem semi-automatizada de ontologias a partir de textos. O documento apresenta a agenda, que inclui introdução, o projeto Sabença, um estudo de caso e considerações finais. Também discute conceitos como ontologias, aprendizagem de ontologias e como a aprendizagem de ontologias a partir de textos funciona.
1. SABENÇA
Um arcabouço computacional para
aprendizagem semi-automatizada de
ontologias a partir de textos
Defesa de Mestrado
Mestrando: Norton Coelho Guimarães
Orientador: Dr. Cedric Luiz de Carvalho
- 22 de abril de 2015 -
4. Aristóteles (222 a.C.)
... trata do estudo do ser
enquanto ser (EIBEN, e
SMITH, 2008).
... visão abstrata do mundo
que se deseja representar...
(GRUBER, 1995)
Tom GRUBER
5. .. servem como esquemas
de metadados...
(MÄEDCHE e STAAB,
2001).
Alexander MÄEDCHE Steffen STAAB Lucas Rego DRUMMOND
... devem ser compreensíveis
para os agentes e outras
entidades computacionais
(DRUMMOND, 2009).
12. Alexander MÄEDCHE Steffen STAAB
...serve para descrever o processo de
aquisição de um modelo de domínio a partir
de dados (MÄEDCHE e STAAB, 2001).
13. Tipos de aprendizagem de ontologias
textos dicionários
base de
conhecimento
esquemas
semi-
estruturados
esquemas
relacionais
(Gómez-Pérez e Manzano-Macho, 2003)
14. Tipos de aprendizagem de ontologias
textos dicionários
base de
conhecimento
esquemas
semi-
estruturados
esquemas
relacionais
(Gómez-Pérez e Manzano-Macho, 2003)
28. Trabalhos relacionados
Fonte Objetivo e Escopo Validação Domínio
BASÉGIO, 2007 Extração semi-automática de estruturas ontológicas,
termos e relações taxonômicas.
Manual (1) Turismo
JUNIOR, 2008 ONTOlp geração semi-automática de ontologias. Manual (1) Pediatria
LOPES, 2009 ExATOlp extração de termos, conceitos, hierarquias
segundo abordagens linguísticas e estatísticas.
- Pediatria
MOTTA, 2009 Geração semi-automática de ontologias. Manual (1) História
MPB
ZAHRA, 2009 PORONTO extração semi-automática de extração de
termos e relações taxonômicas.
Manual (2) Câncer de
Mama
GONÇALVES,
2011
Geração semi-automática de ontologias, identificação de
conceitos e relações com o uso de grafos.
- Biologia
29. Trabalhos relacionados
Fonte Objetivo e Escopo Validação Domínio
BASÉGIO, 2007 Extração semi-automática de estruturas ontológicas,
termos e relações taxonômicas.
Manual (1) Turismo
JUNIOR, 2008 ONTOlp geração semi-automática de ontologias. Manual (1) Pediatria
LOPES, 2009 ExATOlp extração de termos, conceitos, hierarquias
segundo abordagens linguísticas e estatísticas.
- Pediatria
MOTTA, 2009 Geração semi-automática de ontologias. Manual (1) História
MPB
ZAHRA, 2009 PORONTO extração semi-automática de extração de
termos e relações taxonômicas.
Manual (2) Câncer de
Mama
GONÇALVES,
2011
Geração semi-automática de ontologias, identificação de
conceitos e relações com o uso de grafos.
- Biologia
30. Um campo de pesquisa em
constante evolução.
Uso de ontologias na
interoperabilidade semântica.
As ontologias melhoram a
comunicação homem-máquina.
As ontologias tornam a tomada
de decisão precisa.
Motivação
34. Metodologia
Analisar as principais metodologias, ferramentas, técnicas
e trabalhos correlatos.
Projetar e desenvolver o arcabouço computacional.
Aplicar o arcabouço computacional aos documentos
selecionados.
67. Metodologia
Escolher o domínio;
Selecionar documentos digitais;
Aplicar o arcabouço computacional nos documentos selecionados;
Validar os resultados com especialistas.
Gerar ontologia sobre o domínio escolhido.
73. Validação
... ... é frequentemente mais prático avaliar as diferentes
camadas da ontologia separadamente, em vez de tentar
avaliar diretamente a ontologia como um todo (BRANK,
J.; GROBELNIK, M.; MLADENI´C , D., 2005).
Marko GROBELNIKJanez BRANK Dunja MLADENIC
74.
75. Métodos avaliativos
Precisão: identificar os termos corretos, considerando a lista de
referência (JUNIOR, 2008).
Abrangência: avalia a quantidade de termos corretos extraídos pelo
método (JUNIOR, 2008).
Medida f: expressar o equilíbrio entre os valores da precisão (P) e
abrangência (A) (JUNIOR, 2008).
82. Documentos textuais podem gerar distorções nos resultados.
O corpus utilizado tem mais de 1 milhão de termos.
O uso de ferramentas de terceiros nos torna dependentes.
Utilizar n-gramas de 4 níveis, obtiveram resultados melhores que os
padrões Hearst.
O arcabouço computacional semi-automatizado agiliza a estruturação de
ontologias.
As ontologias mudam de acordo com a mudança do conhecimento
adquirido.
83. Contribuições
Desenvolvimento do arcabouço computacional.
Utilização de soluções livres no desenvolvimento do arcabouço
computacional.
Desenvolvimento de uma ontologia de domínio na área de segurança
pública.
84. Trabalhos futuros
Extrair textos de áudio e vídeo.
Permitir outros idiomas.
Relações não-taxonômicas.
Classificador automático de documentos.
87. BASÉGIO, T. L. Uma abordagem semi-automática para identificação de estruturas ontológicas
a partir de textos na língua portuguesa do brasil, 2007. Dissertação (Mestrado em Ciência
da Computação) – Faculdade de Informática, Universidade Católica do Rio Grande do Sul,
Porto Alegre. Disponível em: <http://tede.pucrs.br/tde_arquivos/4/TDE-2009-06-
09T170445Z-1994/Publico/403014.pdf>. Acesso em: 22 dez. 2013.
BRANK, J.; GROBELNIK, M.; MLADENI´C , D. A survey of ontology evaluation techniques. In:
Proc. of 8th Int. multi-conf. Information Society, p. 166–169, 2005.
CIMIANO, P. Ontology Learning and Population from Text: Algorithms, Evaluation and
Applications. Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
DE FARIA, C. G.; DEL ROSARIO GIRARDI GUTIERREZ, M. Um processo semiautomático
para o povoamento de ontologias a partir de fontes textuais. In: iSys - Revista Brasileira de
Sistemas de Informação, volume 3, 2010.
DRUMOND, L. R. Aquisição automatizada de hierarquias de conceitos de ontologias utilizando
aprendizagem estatística relacional, 2009. Dissertação (Mestrado em Engenharia e
Eletricidade) – Centro de Ciências exatas e tecnologia, Universidade Federal do Maranhão,
São Luís. Disponível em:
<http://www.tedebc.ufma.br//tde_busca/arquivo.php?codArquivo=380>. Acesso em: 29 abr.
2014.
88. EIBEN, A.; SMITH, J. E. Introduction to Evolutionary Computing, volume XV de Natural
Computing. Springer, 2 edition, 2008.
GÓMEZ-PÉREZ, A.; MANZANO-MACHO, D. An overview of methods and tools for ontology
learning from texts. Knowl. Eng. Rev., 19(3):187–212, Sept. 2004.
GONÇALVES, G.; WILKENS, R.; VILLAVICENCIO, A. Sistema de aquisição semiautomática de
ontologias. In: Vieira, R.; Guizzardi, G.; Fiorini, S. R., editors, ONTOBRAS-MOST, volume
776 de CEUR Workshop Proceedings, p. 189–194. CEUR-WS.org, 2011.
GRUBER, T. Toward principles for the design of ontologies used for knowledge sharing.
International Journal Human-Computer Studies Vol. 43, Issues 5-6,Novemer 1995, p.907-
928., 1995.
HEARST, M. A. Automatic acquisition of hyponyms from large text corpora. In: Proceedings of
the 14th Conference on Computational Linguistics - Volume 2, COLING ’92, p. 539–545,
Stroudsburg, PA, USA, 1992. Association for Computational Linguistics.
JUNIOR, L. C. R. Ontolp: Construção semi-automática de ontologias a partir de textos da
língua portuguesa, 2008. Dissertação (Mestrado em Computação Aplicada) – Universidade
do Vale do Rio dos Sinos, São Leopoldo. Disponível em:
<http://bdtd.unisinos.br/tde_busca/arquivo.php?codArquivo=603>. Acesso em: 29 abr. 2013.
89. LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa, 2012.
Tese (Doutorado em Ciência da Computação) – Faculdade de Informática, Pontifícia
Universidade Católica do Rio Grande do Sul, Porto Alegre. Disponível em:
<http://hdl.handle.net/10923/1651>. Acesso em: 29 abr. 2014.
LOPES, L.; VIEIRA, R. Processamento de linguagem natural e o tratamento computacional de
linguagens científicas. In: Linguagens Especializadas em Corpora: modos de dizer e
interfaces de pesquisa, p. 183–201. Cristina Lopes Perna; Heloísa Koch Delgado; Maria
José Finatto. (Org.), EDIPUCRS, 2010.
MAEDCHE, A.; STAAB, S. Ontology Learning for the Semantic Web. IEEE Intelligent Systems,
16(2):72–79, Mar. 2001.
MOTTA, E. N. Preenchimento semi-automático de ontologias de domínio a partir de textos em
língua portuguesa, 2009. Dissertação (Mestrado em Informática) – Centro de Ciências
exatas em tecnologia, Universidade Estadual do Rio de Janeiro, Rio de Janeiro. Disponível
em: <http://www2.uniriotec.br/ppgi/banco-dedissertacoes-ppgi-unirio/ano-
2009/preenchimento-semi-automatico-de-ontologiasde-dominio-a-partir-de-textos-em-
lingua-portuguesa/view>. Acesso em: 29 abr. 2014.
90. SABOU, M.; WROE, C.; GOBLE, C.; STUCKENSCHMIDT, H. Learning domain ontologies for
semantic web service descriptions. Web Semantics: Science, Services and Agents on the
World Wide Web, 3(4):340 – 365, 2005.
ZAHRA, F. M. Poronto - ferramenta para construção semiautomática de ontologias em
português, 2009. Dissertação (Mestrado em Tecnologia em Saúde) – Centro de Ciências
Biológicas e da Saúde, Pontifícia Universidade Católica do Paraná, Curitiba. Disponível em:
<http://www.dominiopublico.gov.br/>. Acesso em: 29 abr. 2014.
WONG, W.; LIU, W.; BENNAMOUN, M. Ontology learning from text: A look back and into the
future. ACM Comput. Surv., 44(4):20:1–20:36, Sept. 2012.
91. Desembarque de Cabral em Porto
Seguro (óleo sobre tela), autor: Oscar
Pereira da Silva, 1904.
Aristóteles: é considerada a Filosofia Primeira que trata do estudo do ser
enquanto ser. Portanto, é uma teoria sobre a existência da natureza, sobre que tipos de
coisas existem ou o que se pode dizer sobre o mundo.
Tom GRUBER 1995 (Apple, Inc.): Deixou de ser o estudo do ser e passou a ser uma visão
abstrata do mundo que se deseja representar explícita ou implicitamente
Alexander Mäedche (University of Mannheim, Germany) e Steffen Staab (University of Koblenz-Landau, Germany) (2001): as ontologias servem como esquemas de metadados,
fornecendo um vocabulário controlado de conceitos, cada um com suas definições.
Lucas Rego Drummond (2009) - University of Hildesheim, Germany: sendo compostas por conceitos, relações, instâncias dos conceitos e asserções e, devem ser compreensíveis para os agentes e outras entidades computacionais.
Na redução do problema das ambiguidades existentes no texto e funcionam como um dicionário de conceitos com uma descrição exata do conhecimento (GONÇALVES, 2011).
Na formalização e no compartilhamento de conhecimento entre humanos e sistemas computacionais (DE FARIA, 2010) .
No auxilio dos computadores na dedução do significado da informação contida nos textos (Wong, 2012).
Na interoperabilidade semântica entre aplicações.
O termo aprendizagem de ontologias serve para descrever o processo de aquisição
de um modelo de domínio a partir de dados
Textos
Ontology learning methods from texts consist of extracting ontologies by applying natural language analysis techniques to texts. The most well-known approaches from this group are: Pattern-based extraction, Association rules, Conceptual clustering, Ontology pruning (poda), Concept learning.
Dicionários
bases its performance on the use of a machine readable dictionary to extract relevant concepts and relations among them.
Base de conhecimento
aims to learn an ontology using as source existing knowledge bases.
Esquemas semi-estruturados
looks for eliciting an ontology from sources which have any predefined structure, such as HTML e XML schemas.
Esquemas relacionais
aims to learn an ontology ex tracting relevant concepts and relations from knowledge in databases.
Textos
Ontology learning methods from texts consist of extracting ontologies by applying natural language analysis techniques to texts. The most well-known approaches from this group are: Pattern-based extraction, Association rules, Conceptual clustering, Ontology pruning (poda), Concept learning.
Dicionários
bases its performance on the use of a machine readable dictionary to extract relevant concepts and relations among them.
Base de conhecimento
aims to learn an ontology using as source existing knowledge bases.
Esquemas semi-estruturados
looks for eliciting an ontology from sources which have any predefined structure, such as HTML e XML schemas.
Esquemas relacionais
aims to learn an ontology ex tracting relevant concepts and relations from knowledge in databases.
Ontology learning and population from text (2006)
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Conceito é representado por: país := instância(país), subconjunto(país), acervo(país)
Hierarquia de conceitos: capital é uma redução de c em cidade.
Axiomas Gerais: implica que um país pode ter apenas uma capital.
Pais (x) é verdadeiro para todos os x, se existe pelo menos um Y capital_de(y,x) e é verdadeiro para todo capital_de(z,x) se y = z) (lógica predicativa) (Lógica proposicional) (
quantificação existencial)
Axiomas são verdades inquestionáveis universalmente válidas, muitas vezes utilizadas como princípios na construção de uma teoria ou como base para uma argumentação. A palavra axioma deriva da grega axios.
Search Data Specialist SEEK, Australia
http://wilsonwong.strikingly.com/
Aprendizagem de Máquina - (Faure e Nedellec, 1998);
Linguísticas (MAEDCHE et. al., 2000);
Estatísticas (Sanchez e Moreno, 2004);
Processamento de Linguagem Natural (Sabou, 2005);
Integrada (Cimiano e Vaolker, 2005).
Baseado em Padrões (Blomqvist, 2007);
Entre parênteses indica a quantidade de avaliadores.
Entre parênteses indica a quantidade de avaliadores.
Formas de representação do conhecimento.
O homem busca a representação do conhecimento por milênios e na modernidade representar o conhecimento para que o computador possa tê-lo é um desafio.
Produção de ontologias de domínio.
A construção de ontologias é um trabalho árduo e depende de especialistas
Interoperabilidade de aplicações.
A comunicação entre aplicações legadas é um campo em exploração.
Desenvolver o arcabouço computacional.
O desenvolvimento de arcabouço computacional permite a reutilização da aplicação e permite a extensão do mesmo.
Programas baseados em ontologias.
Programas que utilizam ontologias são mais eficientes e com buscas inteligentes
Desenvolver um arcabouço computacional, para auxiliar na criação de aplicações que permitam a aprendizagem semi-automatizada de ontologias a partir de textos.
10 meses de estudo e pesquisa
3 meses de design do projeto
5 meses de desenvolvimento.
Total de mais de 2000 horas
Problemas:
A inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa do Brasil.
O reduzido número de ontologias disponíveis na língua portuguesa em áreas específicas do conhecimento.
A inexistência de ontologias nas áreas de Segurança Pública, Agropecuária, Zootecnia, Pedagogia, entre outras.
O reduzido número de trabalhos científicos com abordagens práticas que visam a construção de ontologias na língua portuguesa do Brasil.
Motivação:
Hipótese:
Como criar ontologias de forma semi-automatizada a partir de documentos textuais que descrevem o modelo de domínio da Segurança Pública?
Objetivos
Projetar o arcabouço computacional
Criar o arcabouço computacional
Realizar o Estudo de Caso
Princípio de Holiwood
Utiliza os conceitos de hotspot e frozenspot
Arquitetura modular para facilitar a expansão e desenvolvimento
Arquitetura modular para facilitar a expansão e desenvolvimento
Term Frequency–inverse document frequency
Documentos selecionados manualmente com auxílio dos profissionais da biblioteca.
Jožef Stefan Institute
Comumente, utilizam medidas de precisão e abrangência para avaliar extração de termos
e relações taxonômicas (Baségio)
1.516 termos compostos
104 relações encontradas
hiperonímia e hiponímia
Desembarque de Cabral em Porto Seguro (óleo sobre tela), autor: Oscar Pereira da Silva, 1904. Acervo do Museu Histórico Nacional, Rio de Janeiro.