In the last decades, the great advance of science and technology brought into being countless inventions, as well as new materials, new equipments and methods, and consequently required (or demanded) the continuous creation of new terms (neologisms) related to various specialties. According to the scientific-technological evolution of the languages, the meanings of those terms change continually making it difficult to name suitably the advances and hindering the Knowledge Management. The available textual objects in organizations through writing communication instruments, specially in the
Web, have made it possible to work out electronic corpus of technical and scientific texts, and so introduced the possibility of elaborating Terminologies Automatic Extraction methods, of great interest for the Natural Language Processing researchers.
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
1. UNIVERSIDADE FEDERAL DE GOIÁS
INSTITUTO DE INFORMÁTICA
JOSÉ MAURO DA SILVA
SINAPSE
Uma Metodologia para Extração de
Conhecimentos em Objetos Textuais Baseada
em Conceito para o Português do Brasil.
Goiânia
2007
2. JOSÉ MAURO DA SILVA
SINAPSE
Uma Metodologia para Extração de
Conhecimentos em Objetos Textuais Baseada
em Conceito para o Português do Brasil.
Dissertação apresentada ao Programa de Pós–
Graduação do Instituto de Informática da Universi-dade
Federal de Goiás, como requisito parcial para
obtenção do título de Mestre em Ciência da Compu-tação.
Área de concentração: Ciência da Computação.
Orientador: Prof. Dr. Cedric Luiz de Carvalho
Co–Orientadora: Profa. Dra. Ana Paula Labois-sìere
Ambrósio
Goiânia
2007
3. JOSÉ MAURO DA SILVA
SINAPSE
Uma Metodologia para Extração de
Conhecimentos em Objetos Textuais Baseada
em Conceito para o Português do Brasil.
Dissertação defendida no Programa de Pós–Graduação do Ins-tituto
de Informática da Universidade Federal de Goiás como
requisito parcial para obtenção do título de Mestre em Ciên-cia
da Computação, aprovada em 02 de Agosto de 2007, pela
Banca Examinadora constituída pelos professores:
Prof. Dr. Cedric Luiz de Carvalho
Instituto de Informática – UFG
Presidente da Banca
Profa. Dra. Ana Paula Laboissìere Ambrósio
Instituto de Informática – UFG
Prof. Dr. Eduardo Simões de Albuquerque
Instituto de Informática – UFG
Prof. Dr. Ilmério Reis da Silva
Universidade Federal de Uberlândia – UFU
4. Todos os direitos reservados. É proibida a reprodução total ou
parcial do trabalho sem autorização da universidade, do autor e do
orientador(a).
José Mauro da Silva
Graduou-se e especializou-se em Ciência da Computação pela UFG
- Universidade Federal de Goiás. No período de sua graduação, foi
monitor no Instituto de Informática da UFG. Durante o Mestrado,
propôs uma arquitetura conceitual para o Projeto DWeb e publicou
artigo científico no congresso CollECTOR (Collaborative Eletronic
Commerce Technology and Research) - Chile. Atualmente desen-volve
pesquisas em Descoberta de Conhecimento em Texto, Gestão
do Conhecimento e Web Semântica.
5. Dedico este trabalho aos meus pais, José Clemente da Silva (in
memoriam) e Orozita Batista da Silva, que apesar da origem humilde,
souberam passar a todos os seus filhos os valores da sabedoria, honestidade,
humildade e a fé em DEUS e Nossa Senhora Aparecida como proposta de luta
pela vida.
6. Agradecimentos
Ao Instituto de Informática da UFG, pela utilização de suas depen-dências,
e a todo o seu pessoal, sejam professores ou funcionários, sempre
dispostos a cooperar e cujo contato foi indispensável para a minha formação
acadêmica e para a vida.
A Dataprev - Empresa de Tecnologia e Informações da Previdência
Social, pela liberação de horário para estudos. Aos meus colegas de trabalho,
que entenderam a minha difícil caminhada, fico grato pelo apoio.
Aos professores Dr. Leandro Krug Wives (UFRGS) e Dra. Viviane
Moreira Orengo (UFRGS), pelas inestimáveis informações que sedimentaram
a base deste trabalho, respectivamente, sobre mapeamento de características
textuais por conceito e o algoritmo RSLP.
Aos Profs. Dr. Cedric Luiz de Carvalho e Dra. Ana Paula Laboissière
Ambrósio, respectivamente, orientador e co-orientadora, pelas orientações.
Aos meus colegas e amigos do mestrado que, assim como eu, tiveram
um grande esforço em conseguir conciliar trabalho, estudo e família. Fico
grato pela amizade, companheirismo e solidariedade nos momentos difíceis
e nos momentos de alegria e descontração.
Aos colegas e professores Ms. Edison A. M. Morais, Ms. Júnio César
de Lima, Prof. Dr. Fábio Nogueira de Lucena (UFG) e Prof. D.Sc. Ricardo de
Almeida Falbo (UFES), pelas ontologias e textos para realização de testes.
Aos Profs. Dr. Eduardo Simões de Albuquerque e Ms. Marcio Greyck
Batista Dias, pelas cartas de apresentação ao mestrado.
Ao meu grande amigo Eng. de Computação Fernando Lemes Povoa,
pelo apoio na materialização e enriquecimento de minhas idéias, ao qual,
tenho especial estima e gratidão.
A meus irmãos Helena Eloísa da Silva, Paulo Edison da Silva, Luís
Carlos da Silva e demais parentes e amigos, pelos incentivos e paciência nas
diversas ausências.
A DEUS, por tudo.
7. “A textura semântica da linguagem é hologramática à sua ma-neira:
quando nos referimos ao dicionário de uma língua, vemos
que uma palavra se define por outras palavras, que por sua vez se
define por outras palavras, e, pouco a pouco, a definição de cada
palavra implica em si a maior parte das palavras dessa língua.
Se lermos um texto, a formação do sentido é um processo dialó-gico/
recorrente: as palavras mais usuais têm vários sentidos virtu-ais,
e a precisão do sentido de uma palavra numa frase depende do
sentido das palavras que fazem parte da mesma frase ou do mesmo
discurso; o sentido destas diferentes palavras toma forma em fun-ção
do sentido global da frase ou discurso, o qual toma forma em
função do sentido particular das diferentes palavras. Assim, com-preendemos
a frase a partir do sentido das palavras ao mesmo
tempo que o sentido das palavras se cristaliza a partir do que
emerge da frase [80].”
Edgar Morin,
La Mèthode 3. La Connaissance de la Connaissance/1.
8. Resumo
da Silva, José Mauro. SINAPSE. Goiânia, 2007. 182p. Dissertação de
Mestrado. Instituto de Informática, Universidade Federal de Goiás.
Nas últimas décadas, o grande avanço da ciência e tecnologia com suas in-venções,
novos materiais, equipamentos e métodos gerou a necessidade de
criação de novos termos ligados a diversas especialidades. Associado ao di-namismo
científico-tecnológico e à dinâmica natural das línguas, tais termos
sofrem constantes alterações nos seus significados, o que leva a dificuldades
para nomear adequadamente esses avanços, bem como ao agravamento do
problema da Gestão do Conhecimento. A disponibilização de objetos tex-tuais
em organizações, através de instrumentos de comunicação escrita e, em
especial, disponíveis na Web, possibilitou a construção de corpus eletrônicos
de textos técnicos e científicos, propiciando assim a implementação de méto-dos
de Extração Automática de Terminologias, os quais, têm sido de grande
interesse dos pesquisadores de Processamento de Línguas Naturais. O obje-tivo
desse projeto de mestrado foi propor: a) uma metodologia, através de um
arcabouço computacional, direcionada para extração de unidades terminoló-gicas
complexas presentes em corpora de domínio de conhecimento específico;
b) baseado em conhecimentos estatísticos e lingüísticos, analisar estruturas
textuais e a descobrir conhecimentos (conceitos) relevantes implícito nos mes-mos;
c) organizar este dados em uma estrutura de Matriz Atributo x Valor,
possibilitando seu pós-processamento, como por exemplo: agrupamento, inde-xação,
visualização etc. Especificamente, foram analisados corpus de textos
dos domínios: Jurídico, Computação, Agropecuário, Astronomia e Climatolo-gia.
O método proposto emprega técnicas tradicionais, porém, com enfoque
diferenciado e propõe dois métodos de determinação de importância baseado
no grau de substantivação (absoluto e relativo) de conceitos.
Palavras–chave
Gestão do Conhecimento, Extração Automática de Terminologia, Des-coberta
de Conhecimento em Texto.
9. Abstract
da Silva, José Mauro. SINAPSE. Goiânia, 2007. 182p. MSc. Disserta-tion.
Instituto de Informática, Universidade Federal de Goiás.
In the last decades, the great advance of science and technology brought
into being countless inventions, as well as new materials, new equipments
and methods, and consequently required (or demanded) the continuous cre-ation
of new terms (neologisms) related to various specialities. According to
the scientific-technological evolution of the languages, the meanings of those
terms change continually making it difficult to name suitably the advances
and hindering the Knowledge Management. The available textual objects
in organizations through writing communication instruments, specially in the
Web, have made it possible to work out electronic corpus of technical and sci-entific
texts, and so introduced the possibility of elaborating Terminologies
Automatic Extraction methods, of great interest for the Natural Language
Processing researchers. The aim of this master degree projects is to propose:
a) a methodology through a computational framework, turned to the complex
terminological units extractions, from corpora of specific knowledge domain
(or field); b) based on linguistic and statistic knowledge, to analyze textual
structure and discovery significant concepts implicit in them; c) to organiza-tion
them in an Attribute x Value Array form, so that they can be post-processed,
as for example: clustering, indexing, visualization etc. Specifically
was analyzed text corpus of the domain: Juridical, Computer Science, Tech-nical
of Agriculture and Cattle Raising, Astronomy and Climatology. The pro-pose
method uses traditional techniques but seen from a different point of
view two methods of importance determination, based on concept level subs-tantivation
(absolute and relative) are also proposal.
Keywords
Knowledge Management, Terminologies Automatic Extraction, Kno-wledge
Discovery from Text
10. Sumário
Lista de Figuras 13
Lista de Tabelas 14
1 Introdução 15
1.1 Problemas 15
1.1.1 Problemas Específicos 19
1.1.2 Problema Pesquisado 20
1.2 Motivação 20
1.3 Hipótese 22
1.4 Objetivo 22
1.4.1 Objetivos Específicos 22
1.4.2 Restrições Relacionadas aos Objetivos 23
1.5 Metodologia de Estudo e Pesquisa 24
1.6 Organização da Dissertação 26
I Fundamentação Teórica 27
2 Gestão do Conhecimento 28
2.1 Visão Geral da Gestão do Conhecimento 28
2.2 Dado 30
2.3 Informação 31
2.3.1 Formalização do Processo de Comunicação 32
2.3.2 Comunicação Efetiva 33
2.3.3 Interferências no Processo de Comunicação 33
2.3.4 Informação Relevante 34
2.4 Uma Abordagem Epistemológica 35
2.5 Conhecimento 36
2.6 Teoria da Criação do Conhecimento Organizacional 37
2.7 Comunidades Virtuais de Prática - CoPs 39
3 Processo de Descoberta de Conhecimento 42
3.1 Descoberta de Conhecimento em Banco de Dados 42
3.1.1 Reconhecimento de Padrões 43
3.1.2 Tipos de Padrões Descobertos 44
3.1.3 Tipos de Fontes de Dados 45
3.2 Descoberta de Conhecimento em Texto 46
11. 4 Pesquisas em Área Relacionadas 50
4.1 Recuperação de Informações 50
4.1.1 Modelos de IR 51
4.1.2 Avaliação de Sistema IR 52
4.2 Lingüística Computacional 53
4.2.1 Processamento de Linguagem Natural 54
4.2.2 Lingüística de Corpus 55
Etiquetagem 55
4.3 Web Semântica 57
4.3.1 A Inteligência 59
4.3.2 A Interoperabilidade 63
4.3.3 A Integração 63
5 Preparação de Corpus Textuais 65
5.1 Visão Geral da Preparação de Corpus Textuais 65
5.2 Pré-processamento do Texto 66
5.2.1 Itemização 67
5.2.2 Filtragem 69
5.2.3 Conflação 69
Lematização 70
Stemming 71
5.2.4 Seleção de Termos Índices 73
5.2.5 O Modelo de Espaço Vetorial 74
5.2.6 O Processamento Lingüístico 77
6 Métodos de Mineração de Texto 79
6.1 Classificação de Texto 79
6.1.1 Seleção de Termos Índices 81
6.1.2 Classificação Naive Bayes 81
6.1.3 Classificação Nearest Neighbor 82
6.1.4 Árvore de Decisão 83
6.1.5 Suport Vector Machines 83
6.2 Agrupamentos 84
6.3 Extração de Informações 85
6.3.1 Classificação Através de Extração de Informações 86
6.3.2 IE Através de Modelos Ocultos de Markov 86
6.3.3 IE Através de CRF 86
7 Pós-processamento do Texto 88
7.1 Pós-processamento do Texto 88
8 Extração de Características 91
8.1 Analisando “Conceitos” 91
8.2 Uma Visão Terminológica 94
8.3 Os Percursos Onomasiológico e Semasiológico 94
12. 9 Pesquisas Relacionadas à Extração de Características 96
9.1 Análise das Pesquisas Relacionadas 96
9.2 Trabalhos Relacionados 97
9.3 Os Desafios Implícitos 108
II Desenvolvimento e Resultados 112
10 Projeto DWeb 113
10.1 O Projeto DWeb e a Web Semântica 113
10.1.1 Requisitos Para o Projeto DWeb 114
10.1.2 Princípios Básicos do Projeto DWeb 115
10.2 Serviços Básicos e Módulos DWeb 116
11 Protótipo Proposto 117
11.1 Uma Visão Gráfica do SINAPSE 118
11.2 Uma Visão Conceitual do SINAPSE 122
11.2.1 Classes Gramaticais Restritas 122
11.2.2 Estratégia de Solução 124
Identificação de Itens Lexicais 124
Identificação de Itens Terminológicos 125
Domínio de Conhecimento 128
Língua Portuguesa 129
Caráter Esquivo das Línguas 129
Seleção de Termos mais Importantes 130
Análise de Importância de Conceitos 131
Mecanismo de Cálculo do Índice de Importância de Conceito133
11.2.3 Processo de Descoberta de Conhecimento 136
11.2.4 Textos de Qualquer Tamanho 136
11.2.5 Mapeamento por Conceito 136
11.3 Metodologia SINAPSE 138
12 Resultados 145
12.1 Estratégias de Testes 145
12.2 Ferramentas de Testes 147
12.3 Estatísticas de Descoberta de Conhecimento 148
12.4 Estatísticas de Determinação da Importância do Conceitos 153
13 Conclusões 156
13.1 Possíveis Aplicações 157
13.2 Contribuições Específicas 159
13.2.1 Artigos Publicados como Autor ou Co-autor 160
13.3 Limitações deste Trabalho 161
13.4 Trabalhos Futuros 161
Referências Bibliográficas 163
13. A Tabelas Stemming RSLP 173
A.1 Tabelas de Regras para Stemming: RSLP 173
B Memória de Cálculo 179
C Matriz Atributo x Valor 182
14. Lista de Figuras
4.1 Arquitetura Padrão do W3C para a Web Semântica. [14] 58
4.2 Componentes da Inteligência, segundo Sternberg [92]. 60
4.3 Componentes de Agentes Racionais, segundo Russell e Nor-vig
[91]. 61
11.1 Visão Gráfica de Alto Nível do SINAPSE. 119
11.2 Visão Gráfica da Metodologia SINAPSE. 120
11.3 Diagrama de classes do SINAPSE. 122
11.4 Estrutura dos Conceitos. 137
12.1 Comparativo Entre Stemming SINAPSE x RSLP. 148
12.2 Representação do Numérica do Texto Analisado. 149
12.3 Comparativo Conceitos Por Domínio. 150
12.4 Taxa de pertinência entre domínios cruzados. 151
12.5 Nível Geral de Indeterminação de Classes Gramaticais. 152
12.6 Grau de substantivação absoluta do conceito - ISA 154
12.7 Comparativo dos Índices ISA x ISR. 155
15. Lista de Tabelas
4.1 Conjunto Mínimo de Etiquetas - Eagles 56
9.1 Ferramentas EAT por linha de pesquisa 109
9.2 Ferramentas EAT por Idioma de atuação 110
9.3 Ferramentas EAT e seus Níveis de Análise Lingüística. 110
9.4 Ferramentas EAT de Fundamentação Estatística 111
11.1 Matriz de Candidatos a Conceitos do SINAPSE 127
11.2 Ontologias Usadas no Teste do SINAPSE 128
11.3 Tabela de Exemplo de Índice ISA 144
A.1 Regras para a Redução do Plural 173
A.2 Regras para Redução do Feminino 174
A.3 Regras para a Redução do Advérbio 174
A.4 Regras para Redução Aumentativo-Diminutivo 174
A.5 Regras para Redução de Vogais 175
A.6 Regras para Redução de Substantivo 175
A.7 Regras para Redução de Substantivo (continuação) 176
A.8 Regras para Redução de Verbos 177
A.9 Regras para Redução de Verbos (Continuação) 178
B.1 Textos em Domínios Adequados 179
B.2 Textos em Domínios Cruzados 179
B.3 Somatório do Grau de Indeterminação 180
B.4 Índices de Substantivação ISA e ISR 180
B.5 Experimento Geral SINAPSE 181
C.1 Matriz Atributo x Valor : Segurança Computacional 182
C.2 Matriz Atributo x Valor : Aquecimento Global 182
C.3 Matriz Atributo x Valor : Corpos Celestes 183
C.4 Matriz Atributo x Valor : Aquecimento Global 183
C.5 Matriz Atributo x Valor : Doenças do Gado 183
16. CAPÍTULO 1
Introdução
Os ambientes atuais das organizações são caracterizados pelas incer-tezas,
mudanças contínuas e necessidades de inovações. Além disso, os pro-blemas
relacionados ao processo de globalização agrava ainda mais o cenário
organizacional atual. Este aspecto dinâmico, força as organizações a se ade-quarem,
em termos de estrutura e rotinas de trabalho, na busca por melhores
práticas, idéias inovadoras, sinergias criativas e processos de descoberta; algo
que, segundo alguns autores, não pode ser obtido da informação, por melhor
que seja a sua gestão, e sim, pelo uso efetivo de conhecimento oriundo de di-versas
fontes, sendo o mesmo considerado como uma vantagem competitiva e
sustentável [38], [65].
Em meados dos anos 90 surgiu um novo melhoramento organizacional
baseado no KM (Knowledge Management ou Gestão do Conhecimento), que é
a confluência entre a área de Tecnologia da Informação e Administração. Ini-cialmente,
KM foi visto como uma forma inovadora para a solucionar diversos
problemas organizacionais, criando o que foi referenciada por Peter Drucker
como “sociedade do conhecimento” [49], [81]. Entretanto, na prática, muito do
que foi chamado de Knowledge Management não passou de IM (Information
Management ou Gestão de Informações) [38], onde, os melhoramentos ficaram
restritos à captura, codificação e armazenamento de informações [65], e, nes-tas
iniciativas pode-se destacar a ocorrência de problemas, alguns dos quais
são discutidos a seguir.
1.1 Problemas
Nesta Seção, apresenta-se um conjunto de problemas relacionados a
KM e observados nas áreas da Ciência da Computação, Comunicação e Gestão
de Pessoas.
• Na área de Ciência da Computação:
17. 1.1 Problemas 16
– Problema da confusão entre dado, informação e conhecimento -
no que diferem e o que significam - gerou iniciativas tecnológicas
com resultados insatisfatórios. O sucesso ou fracasso organizacional
muitas vezes pode depender de se saber de qual deles - dado,
informação e conhecimento - se precisa, com qual se pode contar e o
que se pode fazer com cada um deles, bem como entender o que são e
o processo de transição entre cada um deles é essencial à realização
bem sucedida do trabalho ligado ao conhecimento [38];
– Problema da diversidade de aplicações computacionais que execu-tam
as mais diversas funções de negócio, sem considerar os aspec-tos
interdisciplinares em alguns escopos de atuação. Pode-se citar
o tratamento léxico, sintático, semântico e pragmático sobre os con-teúdos
das informações que trafegam pelas mesmas, estudado em:
lingüística computacional, processamento de linguagem natural e
descoberta de conhecimento em texto, que visam, minimizar os pro-blemas
do vocabulário [20]. Entre os quais, as ambigüidades que
podem acontecer mediante a ocorrência de sinonímia1, homonímia2
etc. Tais problemas são bastante evidentes emsistemas CSCW3 [62]
(Computer-Supported Cooperative Work ou Trabalho Cooperativo
Suportado por Computador) [20].
– Problema da perda de conhecimento tácito utilizado nos diver-sos
processos, atividades, procedimentos e tarefas organizacionais,
quando da evasão de recursos de conhecimento, específicos de uma
pessoa, sem o devido registro e controle [38], [81];
– Problema da arquitetura de algumas aplicações para KM, existen-tes
no mercado, que focam os aspectos estáticos do conhecimento,
ignorando os seus principais aspectos (dinâmicos), quais sejam: ex-periência,
verdade fundamental, complexidade, normas práticas e
intuição, discernimento, valores e crenças [38];
1Problema relacionado ao fato de existirem diferentes palavras capazes de expressar a
mesma idéia.
2Problemas relacionado ao fato de existirem palavras similares que expressam idéias ou
objetos diferentes.
3De uma forma genérica, o CSCW é uma área científica interdisciplinar que estuda a forma
como o trabalho em grupo pode ser suportado por tecnologias de informação e comunicação, de
forma a melhorar o desempenho do grupo na execução das suas tarefas. O CSCW enquadra-se
num domínio científico interdisciplinar, envolvendo diversas áreas científicas: Sistemas
Distribuídos, Comunicação Multimídia, Telecomunicações, Ciência da Computação, Ciência
da Informação, Psicologia, Percepção e Teoria Sócio-Organizacional.
18. 1.1 Problemas 17
– Problema da ambigüidade terminológica, ocasionada pela falta de
definição explícita de contexto nas aplicações computacionais [18].
O contexto ou domínio de conhecimento deve ser delimitado e es-pecificado
de forma explícita, através de algum tipo de estrutura
formal, de maneira a minimizar os problemas relacionados às am-bigüidades
terminológicas [20];
– O problema da identificação e exploração de conhecimento tácito
que pode comprometer o uso efetivo do conhecimento de forma
completa (tácito e explícito) dentro da organização [81];
– O problema da não integração das aplicações em nível corporativo,
crucial para ambientes organizacionais distribuídos, pois, podem
acarretar diversas dificuldades no que tange aos aspectos gerenci-ais,
em especial, os relacionados a KM;
– O problema da manipulação semântica das informações transaci-onadas
entre e através de aplicações computacionais que, na sua
maioria, atinge, no máximo, o nível de tratamento léxico, ignorando
os demais níveis de entendimento em atos comunicativos, quais se-jam,
sintático, semântico e pragmático;
– O problema da sobrecarga de informação4 [111] ocorrida durante
a recuperação de informações armazenadas por falta de estrutura,
organização e acesso aos conhecimentos, através de mecanismos
que contemplem os aspectos semânticos que tal instrumento exige;
• Na área de Comunicação:
– Problema da captura e organização de conhecimento (tácito) [81],
através de diversos instrumentos de comunicação escrita, quais se-jam:
memorandos, ofícios, políticas empresariais, normas, instru-ções
de procedimentos, pareceres, resoluções, bem como, ferramen-tas
de comunicação eletrônicas tradicionais, quais sejam: e-mail5,
4A sobrecarga de informação se refere à dificuldade de selecionar informações relevantes
em processos de busca em sistema IR [57].
5Ferramenta de comunicação onde a informação é enviada imediatamente a uma ou mais
pessoas, realizando a comunicação de acordo com a conveniência do remetente, permitindo
ao receptor ler a mensagem quando e como achar mais conveniente, ou seja, trata-se de uma
ferramenta de comunicação assíncrona.
19. 1.1 Problemas 18
chat6, fórum7, brainstorming eletrônico8, etc.
– Problema da diversidade de vocabulário organizacional, segundo
alguns autores, no processo de interação9 homem e computador as
pessoas tendem a usar termos diferentes para descrever conceitos
similares o que pode acarretar entendimentos dúbios de certas
situações;
– Problema da retenção dos conhecimentos de pessoas em fase de
aposentadoria e aposentáveis10 ou em processo de desligamento das
organizações;
– Problema do uso excessivo de papel e a dificuldade de manipulá-los
em atos comunicativos;
• Na área de Gestão de Pessoas:
– Problema da dificuldade de acesso ao conhecimento de mais alta
qualidade na organização;
– Problema cultural e de poder em relação ao conhecimento organiza-cional;
– Problema da captura dos fatores intangíveis do conhecimento, ou
seja o know-how;
– Problema do aprendizado organizacional;
– Problema do preparo psicopedagógico para a transferência de co-nhecimentos
organizacionais;
– Problemas relacionados à escolha de ferramenta usuais de trans-ferência
e registro do conhecimento (narrativas, mestre-aprendiz,
CoP e mentoring11);
6Ferramenta de comunicação que vai desde um simples bate-papo, entrevista online até a
transmissão de eventos e suporte ao cliente e se caracteriza por ser síncrona.
7Ferramenta de comunicação onde qualquer pessoa pode enviar sua contribuição e se
comunicar com um grupo. Para a criação e envio de mensagens pode-se utilizar o correio
eletrônico ou outras ferramentas para esse fim. Atualmente é uma das ferramentas de
intranet mais usadas para colaboração e compartilhamento.
8O Brainstorming foi desenvolvido pelo publicitário Alex Osborn nos anos 40, foi rapida-mente
incorporado na linguagem das empresas. Trata-se da mais conhecida técnica de gera-ção
de idéias, notadamente eficaz, quando usada adequadamente, existindo na modalidade
presencial ou eletrônica [68]
9refere-se as modalidades de comunicação síncrona e assíncrona.
10Refere-se as pessoas que estão aptas a requerer suas aponsentadorias.
11Refere-se a uma técnica utilizada em gestão do conhecimento para auxiliar na captura de
conhencimento.
20. 1.1 Problemas 19
– Problema da falta de conhecimento, bem como a redundância de
esforços devido à esta falta de conhecimento;
Este conjunto de problemas, que estão relacionados à Gestão do Co-nhecimento
em ambientes organizacionais, em uma análise mais aprofun-dada,
remete-se a um conjunto menor de problemas, porém, de abragência
mais geral. Estes problemas mais abrangentes aponta para a investigação de
processos de descoberta de conhecimento em textos, especificamente para o
Português do Brasil, baseado em método(s) e/ou técnica(s) que aprimore(m)
os métodos e técnicas atuais. Tais problemas podem ser observados na Seção
(1.1.1), a seguir.
1.1.1 Problemas Específicos
Castellví e outros [19], apresentam alguns problemas neste nível.
Estes, observam que apesar dos estudos sobre automação de extração de
terminologia, estes ainda apresentam os seguintes problemas:
• Identificação de termos complexos, isto é, determinação de onde uma
frase terminológica começa e onde termina;
• Reconhecimento de termos complexos, isto é, decidir se os constituintes
discursivos são uma frase terminológica ou uma unidade livre;
• Identificação da natureza de uma unidade lexical, isto é, saber se uma
unidade lexical em um texto especializado tem natureza terminológica
ou é linguagem de uso geral;
• Apropriar-se de uma unidade terminológica para obter o vocabulário
(isto deve ser orientado para solução do ponto de vista de automação).
Perini [87] aponta ainda, problemas relacionados à lingüística, afir-mando
o seguinte:
• Não existe critério seguro que permita saber, em certos casos, onde ter-mina
umitemléxico e onde começa outro. Tal afirmação entra emconcor-dância
com o primeiro item dos problemas relacionados anteriormente
por Castellví [19]. Ainda segundo Perini, esse problema surge quando se
tem casos de homonímia ou polissemia, observando que não se sabe
como distingüir casos de polissemia de casos de homonímia. Por exem-plo:
frente a uma forma como folha, como decidir se se trata de um item
léxico com dois significados (polissemia) ou de dois itens léxicos que
21. 1.2 Motivação 20
se pronunciam e escrevem da mesma maneira (homonímia). Ainda se-gundo
ele, o léxico fica indefinido, implicando dessa forma, em dificulda-des
de determinação de traços lingüísticos (algo que é necessário fazer
para estabelecer a importância relativa das classes gramaticais das pa-lavras).
Assim, pode-se resumir os problemas a serem tratados no âmbito
desta dissertação conforme explanado na Seção (1.1.2), a seguir.
1.1.2 Problema Pesquisado
Esta dissertação pretende tratar dos problemas relacionados à identi-ficação
de itens lexicais que, por natureza, devem ser itens terminológicos
de um domínio de conhecimento específico da língua portuguesa e, ao
mesmo tempo, minimizar ou solucionar o caráter esquivo das línguas na
seleção de termos mais importantes a serem utilizados para o processo
de descoberta de conhecimento em textos de qualquer tamanho.
Os problemas expostos nesta Seção (1.1) motivaram o conteúdo deste
trabalho.
1.2 Motivação
As organizações criam e manipulam grandes quantidades de infor-mações
na forma de documentos, especificamente, informações codificadas na
forma de textos. Segundo Tan [101], cerca de 80% das informações organi-zacionais,
estão em formato textual. Estas informações são disponibilizadas
(construídas) através de instrumentos de comunicação escrita, quais sejam:
memorandos, ofícios, políticas empresariais, normas, instruções de procedi-mentos,
pareceres jurídicos, resoluções, bem como, ferramentas de comuni-cação
eletrônica tradicionais, também conhecidas como Sistemas de Mensa-gens12,
quais sejam: e-mail, chat, fórum, brainstorming eletrônico, etc., tam-bém
são constituídas por informações textuais. Assim, uma das motivações
desta dissertação é a realização de tratamento computacional de informações
neste formato (textual) cuja a fonte da informação seja os sistemas de mensa-gens
organizacionais.
12Os Sistemas de Mensagens são processos de comunicação onde duas ou mais pessoas
transmitem e/ou recebem mensagens através de um sistema completo ou parcialmente
compartilhado de sinais, símbolos e comportamentos. Os sistemas mais modernos manipulam
além de mensagens, gráficos, imagens, sons e vídeos, podendo ser síncronas ou assícronas.
22. 1.2 Motivação 21
Outra motivação desta dissertação é contribuir para a construção do
Projeto DWeb13 (detalhado na Seção 10.1). Neste caso, a motivação se dá
na contribuição para materialização da arquitetura conceitual proposta em
relatório técnico [98], a qual prevê a construção de um ambiente com suporte
a KM baseado em CoPs, que tem como requisito fundamental o tratamento de
mensagens textuais de forma a extrair conhecimento neles contido.
Finalmente, a terceira motivação é contribuir através de desenvolvi-mento
de técnicas de extração de características que gere uma Matriz Atri-buto
x Valor (exemplos no Apêndice C). Esta matriz deve dar suporte a
pós-processamento (como por exemplo: agrupamentos, indexação, visualiza-ção
etc.) de documentos textuais para o Português do Brasil.
A língua Portuguesa, originária do Latim, se origina da família das
línguas Indo-européias14, e é falada atualmente em todos os continentes [33],
[41]:
• Europa: Portugal continental, arquipélago dos Açores e a ilha da Ma-deira;
• África: arquipélago de Cabo Verde, ilha de São Tomé e Príncipe e, no
continente, Angola, Guiné-Bissau e Moçambique;
• Ásia: Goa, Damão, Dio, Ceilão e Macau;
• Oceania: metade ocidental da ilha de Timor;
• América: Brasil.
Neste contexto, deve-se observar, que o Português é a quinta lingua-gem
em número de falantes nativos no mundo, totalizando, conforme pesquisa
recente, em torno de 210 milhões de falantes nativos e outros 15 milhões de
pessoas que usa como segunda língua. Dessa forma, em relação à população
mundial fica atrás apenas dos seguintes idiomas: Mandarim, Hindu, Inglês e
Espanhol [104], [85].
Tais fatos justificam e motivam a orientação deste trabalho para
este idioma. Além disso, conforme observado durante a pesquisa em relação
ao tema proposto, existe uma carência substancial de tais técnicas para o
Português. A grande maioria dos trabalhos são orientados para o Inglês e
Francês (melhores detalhes na Seção 9) [35].
13Refere-se a um projeto de pesquisa em andamento no INF/UFG.
14Como exemplo pode-se citar: Sânscrito, Armênio, Teutônico, Baltoeslávico, Celta, Grego e
Latim.
23. 1.3 Hipótese 22
Baseado nestas motivações, pode-se propor uma hipótese de pesquisa
científica como se pode obervar a seguir.
1.3 Hipótese
Esta dissertação pretende provar a seguinte hipótese no contexto, da
língua portuguesa:
É possível obter classes gramaticais restritas15 de palavras sem o uso
de analizadores morfossintáticos16.
Esta hipótese deve se orientar pelos objetivos desta dissertação, como
se pode ver a seguir.
1.4 Objetivo
O objetivo geral desta dissertação é:
Desenvolver uma metodologia, baseada em conceitos, que aprimore
qualitativamente e quantitativamente as técnicas atuais de obtenção de ve-tores
característicos, para formação de uma Matriz Atributo x Valor dos
conhecimentos descobertos em textos na língua portuguesa para domínios de
conhecimento específicos.
Observação: pode-se visualizar exemplos deMatriz Atributo x Valor
no Apêndice C.
1.4.1 Objetivos Específicos
Os objetivos específicos deste trabalho são:
• Verificar a exeqüibilidade de algoritmos de Stemming como ferramenta
de obtenção de classes gramaticais pela operação reversa de formação de
palavras da língua portuguesa do Brasil;
• Construir um framework17 direcionado para tratamento semântico de
mensagens textuais visando a aquisição de conhecimentos tácitos em
15Refere-se as classes gramaticais: advérbio, substantivo e verbo.
16Também referênciados como analizadores gramaticais, POS (Part-of-speech ou Parte do
Discurso) tagging. Refere-se à marcação da classe gramatical (substantivo, verbo, adjetivo
etc) de cada palavra.
17“No desenvolvimento do software, um framework ou arcabouço é uma estrutura de
suporte definida em que um outro projeto de software pode ser organizado e desenvolvido.
Um framework pode incluir programas de suporte, bibliotecas de código, linguagens de
script e outros softwares para ajudar a desenvolver e juntar diferentes componentes de um
24. 1.4 Objetivo 23
ambientes organizacionais estruturados em CoPs (Comunidades Virtu-ais
de Prática) e orientados para a Gestão do Conhecimento para a lín-gua
portuguesa;
• Organizar os conhecimentos descobertos em fontes textuais de informa-ções
não estruturadas através de KR (Knowledge Representation ou Re-presentação
do Conhecimento) [39] utilizando-se de técnicas ligadas à
lingüística e à estatística, de forma a possibilitar posterior processamen-tos,
quais sejam: agrupamento, indexação, visualização possibilitando
acesso facilitado a tais conhecimentos, objetivando a sua estruturação
para KM.
Estes objetivos, possivelmente, implicarão em algumas restrições
quanto ao framework em relação ao tipo de aplicação proposto como se pode
ver a seguir.
1.4.2 Restrições Relacionadas aos Objetivos
Os objetivos geral e específicos sofrerão algumas restrições devido
aos tipos de aplicações computacionais que se beneficiarão dos serviços de
descoberta de conhecimento emtexto providos pelo framework proposto. Entre
os tipos de aplicação, propostos inicialmente, pode-se citar: chat, forum e e-mail.
As restrições são as seguintes:
• Tempo: todas as aplicações são de funcionamento em linha, onde, o
tempo de resposta ao usuário é muito importante. Desta forma, as
operações de pré-processamento deverão ser suficientemente rápidas
para não comprometer a qualidade dos serviços prestados. Da mesma
forma, as interações com os usuários devem ser bastante trabalhadas
para não prejudicar o resultado final.
• Tamanho: o Corpus18, em geral, poderá ser de pequeno tamanho. As-sim,
a análise estatística fica limitada ao cálculo da quantia de vezes
projeto de software. Frameworks são projetados com a intenção de facilitar o desenvolvimento
de software, habilitando designers e programadores a gastarem tempo determinando as
exigências do software do que com detalhes tediosos de baixo nível do sistema [102].”
18Segundo Sardinha [93], corpus é “um conjunto de dados lingüísticos (pertencentes ao uso
oral ou escrito da língua ou a ambos), sistematizados segundo determinados critérios, sufici-entemente
extensos em amplitude e profundidade, de maneira que sejam representativos da
totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal maneira que pos-sam
ser processados por computador, com a finalidade de propiciar resultados vários e úteis
para a descrição e análise.”
25. 1.5 Metodologia de Estudo e Pesquisa 24
que os termos relevantes aparecem. Sendo este quantitativo um valor
muito pequeno de palavras de um Corpus, que poderá gerar dificuldades
quando da ocorrência de termos denominados Hapax Legomena19 [93].
• Lingüística: as operações relacionadas à análise lingüística devem ser
limitadas em relação ao custo computacinal. Por exemplo: os níveis de
análise morfológica, sintática, semântica e pragmático discursivo podem
ser computacionalmente muito caros para este tipo de processamento.
A busca pelos objetivos definidos (datalhados anteriormente na Seção
1.4) iniciou-se através de uma metodologia de estudo aprentada na Seção 1.5,
a seguir.
1.5 Metodologia de Estudo e Pesquisa
A metodologia de estudo foi realizada em duas partes. Inicialmente,
realizou-se uma pesquisa na área de Web Semântica (foco inicial pretendido),
que culminou na proposição de uma arquitetura conceitual para o Projeto
DWeb [98] (detalhado na Seção 10.1). Nesta etapa, observou-se o carater inter-disciplinar
da Web Semântica, ligando a esta conceitos como inteligência,
interoperação e integração. Neste ponto, foi realizada uma extensa pes-quisa
e leitura de bibliografia e documentos complementares, principalmente,
nas sub-áreas:
• Inteligência Artificial:
– Agentes Racionais, Ontologias, Thesauros, Processamento de Lin-guagem
Natural, Palavra, Significado, Contexto, Mineração de
Texto, Mineração de Texto na Web, Extração de Conhecimento, Re-cuperação
de Informações e Mecanismos de Busca de Informações.
• Lingüística Computacional:
– Corpus Lingüísticos, Tratamento de Ambigüidades e Atos de Fala.
• Engenharia de Software:
– Engenharia de Software Orientada a Agentes.
• Banco de Dados:
19Hapax Legomena refere-se a termos pouco freqüêntes [93].
26. 1.5 Metodologia de Estudo e Pesquisa 25
– Integração de Fontes Heterogêneas de Informações, Biblioteca Di-gital
e Indexação Semântica de Informações.
• Ciência da Informação:
– Documento;
• Comunidades Virtuais de Prática e Automação de Processos de Negócio.
A segunda parte da pesquisa relaciona-se, especificamente, com os ob-jetivos
desta dissertação, o qual, se buscou delinear o escopo através de pes-quisas
adicionais, especificamente: KDD (Knowledge Discovery in Database
ou Descoberta de Conhecimento em Banco de Dados), KDT (Knowledge
Discovery from Text ou Descoberta de Conhecimento em Textos) (ambos de-talhados
na Seção 3), Lingüística Computacional (detalhada na Seção 4.2) e
Terminologia (detalhada na Seção 8).
Após extensa pesquisa e leitura dessa bibliografia, obteve-se uma
noção do estado da arte relativo ao tema proposto. Dessa forma, foram
identificados os métodos, ferramentas e problemas ainda não solucionados.
Assim, pressupõe-se que um dos problemas encontrados está relacionado à
identificação e seleção de termos para representar documentos. Pode-se
citar os seguintes exemplos: composição de termos índice em sistemas IR,
composição de descritores em processos de agrupamento, composição de
nós em processos de visualização através de grafos etc. Desta forma, pode-se
obter alguma forma de otimizar este processo, principalmente, na fase de
pré-processamento, que é composta de diversos sub-processos, o que, pode
comprometer substancialmente os custos cumputacionais.
Visando a construção do Projeto DWeb (detalhado na Seção 10.1),
buscou-se a implementação de tratamentos de mensagens textuais, de forma
a lhes agregar o processo de descoberta de conhecimento em seus conteúdos,
bem como possibilitar a sua organização através da técnica de CA (Clustering
Analisys ou Análise de Agrupamento), indexação, visualização, etc. Dessa ma-neira,
visando atender um dos requisitos do Projeto DWeb [98], que é, Propi-ciar
a gestão de conhecimento orientada a comunidades virtuais de
prática [55]; (melhor detalhado na Seção 10.1.1), projetou-se um Protótipo
com vistas a implementar e testar tais sub-processos.
Finalmente, foram analisados os resultados da metodologia proposta
e o texto desta dissertação foi elaborado e organizado conforme a estrutura
apresentada a seguir.
27. 1.6 Organização da Dissertação 26
1.6 Organização da Dissertação
Este trabalho está estruturado em duas partes, onde:
A Parte I trata da fundamentação teórica, onde se faz uma revisão
bibliográfica sobre descoberta de conhecimento, a qual é a base para siste-mas
de extração automática de terminologias. Dessa forma, esta Parte está
estruturada nos seguintes Capítulos:
Gestão do Conhecimento (2), Processo de Descoberta de Co-nhecimento
(3), Pesquisas em Área Relacionadas (4), Preparação
de Corpus Textuais (5), Métodos de Mineração de Texto (6), Pós-processamento
do Texto (7), Extração de Características (8) e Pesqui-sas
Relacionadas à Extração de Características (9).
A Parte II é a partemais importante deste texto. Nela, são expostos os
argumentos que irão sustentar e dar força à tese proposta e os resultados da
pesquisa. Dessa forma, apresenta-se uma solução tecnológica adotada neste
texto e está estruturada nos seguintes capítulos:
Projeto DWeb (10), Protótipo Proposto (11), Resultados (12) e
Conclusões (13).
29. CAPÍTULO 2
Gestão do Conhecimento
Neste Capítulo, é apresentada uma abordagem introdutória sobre
Gestão do Conhecimento, focando especialmente em um conjunto básico de
conceitos sobre processos de descoberta de conhecimento em objetos textu-ais.
O Capítulo divide a exposição em cinco Seções, quais sejam, Visão Geral
da Gestão do Conhecimento (2.1) Dado, Informação e Conhecimento
(2.2), Uma Abordagem Epistemológica (2.4), Teoria da Criação do Co-nhecimento
Organizacional (2.6) e Comunidades Virtuais de Prática -
CoPs (2.7).
2.1 Visão Geral da Gestão do Conhecimento
Nas últimas décadas do século XX, ocorreu uma profunda transfor-mação
nos paradigmas econômicos mundiais. O velho preceito: terra, capital
e trabalho cedeu lugar ao novo combustível da economia - o conhecimento
[49], [81], [38]. Neste contexto, as organizações estão se conscientizando de
que o potencial tecnológico não só pode incrementar o trabalho do conhe-cimento,
como o fato de que esse potencial só poderá ser explorado se elas
entenderem realmente como o conhecimento é desenvolvido e compartilhado
[38].
O conhecimento começou a ser desenvolvido pelo homem desde a pré-história,
o que é confirmado a partir de achados arqueológicos [44]. Porém,
o seu compartilhamento só pôde ser melhor evidenciado a partir do advento
da escrita, fenômeno revolucionário para as sociedades orais, em 3000 a.C. na
Mesopotâmia, pelo povo babilônico [60].
Este compartilhamento foi potencializado, através de inovações tec-nológicas
dos processos comunicativos, em especial, a partir da criação da
imprensa por Gutenberg [49], que possibilitou a comunicação de “um para
muitos” e que vigorou até o século XX [54].
30. 2.1 Visão Geral da Gestão do Conhecimento 29
Atualmente, uma nova revolução surge com a comunicação de “mui-tos
para muitos” ou de “todos para todos”, viabilizada pelos avanços tecnoló-gicos
das últimas décadas, em especial a Internet, em particular a Web1, pos-sibilitando
uma nova dimensão de comunicação, bem como um novo método
de compartilhamento de conhecimento, disponibilizado por diversas fontes do
saber humano. Como aprimoramento da Web atual, surge a Web Semântica
(melhor detalhado na Seção 4.3), cuja proposta é possibilitar o entendimento
semântico do ponto de vista do software, que apresenta-se como uma das mais
recentes contribuições para este processo [15].
Apesar das evoluções dos processos comunicativos, as organizações
têm encontrado dificuldades na busca por processos que minimizem ou re-solvam
os problemas relacionados a KM (melhor detalhado na Seção 1.1), de
forma a se manterem competitivas frente às inúmeras necessidades de inova-ção
[38].
Segundo a APQC (acrônimo do termo em inglês, American Produc-tivity
and Quality Center), citado em [71], o termo Gestão do Conhecimento
pode ser definido da seguinte forma:
Definição 1 (Gestão do Conhecimento) É um processo sistemático de co-nectar
pessoas com pessoas, e pessoas com o conhecimento que elas precisam
para agir eficazmente e criar novo conhecimento. As iniciativas de gestão do
conhecimento visam melhorar o desempenho de uma organização e das pes-soas
que nela trabalham, por meio da identificação, captura, validação
e transferência de conhecimento. O objetivo não é simplesmente comparti-lhar
conhecimento, embora este seja um subproduto valioso do processo.
Um dos aspectos fundamentais relacionado a KM nas organizações é
o tratamento dos documentos e dos fluxos informacionais que, em essência,
transportam dados, informações e conhecimentos. Segundo Tan [101], cerca
de 80% das informações organizacionais trafegam no formato textual.
Assim, o tratamento computacional, aplicado sobre objetos textuais na
busca por conhecimento em organizações, cria novos horizontes com relação a
estes, tais como: identificação, preservação, aquizição, utilização, dissemina-ção,
em fim, possibilita a minimização do problema da KM.
Para que este objetivo organizacional aconteça é necessário criar me-canismos
e processos que facilitem o manuseio do conhecimento, principal-mente,
no que tange ao tratamento semântico dos objetos textuais que trans-
1Refere-se a versão multimídia da Internet.
31. 2.2 Dado 30
portam os conhecimentos organizacionais. Para tanto, se faz necessário o en-tendimento
acerca do conhecimento, bem como a distinção entre estes, dados
e as informações, como se pode observar na Seção 2.2 a seguir.
2.2 Dado
Para Valdemar Setzer, “dado” é uma seqüência de símbolos quantifi-cáveis.
Nesta visão, um texto passa a ser um “dado”. Ele sugere ainda que
a “informação” pode ser caracterizada mas não pode ser definida, declarando
não ser possível processar “informação” diretamente em um computador sem
que a mesma seja antes reduzida a “dado”. Finalmente, argumenta que “co-nhecimento”
é uma abstração interior, pessoal, de alguma coisa que foi ex-perimentada
por alguém. Nesta argumentação o conhecimento não pode ser
descrito totalmente, mas, é possível conceituá-lo em termos de “informação”
[95].
Pode-se observar, em [95], que existe a prevalença da visão epistemo-lógica
do “realismo” de Aristóteles (melhor detalhada na Seção 2.4), na qual
o conhecimento é fruto exclusivo da experimentação.
Wives [111] argumenta que, do ponto de vista computacional, “dado”
é tudo aquilo que é fornecido como entrada para ser processado, enquanto,
“informação” é tudo que este processo retorna como saída. Dessa forma, não
haveria distinção, em processos computacionais, para “dado”, “informação” ou
“conhecimento”, onde cada um desses, assumindo o papel de entrada será
denominado “dado”.
Uma definição mais formal para “dado” pode ser encontrada em Da-venport
[38] e Abel [2], onde se tem, repectivamente:
Definição 2 (Dado - Davenport) “Dados são conjuntos de fatos distintos e
objetivos, relativos a eventos [38].”
Definição 3 (Dado - Abel) “Representação simbólica de um objeto ou infor-mação
do domínio sem considerações de contexto, significado ou aplicação [2].”
Nesta útlima definição se faz uso do termo “domínio” que é definido
por Abel [2], como se segue:
Definição 4 (Domínio - Abel) “Qualquer conjunto relativamente circuns-crito
de atividades [2].”
32. 2.3 Informação 31
Dessa maneira, o “dado” é objetivo e carece de significado de para
transformá-los em “informações”, que é mais útil para o ser humano. Con-forme
argumentado por Peter Drucker, citado em [38], informações são “dados
dotados de pouca relevância”. Dessa forma, se faz necessária a agregação de
valores, através de métodos especificados em Davenport [38], como se pode
ver a seguir:
• Contextualização: sabe-se qual a finalidade dos dados coletados.
• Categorização: conhece-se as unidades de análise ou componentes
essenciais dos dados.
• Cálculo: os dados podem ser analisados matematicamente ou estatísti-camente.
• Correção: os erros são eliminados dos dados.
• Condensação: os dados podem ser resumidos para uma forma mais
concisa.
Assim, após a aplicação de um ou mais desses métodos pode-se obter
a “informação”, que é melhor detalhada na Seção 2.3 a seguir.
2.3 Informação
Nesta dissertação, umas das bases conceituais sobre “informação” é a
visão na qual se ancora os modelos mecanicistas (ou físicos) de comunicação
[97], oriundos da Teoria da Informação de Claude Shannon e outros [96] e
citado em [54], que define informação como:
Definição 5 (Informação - Claude Shannon) “O que acrescenta algo a
uma representação [...] Recebemos informação quando o que conhecemos se
modifica. Informação é aquilo que logicamente justifica alteração ou reforço de
uma representação ou estado de coisas. As representações podem ser explíci-tas
como num mapa ou proposição, ou implícitas como no estado de atividade
orientada para um objetivo do receptor”.
Nesta abordagem, o conceito de informação é visto como algo que um
agente receptor recebe, através de uma mensagem, de um agente emissor
em um processo de comunicação (melhor detalhado na Seção 2.3.1). E a
sua medida de representatividade ou importância é dada pela entropia2
2Refere-se à importância de um dado termo em um domínio de conhecimento específico
[66], oriundo da Teoria da Informação de Claude Shannon e outros [96].
33. 2.3 Informação 32
(melhor detalhada na Seção 5.2.4), que define a medida da importância de
uma palavra no contexto de um dado domínio [66].
Em contraposição ao modelo de Claude Shannon, Dretske citado em
[81], argumenta que uma teoria genuína da informação seria uma teoria so-bre
o conteúdo de mensagens, e não uma teoria sobre o modelo do qual esse
conteúdo é incorporado. Nesta dissertação, busca-se a descoberta por conheci-mentos
emmensagens textuais emprocessos comunicativos, embora passíveis
de problemas3 (melhor detalhado na Seção 1.1), tais processos possibilitam
uma forma de tratar estas mensagens em diversos níveis lingüísticos e/ou es-tatísticos.
A informação é um fluxo de mensagens, enquanto o conhecimento é
criado por esse próprio fluxo de informação, ancorado nas crenças e compro-missos
de seu detentor. Assim, o conhecimento está relacionado com a ação
humana [81].
O problema da comunicação entre os seres humanos trata do processo
de transferência de informação entre estes e, dessa forma, tem uma forte re-lação
de como esta tramita em processos comunicacionais. A formalização dos
processos comunicativos, apresentados na Seção 2.3.1 e adaptado de Russell
e Norvig [91], permite um melhor entendimento do conceito de informação,
como se pode ver a seguir.
2.3.1 Formalização do Processo de Comunicação
Definição 6 (Processo de Comunicação) Um evento de comunicação tí-pico,
em um contexto O, é um conjunto de processos, onde um emissor E emite
uma mensagem M usando palavras W, passando o pensamento P e a informa-ção
I, de modo a informar o receptor R sobre algo.
O contexto O delimita o escopo onde ocorre o evento de comunicação
em termos de conhecimento de mundo do emissor CME e receptor CMR e suas
respectivas ontogenias OE e OR. Os conhecimentos de mundo CME e CMR
definem os conhecimentos de senso comum de cada participante do evento
de comunicação. As ontogenias OE e OR, segundo Humberto Maturana [76],
formam o conjunto de todas as modificações que o ser vivo é capaz de sofrer
e que depende de sua estrutura inicial e condiciona suas interações com o
meio. Em um dado evento de comunicação, o emissor E e o receptor R estão
envolvidos nos seguintes processos:
3Refere-se a ocorrência de fenômenos durante atos comunicativos, como por exemplo,
ambigüidade etc.
34. 2.3 Informação 33
• Intenção: o emissor E decide que existe uma mensagem M a ser infor-mada
ao receptor R.
2
′• Geração: o emissor E codifica a mensagem M em uma forma (como por
exemplo: vocal ou escrita) através de um canal C, de tal maneira que o
receptor R possa, no contexto O, deduzir o significado ou algo próximo
ao que deseja o emissor E. Neste processo de transmissão de mensagem,
podem ocorrer ruídos K provocados por este canal C.
• Síntese: o emissor E produz uma instância W’ das palavras W.
• Percepção: o receptor R percebe a realização física de W’ como We a
decodifica como W2.
• Análise: o receptor R deduz que W2 tem significados possíveis S1, ..., Sn.
O processo de análise se divide em: interpretação (análise) sintática,
interpretação semântica e interpretação pragmática.
• Eliminação de Ambigüidades: o receptor R deduz que o emissor E
pretendia transmitir o significado Si (onde, i = 1, ..., n e o caso ideal é
Si = M). Dessa forma, a comunicação funciona por que o receptor R
faz o trabalho de concluir qual interpretação é aquela que o emissor
E provavelmente pretendia transmitir. O termo “provavelmente” está
relacionado ao fato de que as ambigüidades são inerentes ao processo de
comunicação e que deve passar por algum processo de desambigüização.
• Incorporação: o receptor R decide acreditar em Si (ou não), bem como
percebe o pensamento P e a informação I do emissor E.
2.3.2 Comunicação Efetiva
A comunicação efetiva ocorre quando a mensagem recebida W2 pelo
receptor R é igual ou similar à mensagem M enviada pelo emissor E em sua
forma original e com os seus atributos: pensamento P e informação I.
2.3.3 Interferências no Processo de Comunicação
O processo de comunicação pode ser comprometido pela ocorrência de
distorções que alterem o conteúdo da mensagem M. Estas distorções podem
ocorrer devido a vários fatores. O primeiro fator é a ocorrência de ruídos
K proveniente do canal C, os quais devem sofrer tratamento no sentido de
minimizar as distorções finais da mensagem M.
35. 2.3 Informação 34
Além disso, os conhecimentos de mundo do emissor CME podem ser
diferentes dos conhecimentos de mundo do receptor CMR, o que pode acar-retar
erros de interpretação semântica (sentido) e interpretação pragmática
(contexto) durante o processo de comunicação. O ideal é que conhecimentos de
mundo do emissor CME e do receptor CMR sejam iguais ou similares, refle-tindo
um domínio de conhecimento único ou seja, o mesmo contexto. Em ou-tras
palavras, o evento de comunicação, idealmente, deve utilizar uma única
fonte de conhecimentos de senso comum.
Um último caso que pode ocorrer e, provavelmente o mais difícil de se
contornar os seus efeitos, são as discrepâncias naturais entre as ontogenias
OE e OR. Como a maioria dos processos de comunicação construídos pelo
ser humano ocorrem através de componentes genéricos, a individualização
das experiências fica comprometida. Uma forma de solucionar, ou pelo menos
minimizar o problema em eventos de comunicação, é através de processos com
capacidades adaptativas e de individualização por meio do uso de perfis dos
participantes emissor E e receptor R para cada contexto O.
A busca por conhecimento em processos comunicativos deve, neces-sariamente,
envolver os diversos paradigmas existentes, quais sejam: mode-los
físicos, modelos psicológicos, modelos sociológicos, modelos antropológicos,
modelos semiológicos e modelos sistêmicos [97]. Assim, é possível aproveitar
as melhores características (ou número de variáveis que intervêm nessa fun-ção
humana) de cada um, objetivando a aquisição do conhecimento. Dessa
forma, tenta-se agregar valor à busca por informações, em especial, as infor-mações
relevantes como se pode ver a seguir.
2.3.4 Informação Relevante
Apesar da alta disponibilidade de informações naWeb atual, nem toda
informação obtida em processos de busca são relevantes. Na busca por infor-mações,
existem fatores que atuam para formar a “relevância das informa-ções”
mediante necessidade de informação de um determinado usuário.
Para Stefano Mizarro, citado em [111], informação relevante é aquela
que o usuário precisa para satisfazer sua necessidade de informação em
determinado momento. Ela deve estar no contexto e momento que o usuário
necessita dela. Ou seja, o que é relevante em um determinado momento pode
não ser em outro.
Dessa forma, pode-se definir a relevância de uma informação como:
36. 2.4 Uma Abordagem Epistemológica 35
Definição 7 (Informação Relevante) Seja InfRev um conjunto de infor-mações
relevantes. Seja NI uma necessidade de informação definida por uma
função e seus argumentos U, representando um usuário, O o contexto de uso e
T o momento (tempo) de ocorrência da necessidade de informação, que é dada
pela fórmula a seguir InfRev = NI(U,O, T).
Um conjunto de informações relevantes cria as condições para a ob-tenção
de conhecimentos. Uma abordagem sobre conhecimento, em uma visão
epistemológica, é dada na Seção 2.4, a seguir.
2.4 Uma Abordagem Epistemológica
A epistemologia estuda os fundamentos filosóficos do conhecimento.
Neste contexto, Ikujiro Nonaka e Hirotaka Takeuchi [81], em relação a epis-temologia
ocidental tradicional, enfatiza a natureza absoluta, estática e não
humana do conhecimento. Esta epistemologia é baseada, normalmente, em
proposições da lógica formal (como por exemplo, lógica de predicados de pri-meira
ordem). Os referidos autores, argumentam ainda, que consideram o co-nhecimento
como um processo humano dinâmico de justificar a crença pessoal
com relação à verdade.
Ainda segundo Ikujiro Nonaka e Hirotaka Takeuchi [81], a epistemo-logia
ocidental pode ser particionada em duas correntes: racionalismo e em-pirismo.
No racionalismo, a aquisição do conhecimento será através de ra-ciocínio
dedutivo, da qual a Matemática é seu principal representante. Ela se
caracteriza pela existência de conhecimento a priori. As suas argumentações
se referem a conceitos, leis e teorias. Entre seus principais defesores, estão
Platão (doutrina designada por idealismo) e Descartes.
No empirismo, a aquisição do conhecimento será através de indução,
via experiências sensoriais. Seu principal representante é a Ciência Expe-rimental.
Suas argumentações se referem às experiências sensoriais. Entre
seus principais defensores estão Aristóteles (doutrina que fundamenta o con-ceito
de realismo.) e Locke [81]. Na visão empirista de Piaget, citado em [2],
o conhecimento é oriundo das experiências tiradas do meio por estímulos sen-sórios
sem uma organização interna.
No contexto desta dissertação, a qual é direcionada para extração
de conhecimentos em objetos textuais, quando se faz esta extração baseada
em conhecimentos lingüísticos, os fundamentos epistemológicos também são
particionados nestas duas correntes, como se pode ver a seguir.
37. 2.5 Conhecimento 36
Assim como em outras áreas, a Lingüística também sofre influência de
correntes epistemológicas distintas. Para Johns citado em [93], a Lingüística
de Corpus trabalha dentro de um quadro conceitual voltado para a abordagem
empirista e visualiza a linguagem como um sistema probabilístico. Neste
contexto, a visão empírica é exercida pela primazia em relação aos dados, em
geral, sob forma de corpus.
Para McEnergy e outros, citado em [93], essa posição empirista se-gue
um vertente contrária à corrente racionalista da linguagem, ou seja, de
uma maneira geral o conhecimento provém de princípios estabelecidos a pri-ori.
Nesta corrente, o estudo lingüístico fundamenta-se na introspecção como
forma de verificar modelos de funcionamento da linguagem e seu processa-mento
cognitivo.
Os dois principais representantes da corrente empirista e da corrente
racionalista na área de conhecimentos lingüísticos são, respectivamente, Hal-liday
(probabilidade) e Noam Chomsky (possibilidade) [93]. No contexto desta
dissertação, considera-se as duas visões filosóficas complementares e busca-se
princípios de ambas na descoberta por conhecimentos em objetos textuais em
organizações, como se pode ver na Seção 2.5 a seguir.
2.5 Conhecimento
O conhecimento é o objeto da Gestão do Conhecimento e da Engenha-ria
de Conhecimento que busca capturá-lo, muito embora, a compreensão do
seu significado seja ainda controverso [2].
O conhecimento pode ser formalmente definido conforme se pode ob-servar
em Davenport [38] e Fischler e Firschein, citados em [64], respectiva-mente:
Definição 8 (Conhecimento - Davenport) “Conhecimento é uma mistura
fluida de experiência condensada, valores, informação contextual e insigh ex-perimentado,
a qual proporciona uma estrutura para a avaliação e incorpo-ração
de novas experiências e informações. Ele tem origem e é aplicado na
mente dos conhecedores. Nas organizações, ele costuma estar embutido não só
em documentos ou repositórios, mas também em rotinas, processos, práticas e
normas organizacionais.”
Definição 9 (Conhecimento - Fischler e Firschein) “Conhecimento se re-fere
à informação armazenada ou a modelos utilizados por uma pessoa ou
38. 2.6 Teoria da Criação do Conhecimento Organizacional 37
máquina para interpretar, prever e responder apropriadamente ao mundo ex-terior.”
Segundo Abel [2], o conhecimento possui um componente descritivo,
ou estático, ou seja, como o ser humano identifica e organiza os conceitos no
seu modelo mental (melhor compreendido pelos pesquisadores de Ciência da
Congnição e Inteligência Artificial), e um componente dinâmico, que descreve
como as descrições são aplicadas na solução de problemas, ainda permanece
pobremente explicado. Além disso, pode-se classificá-lo de acordo como os
tipos de informações com as quais constroem o corpo do conhecimento, quais
sejam: conhecimento declarativo, procedural, semântico, episódico e meta-conhecimento.
Nesta dissertação considera-se a teoria a seguir.
2.6 Teoria da Criação do Conhecimento Orga-nizacional
A Teoria da Criação do Conhecimento Organizacional foi proposta
por Ikujiro Nonaka e Hirotaka Takeuchi em [81]. Esta teoria é central para
este trabalho e, devido a isto, esta Seção é inteiramente dedicada ao seu
entendimento e na modelagem de uma estrutura conceitual para a Gestão
do Conhecimento em organizações.
Segundo esta teoria, a visão filosófica do ocidente, que é tratada pela
divisão cartesiana sujeito (conhecedor) e objeto (conhecido), deu origem a uma
visão de organização baseada unicamente no conhecimento explícito4, cuja
única forma de criar conhecimento é através de processamento de informações
de fora para dentro das organizações, não levando em consideração a criação
de conhecimento organizacional de dentro para fora, que pode explicar a
inovação, e possibilita a redefinição de problemas e soluções recriando o
meio.
Para explicar a inovação, esta teoria, define sua própria epistemolo-gia,
a qual é centrada na distinção entre conhecimento tácito e explícito. Da
mesma forma, para explicar o conhecimento organizacional, em oposição ao
conhecimento individual, esta teoria cria a sua própria ontologia, preocupada
com os níveis de criação de conhecimento (individual, grupal, organizaci-onal
e interorganizacional).
4Refere-se ao conhecimento registrado em algum formato. Pode-se citar como exemplo,
livros, artigos etc.
39. 2.6 Teoria da Criação do Conhecimento Organizacional 38
Michael Polanyi - o primeiro filósofo a articular o conceito de conheci-mento
tácito versus explícito [38] - citado em [81], distingue a categorização do
conhecimento explícito e tácito. Assim, o conhecimento explícito é sistemati-zado,
normalmente, em termos de palavras e números, podendo ser facilmente
comunicado e compartilhado sob a forma de dados brutos, fórmulas científicas,
procedimentos ou princípios codificados.
Ainda segundo Polanyi, o conhecimento tácito é altamente pessoal e
difícil de formalizar e articular, o que dificulta o seu compartilhamento. Pode-se
citar: insights5 e palpites subjetivos. O conhecimento tácito possui um ele-mento
técnico e um elemento cognitivo. O elemento técnico, abrange as habi-lidades
capturadas como know-how. O elemento cognitivo, centra-se nos mo-delos
mentais que são, modelos de mundo que os seres humanos estabelecem
e manipulam através de analogias. São profundamente vinculados às ações
e experiências (modelos mentais, esquemas, crenças e percepções) [81]. Este
tipo de conhecimento modela a forma como se percebe o mundo.
Na dimensão ontológica desta teoria, o conhecimento só é criado pelo
indivíduo, porém, é ampliado na organização através de processos interativos
que vai do nível indivídual, grupal, organizacional até o interorganizacional.
Na dimensão epistemológica desta teoria, os conhecimentos tácitos
e explícitos não são entidades separadas. O pressuposto desta teoria é que
o conhecimento humano é criado e expandido desta interação social entre
conhecimento tácito e explícito e particionado em quatro tipos de conversão:
• Socialização: é o processo de compartilhamento de experiências atra-vés
da conversão de conhecimento tácito em conhecimento tácito, como
por exemplo, na interação mestre-aprendiz por meio da observação, imi-tação
e prática. Esta conversão caracteriza-se pela dificuldade de um
indivíduo se projetar no raciocínio de outro.
• Externalização: é um processo de articulação do conhecimento tácito
em conhecimento (conceito) explícito. Este processo permite a criação
de conhecimento explicitado através de metáforas, analogias, conceitos,
hipóteses e modelos. Para Emig, citado em [81], a escrita é uma forma de
converter o conhecimento tácito em conhecimento explícito e, no contexto
desta dissertação, é um ponto chave a ser tratado através de uma
ferramenta de EAT - Extração Automática de Terminologia (melhor
detalhado no Capítulo 11) na descoberta de conhecimentos.
5Refere-se ao know-how desenvolvido pelas pessoas.
40. 2.7 Comunidades Virtuais de Prática - CoPs 39
• Combinação: é um processo de sistematização de conceitos em um sis-tema
de conhecimento, envolvendo conjuntos diferentes de conhecimen-tos.
Os indivíduos combinam e trocam conhecimentos através de do-cumentos,
reuniões, conversas telefônicas e através de processos com-putacionais.
Neste processo, em especial os computacionais, também é
possível o uso de ferramenta EAT, principalmente em instrumentos de
comunicação escrita de forma automatizada, durante o registro de in-formações
textuais armazenadas em banco de dados, em ferramentas
de comunicação eletrônica tradicionais (tais como, e-mail, chat, forum,
brainstorming eletrônico, etc.).
• Internalização: é o processo de incorporação do conhecimento ex-plícito
em conhecimento tácito normalmente estimulado por alguma
forma de treinamento. Esta internalização pode se dar através de mo-delos
mentais ou know-how compartilhado, experiência através da so-cialização,
externalização, combinação. Neste caso uma ferramenta de
EAT ajuda, de forma indireta, quando da construção de bases de conhe-cimento
explícito.
Estes quatro tipos de conversão de conhecimento: socialização (co-nhecimento
compartilhado), externalização (conhecimento conceitual), combi-nação
(conhecimento sistêmico) e internalização (conhecimento operacional)
através do tempo formam a denominada Espiral do Conhecimento. Nela,
o conhecimento tácito constitui a base do conhecimento organizacional. O
conhecimento tácito, através desses quatro modos (epistemológicamente6),
nos diversos níveis (ontologicamente7), onde se parte, em uma Espiral do
Conhecimento, no nível de indivíduo, seções, departamentos, organizações
com o intuito de criar conhecimento organizacional. Neste caso, pode-se mode-lar
tais agrupamentos através de Comunidades Virtuais de Prática, ou seja,
CoPs, como se pode ver na Seção 2.7 a seguir.
2.7 Comunidades Virtuais de Prática - CoPs
O termo CoPs (Communities of Practice ou Comunidades de Prática)
foi cunhado em 1991 por Jean Lave e Etienne Wenger durante a exploração
6Refere-se aos quatro modos de conversão do conhecimento: Socialização, Externalização,
Combinação e Internalização.
7Refere-se aos níveis individual, grupo, organização e interorganizações.
41. 2.7 Comunidades Virtuais de Prática - CoPs 40
de aprendizado situado, que é o aprendizado através de práticas de trabalho
[65].
Segundo Teixeira [55], o advento da Internet como meio de comuni-cação
ágil, flexível e de baixo custo, foi o fato propulsor da adoção, em larga
escala, das comunidades virtuais. Destaca ainda, que estes grupos foram or-ganizados
utilizando-se das tecnologias de e-mail, chats e websites para se
comunicarem, onde, profissionais de áreas específicas passaram a trocar in-formações
relevantes sobre o seu dia-a-dia, ou seja, as suas melhores prá-ticas
(tais como, experiências, histórias, ferramentas etc.) e as formas como
estruturam seus processos, além de compartilhar soluções para seus proble-mas
mais comuns [43].
Emuma CoP, os conceitos (como por exemplo, pessoas, artefatos, even-tos,
etc.) e propriedades (como por exemplo, estilo, material etc.) com interes-ses
comuns (como por exemplo, comércio, educação, cultura, medicina, compu-tação
etc.) modelam os conhecimentos de uma comunicadade. Em ambientes
organizacionais, pode ser visualizado como: indivíduo, grupo, organizações e
interorganizações.
Estas comunidades têm em comum alguma identificação e conheci-mentos
formalizados (como por exemplo, ontologias etc.) que são utilizados
para criar recursos de informação (ex: documentos, dados etc.) [22], [72], [16].
Tais informações explícitas e as ontologias modelam os conhecimentos ex-plícitos
destas comunidades. A interação entre os conhecimentos tácitos
e conhecimentos explícitos (conforme definido na Seção 2.6 anteriormente)
criam a possibilidade de Gestão de Conhecimento organizacional.
Para Etienne Wenger, citado em [65], o desenvolvimento e dissemi-nação
de comunidades habilitadas para resolver problemas é dependente de
um compartilhamento consistente de repertório de rotinas, gestos, artefatos,
vocabalurário e entendimento de comunidade.
Nesta dissertação, o vocabulário que participa da definição de uma
CoP [98], é representado pelo vocabulário controlado, materializado através
de ontologias escritas em OWL (melhor detalhado na Seção 4.3). Este con-junto
estruturado de conhecimento representa a linguagem e um vocabulário
controlado sobre o qual o processo de descoberta de conhecimento ocorre em
objetos textuais na busca por compreendê-los.
Para Edgar Morin [80], compreende-se uma frase a partir do sentido
das palavras, ao mesmo tempo que o sentido das palavras se cristaliza a partir
do que emerge da frase. Além disso, recorre-se ao contexto para esclarecer
o sentido do texto através de uma dialógica recorrente: palavras, texto e
42. 2.7 Comunidades Virtuais de Prática - CoPs 41
contexto.
Ainda segundo Edgar Morin, a computação cerebral se desenvolve
em um processo de análise (decomposição, isolamento e distinção), con-verge
para a síntese (reunião, hierarquização, centralização e globalização),
multiplicando-se pela linguagem [80].
Para Davenport [38], um aspecto importante para a transferência de
conhecimento é a utilização de uma linguagem comum entre os participantes
(denotando aqui os jargões técnicos ou termos técnicos especializados - melhor
detalhado na Seção 8.2).
Davenport argumenta ainda que uma das melhores formas de trans-ferir
conhecimento tácito é através de narrativas (em linguagem natural,
segundo Chen [20]), normalmente, expressas em formato textual escrito de-nominada
história de guerra, disponibilizada para análise e compreenção dos
conhecimentos registrados [38].
Assim, nesta dissertação procura-se pela descoberta de conhecimento
em objetos textuais8 com a finalidade de subsidiar a Gestão do Conhecimento
em ambientes organizacionais partindo-se de princípios apresentados neste
Capítulo. No Capítulo 3, a seguir, apresentam-se conceitos e técnicas aplicá-veis
a processos de descoberta de conhecimento.
8Instrumentos de comunicação escrita, quais sejam: memorandos, ofícios, políticas empre-sariais,
normas, instruções de procedimentos, pareceres, resoluções, bem como, ferramentas
de comunicação eletrônicas tradicionais, quais sejam: e-mail, chat, fórum, brainstorming ele-trônico,
banco de idéias, etc.
43. CAPÍTULO 3
Processo de Descoberta de
Conhecimento
Neste Capítulo, é apresentada uma revisão bibliográfica acerca de
pesquisas relacionadas a processos de descoberta de conhecimento em meios
computacionais. A exposição está dividida em duas Seções, quais sejam,
Descoberta de Conhecimento em Banco de Dados (3.1) e Descoberta
de Conhecimento em Textos (3.2).
3.1 Descoberta de Conhecimento em Banco de
Dados
A extração de conhecimento “escondido” em registros de DB (Data-
Base ou Banco de Dados) é um problema comum em praticamente toda área
de ciência, tanto em Engenharia quanto em Negócios, e é objeto de estudo
central de disciplinas clássicas, como por exemplo a Estatística e o Aprendi-zado
de Máquina. Uma grande quantidade de métodos de mineração têm sido
desenvolvidos para resolver este tipo de problema [3].
Segundo Wives [112], a descoberta de conhecimento, na área de Ci-ência
da Computação, surgiu na Inteligência Artificial, a qual, entre outros
objetivos, se preocupava com a aquisição e armazenamento de conhecimento.
Com o advento dos DBMS (Data Base Management System ou Siste-mas
de Gerenciamento de Banco de Dados) [70], os pesquisadores de Sistemas
de Informação, ou mais especificamente os pesquisadores em Banco de Dados,
passaram a investigar novas formas de tratar informações armazenadas em
bancos de dados. Assim, investiga-se maneiras de se obter informações implí-citas
com base em informações explícitas, carecendo porém, de novos proces-sos
para a sua obtenção e análise [111].
44. 3.1 Descoberta de Conhecimento em Banco de Dados 43
Uma das técnicas oriundas das pesquisas em Bancos de Dados, na
busca por informações implícitas, deu origem a novos processos e ferramentas
que realizavam análises sobre os dados armazenados neste tipo de estrutura
de dados. Dentre estas ferramentas, pode-se citar, as ferramentas OLAP
(Online Analytical Processing ou Processamento Analítico On-line)1 e os
conceitos de DW (Data Werehouses ou Armazéns de Dados)2 [112].
No topo desse processo de evolução tecnológica, em relação à área de
Banco de Dados, se encontra o desenvolvimento da vertente referenciada como
KDD (Knowledge Discovery from Database ou Descoberta de Conhecimento
em Banco de Dados). O termo KDD, de acordo com Fayyad e outros [53], pode
ser definido como:
Definição 10 (KDD - Fayyad) KDD ou Descoberta de Conhecimento em
Banco de Dados é o processo de identificação de padrões válidos, novos, po-tencialmente
úteis e compreensíveis embutidos nos dados.
Para que o processo de KDD possa ser iniciado, faz-se necessária a
análise de objetos de Banco de Dados na busca por estes padrões.
3.1.1 Reconhecimento de Padrões
Segundo Simon Haykin [64], os seres humanos são bons reconhecedo-res
de padrões. Tal processo ocorre, na maioria das vezes, de forma impercep-tível
e natural, como se pode observar nos cenários exemplificados a seguir:
• Reconhecer um rosto familiar após envelhecimento;
• Identificar uma pessoa pela voz em uma ligação telefônica ruim;
• Distinguir o estado de um alimento pelo cheiro que exala.
O reconhecimento de padrões é formalmente definido como o processo
pelo qual um padrão/sinal recebido é atribuído a uma classe dentre um
1É uma abordagem tecnológica para gerar respostas rápidas a consultas analíticas de na-tureza
tipicamente dimensional. A tecnologia OLAP é parte de uma categoria mais abran-gente,
BI, que também inclui DW ou Data Warehouse, que por sua vez inclui ETC (Extração
Transformação e Carga)) e Data Mining. Aplicações típicas de OLAP são relatórios de negó-cios,
marketing, relatórios gerenciais, Business Performance Management (BPM), budgeting
e previsão, relatórios financeiros e áreas similares [63].
2O Data Warehouse possibilita a análise de grandes volumes de dados, coletados dos
sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma
melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes
e a previsão de eventos futuros [63].
45. 3.1 Descoberta de Conhecimento em Banco de Dados 44
número predeterminado de classes (categorias) [64]. Como se pode observar
nos exemplos anteriores, onde, o rosto, a voz e o cheiro são atribuídos a classes
(categorias) específicas que permitiram reconhecer a que padrões pertenciam,
respectivamente, as classes: rosto familiar, uma pessoa e o estado (qualidade)
do alimento.
Apesar da aparente naturalidade e simplicidade com que o ser hu-mano
reconhece padrões, a sua implementação emmeios computacionais pode
requerer processos bastante complexos. Uma forma de realizar tais trata-mentos
computacionais é através da utilização de técnicas de ARN (Artificial
Neural Network ou Redes Neurais Artificiais)3.
Uma ARN reconhece padrões passando inicialmente por uma etapa
de treinamento. Nesta etapa, um conjunto de padrões de entrada é apresen-tado
repetidamente à classe (categoria) à qual cada padrão pertence. Em uma
segunda etapa, apresenta-se a ARN novos padrões não vistos anteriormente,
mas que pertencem às categorias já apresentadas para que a ARN os classifi-que
com base em métodos estatísticos.
O reconhecimento de padrões somente representa conhecimento caso
seja facilmente compreendido pelo ser humano, útil e novo.
Em sistemas IR, são utilizados os seguintes tipos de padrões lingüís-ticos:
palavra, prefixos, sufixos, substrings, expressões regulares e padrões
extendidos [5]. No contexto desta dissertação, um padrão é um conjunto de
características morfológicas que ocorre em um segmento de texto.
O reconhecimento de padrões é utilizado em processos de mineração
de dados, conforme se pode ver a seguir.
3.1.2 Tipos de Padrões Descobertos
Segundo Han[63], as tarefas (funcionalidades) de DM (Data Mining
ou Mineração de Dados) podem ser classificadas em: descritivas ou prediti-vas.
As tarefas (funcionalidades) de mineração descritivas caracteriza as pro-priedades
gerais de um DB (DataBase ou Banco de Dados). As tarefas (funci-onalidades)
de mineração preditiva executa inferências sobre os dados atuais
(correntes) de maneira a criar predições. As funcionalidades de DM e tipos de
padrões são descritas a seguir:
• Descrição Classe/Conceito: estas descrições podem ser derivadas de:
3Simon Haykin define uma rede neural é um processador paralelo e distribuído consti-tuído
de unidades de processamento simples, que têm a propensão natural para armazenar
conhecimento experimental e torná-lo disponível para uso [64].
46. 3.1 Descoberta de Conhecimento em Banco de Dados 45
– caracterização de dados, através de sumarização originados de clas-ses
alvo;
– discriminação de classes alvo com um conjunto de classes compara-tivas;
– caracterização e descriminação de dados.
• Análise de Associação: é a descoberta de regras de associação mos-trando
condições atributo-valor que freqüentemente estão juntas em
grupos de dados;
• Predição e Classificação: é o processo de encontrar um conjunto de
modelos (ou funções) que descreve ou distingue classes ou conceitos, com
o propósito de habilitar o uso de modelos para previsão de classes de
objetos cujo rótulo da classe é desconhecido;
• Análise de Agrupamentos: é um método capaz de analisar uma série
de objetos com o objetivo de identificar correlações (semelhanças) e
características comuns (similaridades) entre eles [111];
A descoberta de conhecimento utiliza-se da captura de padrões e pode
ser aplicada a diversos tipos de fontes de dados, como se pode ver a seguir.
3.1.3 Tipos de Fontes de Dados
Segundo Jiawei Han, as técnicas de DM podem ser aplicadas a qual-quer
tipo de repositório de informação, sendo que, deve-se respeitar as dife-rentes
particularidades de cada tipo de repositórios de informações [63], assim
tem-se:
• DBMS (Database Management System ou Sistema de Gerenciamento de
Banco de Dados);
• DW (Data Warehouses ou Armazéns de Dados);
• TsDB (Transactional Database ou Banco de Dados Transacional);
• OODB (Object-Oriented Databases ou Banco de Dados Orientados à
Objetos);
• ORDB (Object-Relational Databases ou Banco de Dados Objeto Relacio-nal);
• SDB (Spatial Databases ou Banco de Dados Espacial);
• TDB (Temporal Databases ou Banco de Dados Temporais);
47. 3.2 Descoberta de Conhecimento em Texto 46
• TSDB (Time-Series Databases ou Banco de Dados de Séries Temporais);
• TxDB (Text Databases ou Banco de Dados Textuais);
• MDB (Multimedia Databases ou Banco de Dados Multimídia);
• LDB (Lagacy Databases ou Banco de Dados Legado);
• WWW (World Wide Web ou Teia de Amplitude Mundial);
Como se pode observar é possível aplicar técnicas de KDD a diversos
tipos de dados, entre os quais, os dados textuais.
3.2 Descoberta de Conhecimento em Texto
Para Wives, com o advento e popularização da Internet e seus servi-ços,
quais sejam: e-mails, chats, news-groups, páginas Web, iniciou-se uma
geração de um grande contingente de informações não estruturadas e semi-estruturadas.
A existência de tais corpora possibilitou o surgimento de uma
nova área de descoberta de conhecimento intitulada: KDT (Knowledge Disco-very
from Texts ou Descoberta de Conhecimento em Textos) [111].
Neste contexto, a descoberta de conhecimento apresenta-se como uma
evolução da área de Recuperação de Informações, a qual teve como conseqüên-cia
a área de Descoberta de Conhecimento em Textos. Dessa maneira, com
estas tecnologias não se procura por informações nos textos, e sim, por conhe-cimentos
úteis e novos. Ainda segundo Wives e outros [112], pode-se destacar
as seguintes formas de descobertas de conhecimento em texto:
• Descoberta tradicional após extração: nesta abordagem, os dados são
extraídos dos textos e formatados em bases de dados estruturadas com o
auxílio de técnicas de Extração de Informações;
• Descoberta por extração de passagens: é uma técnica que se situa entre
a Recuperação de Informações por Passagem e Extração de Informações;
• Descoberta por análise lingüística: nesta abordagem as regras e infor-mações
podem ser descobertas através de análises lingüísticas em nível
léxico, morfológico, sintático e semântico;
• Descoberta por análise de conteúdo: nesta abordagem investiga-se os
textos e apresenta-se ao usuário informações sobre o seu conteúdo;
• Descoberta por sumarização: nesta abordagem utiliza-se técnicas
lingüísticas e extração por passagem para criar sumários;
48. 3.2 Descoberta de Conhecimento em Texto 47
• Descoberta por associação entre passagens: este tipo de técnica busca
encontrar automaticamente conhecimento e informações relacionadas
no mesmo texto ou em textos diferentes;
• Descoberta por lista de conceitos-chave: esta abordagem se baseia na
idéia de que o significado de um texto não é determinado por sua leitura
linear, mas sim, por uma análise do conjunto de elementos léxicos mais
importantes (palavras-chave);
• Descoberta de estruturas de textos: esta abordagem se baseia na deter-minação
da estrutura do texto para entender o seu significado;
• Descoberta por clustering (agrupamento ou aglomerados): procura-se
separar automaticamente elementos em classes que são identificadas
durante o processo (não há classes pré-definidas);
• Descoberta por descrição de classes de textos: esta abordagem baseia-se
no fato de se ter uma classe de documentos textuais (já agrupados) e
uma categoria associada a esta classe, procura-se encontrar as principais
características destas classes, as quais, possam identificá-las de forma
que os usuários possam distingüí-las das demais classes;
• Descoberta por recuperação de informações: nesta abordagem os siste-mas
IR, em sua operação tradicional, contribuem para que os usuários
aprendam novos conhecimentos;
• Descoberta por associação entre textos: nesta abordagem procura-se
relacionar as características presentes em vários textos diferentes;
• Descoberta por associação entre características: nesta abordagem
procura-se tipos de informações presentes em textos aplicando-se técni-cas
de correlação estatística (KDD);
• Descoberta por hipertextos: nesta abordagem, a descoberta é explorató-ria
e experimental;
• Descoberta por manipulação de formalismos: nesta abordagem, utiliza-se
de manipulação simbólica para inferir novos conhecimentos;
• Descoberta por combinação de representações: nesta abordagem os tex-tos
antes de serem combinados, passam por um processo de representa-ção
interna (dois textos);
• Descoberta por comparação de modelos mentais: nesta abordagem,
procura-se representar documentos textuais e o estado de conhecimento
do usuário (modelo mental) através de um formalismo padrão, para, logo
em seguida compará-los.
49. 3.2 Descoberta de Conhecimento em Texto 48
A descoberta de conhecimentos em objetos textuais pode ser feita
através do uso de conhecimentos lingüísticos, estatísticos ou ambos (melhor
detalhado na Seção 9). O Aprendizado estatístico se insere num contexto cuja
linha de pesquisa é chamada de empírica (melhor detalhado na Seção 2.4),
uma vez que se baseia em exemplos já prontos e se aprende como lidar com
aqueles ainda não vistos [17].
Para Loh e outros [74], a técnica de descoberta de conhecimento
é importante para quem trabalha com um grande volume de informações,
ajudando pessoas a descobrir conhecimento útil e novo, geralmente implícito,
minimizando a sobrecarga de informações.
Uma das formas de se descobrir conhecimento é baseando-se em
conceitos (melhor detalhado na Seção 8), os quais evitam o problema do
vocabulário, permitindo analisar dependências entre fenômenos do mundo
real e não entre características do modelo de representação adotado. Os
conceitos são extraídos dos textos através de algum método de classificação
que analisa estatisticamente as palavras presentes nos textos, feito de forma
automática desde que se disponha de alguma ontologia previamente definida
[74].
O problema do vocabulário, segundo Hsinchun Chen [20], origina-se
do fato de que as pessoas, em ambientes CSCW (Computer-Suported
Cooperative Work ou Trabalho Cooperativo Suportado por Computador), ten-dem
a usar diferentes termos para descrever um conceito similar dependendo
de seus conhecimentos anteriores, treinamentos e experiências. Tais tendên-cias,
estão relacionadas a problemas de HCI (Human-Computer Interactions
ou Interação Humana por Computador). Esta pluraridade terminológica pode
levar a problemas de intercâmbio de idéias, o que dificulta o compartilha-mento
e comunicação de informações.
Ainda segundo Chen, é necessária a criação de metodologias de inte-ração
orientadas ao vocabulário. Ele argumenta a existências de estratégias,
tais como, unlimited aliasing, proposto por Furnas e outros e dicionário de
domínio específico proposto por Bates e citados em [20]. Assim, ele propõe
uma solução para o problema do vocabulário4, uma abordagem baseada em
conceitos. Nesta abordagem, ele apresenta o seguinte:
• Identificação do Vocabulário: o mais popular meio de comunicação é
através da linguagem natural. Assim, em colaborações em linha pode-se
aproveitar as saídas textuais para revelar o vocabulário utilizado pelos
4Refere-se às diferenças de vocabulário em comunicações síncronas e assíncronas.
50. 3.2 Descoberta de Conhecimento em Texto 49
diferentesmembros, bemcomo criar e compartilhar o espaço de conceitos
com todos os membros dos grupos. Para tanto, utiliza-se de técnicas
de Inteligência Artificial, especificamente, processamento em linguagem
natural em um domínio de conhecimento específico.
• Ligação de Similaridades do Vocabulário: indexação automática de
textos baseada em conceito proveniente da técnica proposta por Salton,
conhecida como VSM (Vector Space Model ou Modelo de Espaço Veto-rial.).
Nesta técnica, identifica-se, tipicamente, a importância de termos
através de cálculo de tf (term frequency ou freqüência de termo no docu-mento),
df (document frequency ou freqüência do termo no conjunto de
documentos.) e idf (inverse document frequency ou freqüência inversa do
termo no conjunto de documentos, ou seja, os termos menos freqüentes
nos documentos são os mais importantes.). Esta abordagem baseia-se na
análise de agrupamentos e é uma extenção de SVM (melhor detalhado
na Seção 6.1.5) para a geração do espaço de conceito. Os pesos estatísti-cos
entre termos indica a sua forte relevância ou associação.
• Atravessar o espaço do conceito: quando um membro encontrar
um problema de vocabulário durante a colaboração, ele deve consultar,
através de navegadores, o espaço de conceito e identificar o vocabulário
relevante para uso.
Dentre estas formas de descoberta de conhecimento, as técnicas de
KDT, conhecimentos de Lingüística (melhor detalhado na Seção 4.2) e Termi-nologia
(melhor detalhado na Seção 8), estruturadas de acordo com técnicas
descritas no Capítulo (5), serão o objeto desta dissertação.
De uma forma geral, as definições simplificadas apresentadas nesta
Seção têm por finalidade disponibilizar um equacionamento do problema da
compreensão do conhecimento, e desta forma, subsidiar e fornecer direções
para o processamento do conhecimento através de mecanismos artificiais.
Não é objetivo desta dissertação considerar todas as facetas de como os seres
humanos percebem e organizam internamente a realidade e as utilizam na
busca de solução de problemas.
Para haver um melhor entendimento dos conceitos descritos o Capí-tulo
4, a seguir são descritas algumas pesquisas desenvolvidas ou em desen-volvimento
em áreas relacionadas.
51. CAPÍTULO 4
Pesquisas em Área Relacionadas
Este Capítulo trata de um grupo de áreas (ou disciplinas) de conheci-mento
que tem uma forte relação com a descoberta de conhecimento em texto,
seja provendo ou recebendo subsídios tecnológicos (conhecimento). Inicia-se
uma abordagem pela área de Recuperação de Informações (4.1), em se-guida,
são também abordadas a área de Lingüística Computacional (4.2)
com as suas subáreas: Processamento de Linguagem Natural (4.2.1) e
Lingüística de Corpus (4.2.2). Finalmente, é referenciada uma das mais
recentes áreas relacionada a este contexto, que é, a Web Semântica (4.3)
como se pode ver nas Seções a seguir.
4.1 Recuperação de Informações
O termo IR (Information Retrieval ou Recuperação de Informação)
foi criado por Calvin Moore em meados de 1948 e 1950, sendo um campo de
pesquisa interdisciplinar, baseado em muitas áreas. Por sua abrangência ele
não é muito bem compreendido, sendo, freqüentemente, abordado sob uma
ou outra perspectiva. Ele está posicionado na junção de muitos campos já
estabelecidos, tais como: Psicologia Cognitiva, Arquitetura da Informação,
Projeto da Informação, Comportamento da Informação Humana, Lingüística,
Semiótica, Ciência da Informação, Ciência da Computação, Biblioteconomia e
Estatística [5].
A área de IR refere-se à classe de sistemas automáticos de recupera-ção
de informação que permite encontrar documentos relevantes em virtude
de uma necessidade de informação de um usuário. Em outras palavras, é a
área da Ciência da Computação que preocupa com a seleção, num universo
de documentos disponíveis, do conjunto de documentos relevantes para uma
necessidade específica de informação do usuário. Nos últimos anos, a comuni-dade
de pesquisadores está confrontada com um novo e estimulante desafio:
52. 4.1 Recuperação de Informações 51
a concepção e concretização de soluções para um espaço de informação gigan-tesco,
dinâmico e heterogêneo como a Internet.
Baeza-Yates [5] define formalmente modelos IR focando a abordagem
quantitativa, como:
Definição 11 (Modelos IR) Ummodelo de recuperação de informação é uma
quádrupla [D,Q,F,R(qi, dj)] onde:
1. D é um conjunto composto de visões lógicas (ou representações) para o
documento na coleção;
2. Q é um conjunto composto de visões lógicas (ou representações) para as
necessidades de informações. Tais representações são conhecidas como
consultas;
3. F é um arcabouço para modelar representações de documentos, pergun-tas,
e seus relacionamentos;
4. R(qi, dj) é uma função de ranking que associa um número real com uma
consulta qi 2 Q e uma representação do documento di 2 D. Tal ranking
define uma ordenação entre os documentos no que diz respeito à consulta
qi.
Os modelos IR categorizam-se, na ótica das tarefas executadas pe-los
usuários, em três classes, quais sejam: Pesquisa, Filtragem e Navegação.
Dessa forma, a tarefa de Pesquisa é interativa mediante a necessidade de
informação, que é esporádica e baseada em uma consulta. A Filtragem é ba-seada
em configurações onde as necessidades de informações são de caráter
permanente e baseadas em perfis de usuários. Finalmente, a Navegação é
interativa onde a necessidade de informação é do tipo indefinida e a formula-ção
é baseada no percurso [5]. Tais sistemas seguem modelos definidos para a
sua construção, como se pode ver a seguir.
4.1.1 Modelos de IR
Os modelos de IR podem ser categorizados em quantitativos e dinâ-micos.
Na taxonomia dos modelos quantitativos tem-se: os modelos clássicos,
compostos pelos modelos booleanos, vetoriais e probabilísticos. No modelo bo-oleano,
os documentos e as consultas são representados por conjuntos de ter-mos
índices baseados na teoria de conjuntos. No modelo vetorial, documentos
e consultas são representados como vetores em um espaço t-dimensional em
53. 4.1 Recuperação de Informações 52
um modelo algébrico. No modelo probabilístico, os documentos e as consultas
são representados com base na teoria de probabilidade.
No decorrer do tempo, modelos alternativos aos modelos clássicos fo-ram
propostos. Foram propostas a teoria dos conjuntos difusos e o modelo
booleano extendido. Foram propostas as abordagens algébricas: vetor gene-ralizado,
indexação semântica latente e as redes neurais. Finalmente, foram
propostas as abordagens probabilísticas: redes de inferência e redes de opi-nião.
Entre os modelos IR categorizados como dinâmicos pode-se citar:
os sistema especialistas, as redes neurais e os algoritmos genéticos. Uma
das principais utilidades de tais modelos é a possibilidade de adaptação de
interesses, ou seja, esta linha segue a abordagem orientada a usuários [54].
Independente do modelo tecnológico adotado é necessário realizar
medições ou avaliações de resultados conforme se pode observar a seguir.
4.1.2 Avaliação de Sistema IR
Existe um conjunto substancial de métricas para a aferir a eficácia1 e
eficiência2 de sistema IR. Cleverdon citado em [42] apresentou seis quantida-des
mensuráveis para avaliar a competência de sistemas IR:
1. A importância do corpus (coleção), ou seja, a relevância dos documentos
de interesse para o conjunto de todos os usuários;
2. A forma de apresentação de resultados;
3. O esforço e tempo consumido pelos usuários para obtenção de respostas
desejadas (sobrecarga de informação) [111];
4. O tempo de atraso (diferença entre o momento da solicitação e da
resposta);
5. A cobertura (proporção de material devolvido com relação ao relevante
existente);
6. A precisão3 (a proporção de material devolvido que é relevante);
1Ser eficaz significa devolver respostas corretas.
2Ser eficiente significa responder com rapidez de acordo com os recursos computacionais
envolvidos.
3Em engenharia, ciência, indústria e estatística, precisão é o grau de variação de resulta-dos
de uma medição. Não é o mesmo que exatidão que se refere a conformidade com o valor
real.
54. 4.2 Lingüística Computacional 53
Assim, os itens 1,2 e 3 se preocupam com a utilidade e facilidade de
uso; o item 4 se preocupa com a eficiência e os itens 5 e 6 se preocupam com a
eficácia, ou seja o correto funcionamento do sistema IR. De uma forma geral,
admite-se que, quanto mais eficaz for o sistema, maior será a satisfação do
usuário, ou seja, a idéia intuitiva é obter o máximo de documentos possíveis
(máxima cobertura) mas com o mínimo de documentos irrelevantes (máxima
precisão).
A relação entre sistemas IR e as pesquisas relacionadas à descoberta
de conhecimento se deve, principalmente, ao fato de que a área de IR busca
por: utilidade, facilidade de uso, eficiência e eficácia na concepção de siste-mas
IR atuando sobre documentos textuais. Estas atribuições carregam um
alto nível de subjetividade que, certamente, poderá ser enriquecida com as
técnicas de descoberta de conhecimento em texto (ou KDT - Knowledge Dis-covery
from Text), principalmente, na introdução de técnicas de identificação
de conceitos (conhecimento) na formação de termos índices agregando-lhes
tratamento semântico.
4.2 Lingüística Computacional
A lingüística computacional é um campo interdisciplinar (ou multidis-ciplinar)
para tratamento da língua natural com base em conhecimentos esta-tísticos
e/ou com base em regras da linguagem (padrões lingüísticos) de uma
perspectiva computacional. Pesquisas recentesmostramque a língua humana
é muito mais complexa do que se pensou previamente, assim, os lingüistas
computacionais trabalham freqüentemente como membros de equipes inter-disciplinares.
Dentre estas disciplinas incluem-se os lingüistas (treinados especifi-camente
nos conhecimentos da lingüística), os peritos da língua (pessoas com
algum nível de habilidade nas línguas relevantes para um dado contexto) e de
cientistas de computação. A lingüística computacional trabalha com a partici-pação
dos lingüistas, dos cientistas de computação, dos peritos em inteligência
artificial, de psicólogos cognitivos, matemáticos, dos lógicos, e outros.
A Seção seguinte trata da subárea NLP (Natural Language Processing
ou Processamento de Linguagem Natural).