3. CONTEÚDO
1. PRENÚNCIOS (pág. 4)
2. COMPUTAÇÃO COGNITIVA (pág. 14)
3. ARQUITETURA DA INFORMAÇÃO 1 (pág. 35)
4. ARQUITETURA DA INFORMAÇÃO 2 (pág. 36)
5. ARQUITETURA DA INFORMAÇÃO n+1 (pág. 37)
6. O LEXML (pág. 38)
7. PROTÓTIPO ALYSCI (pág. 40)
8. CONSIDERAÇÕES FINAIS (pág. 50)
BIBLIOGRAFIA
3
4. 1. PRENÚNCIOS
Rowley (1994) influenciou por dez anos os alunos da
graduação de biblioteconomia, trazendo de maneira didática
os componentes físicos da computação às bibliotecas. Esta
abordagem é suficiente como ponto de partida para o estudo.
Observa-se em Rowley (1994) que os componentes físicos e
lógicos da computação irão desenvolver-se motivados para
usabilidade pelos humanos. Assim, parte-se da linguagem de
programação de máquina aos compiladores, para proporcionar
ergonomia e consistência ; das linguagens de 1a
e 2a
geração às
de alto nível, considerando como referência o homem à
máquina (o homem no alto nível) ; e, por consequência, a
lógica de programação JAVA, PHP e a popularização dos
padrões HTML, XHTML, pelo XML, que permitiram a cultura do
websource e do software livre ; e a reestruturação lógica.
A linguagem de programação Python fecha este ciclo numa via
de retorno máquina-homem e tentando equiparar ambos
contextos cognitivos, na quinta geração.
A lógica do BIT, unidade de processamento dos pulsos
elétricos 0 e 1, e sua associação à unidade semântica dos
humanos, a letra – o BYTE, trouxe uma possibilidade de
desenvolvimento da computação cognitiva por similaridade ao
processo de organização da mente humana.
4
5. Rowley (2002) percebe a necessidade de inserir a biblioteca na
rede, o impacto da explosão da rede ; a explosão da WEB, e
não mais a explosão informacional. O que era um OPAC –
Catálogo Online de Acesso ao Público em um hospedeiro na
rede, passa a ser ressignificado como biblioteca eletrônica, a
biblioteca digital, a biblioteca conectada.
Esses conceitos foram misturados e causaram muita confusão
nos anos seguintes, o que foi retomado e delimitado com a
biblioteca digital em Tammaro (2008) num contexto próprio.
Após esta delimitação seguiu outro aspecto, o surgimento dos
repositórios, que novamente demandam uma abordagem
própria e distante da biblioteca digital.
O metadado, unidade da base de dados, e o registro e/ou
arquivo, unidade do banco de dados, passam a ter um
desenvolvimento difuso tanto pela ciência da informação
como pela computação. Muitos conceitos são diversos nas
áreas e possuem uma nomenclatura distinta.
Porém, o arranjo do metadado e dos registros e/ou arquivos
em uma base de dados ou banco de dados, respectivamente,
não foram suficientes para garantir o desenvolvimento
semiológico do contexto de conhecimento humano, bem
como da sua tradução à máquina. Surge o paradigma da Ccog:
- Como fazer a máquina apreender profundamente? Ou,
- Como desenvolver cognição fina em máquinas?
5
6. Após Tammaro (2008), a Ciência da Informação CI, ganha um
importante caso de sucesso na implementação de uma rede de
informações por ontologias jurídicas, o LexML. O fato é que a
explosão da WEB demandou projetos de ‘marcação’ semântica
para dar conta da infinidade de relações semiológicas
proporcionadas pelos hipertextos e conteúdos.
Gottschalg-Duque (2005, p. 1) afirma que “a Rede Mundial de
Computadores (ou simplesmente Internet) é considerada um
repositório de informações de uma grandeza incomensurável.
Há estimativas de que ela cresça exponencialmente, dobrando
de tamanho a cada seis meses. Em 1999 existiam mais de 800
milhões de páginas HTML (LAWRENCE & GILES, 1999)”.
Entretanto, a explosão da rede cria por consequência uma
série de problemas epistemológicos, a exemplo de Vapnik
(1998) a despeito da construção de teorias de aprendizagem
de máquinas, bem como da Internet profunda e os problemas
de recuperação da informação e uso do protocolo z 39.50.
O projeto Eroic (2010, p. 14) nos lembra que “começou-se a
falar de Web (…) quando a Internet (rede internacional, rede
interligada, etc.) se consolidou como uma realidade que
ultrapassava os limites conceituais do seu idealizador Tim
Berners-Lee (1989), quando ainda trabalhava no CERN (Centre
Européen de Recherches Nucléaires) em Genebra, na Suíça,
tornando realidade os sonhos ou premonições de Paul Otlet”.
6
7. Sobre a efemeridade da informação, bem como os problemas
metafísicos que a explosão da rede trouxe a delimitação do
objeto da CI, Costa (2010, p. 16) nos lembra sobre um alerta
“alma, não procure a vida imortal, esgote antes o reino do que
é possível – referenciando a expressão de Pindaro de Beozia
(518 – 438 a. c.) [que] expressa a necessidade de ser e estar na
realidade. Somos habitantes da realidade, nos adaptamos e
transformamos o que está a nossa volta”.
De fato, “vista por outro prisma a aclamada expressão ‘cogito
ergo sum’ de Renè Descartes (1596 – 1650) revela a essência de
nossa marca na realidade” (COSTA, 2010, p. 16). Então, como
deduzir a materialidade do objeto da CI, dada a sua
impossibilidade de ‘enquadramento’ em um único ‘estado’?
Gottschalg-Duque (2005, p. 1) afirma a “parte denominada de
‘Web superficial’ (“surface web”), pois na ‘Web profunda’
(“deep Web”) calcula-se que existam mais de 550 bilhões de
documentos incluindo-se Intranets e Bancos de Dados
corporativos cujo acesso é restrito (BRIGHTPLANET, 2000)”.
Tudo começou com o artigo ‘Certain Factors Affecting
Telegraph Speed’ de Harry Nyquist escrito em 1924, toda a
teoria foi desenvolvida no campo das telecomunicações, nos
laboratórios da Bell, por Shannon &Weaver. Nasceu o maior
problema da CI = a impossibilidade de delimitar a informação.
7
8. Vapnik (1998) apresenta os seguintes problemas de resolução:
The general qualitative theory that includes the necessary and
sufficient conditions for consistency of learning processes.
The general quantitative theory that includes bounds on the
rate of convergence (the rate of generalization) of these
learning processes.
Principles for estimating functions from a small collection of
data that are based on the developed theory.
Methods of function estimation and their application to
solving real-life problems that are based on these principles.
Então, decorre:
Os teoremas de Vapnik sobre o estado anômalo da unidade
semântica do pensamento humano à similaridade da unidade
de pensamento das máquinas insere a estatística na Ccog.
8
9. O comportamento heurístico do simbilamento dos estados de
alternância 0 e 1, mais tarde, irão adicionar a Computação
Quântica à problemática da encriptação de informações.
Observe que a equação de Nyquist era: W = K log m.
Onde W: é a velocidade de transmissão da ‘inteligência’
m: é o número de níveis de tensões por intervalo de tempo
K: é uma constante observada
Quando se admite uma integral com base logarítimica,
automaticamente, assume-se uma ascendente ao infinito de
possibilidades de ‘estados’ de informação ;
consequentemente, a impossibilidade hermética desta ; e, um
estado ‘quantico’ da mesma, comprometendo, assim, a
segurança de componentes tradicionais de computação.
Em 1928, Ralph Hartley publicou o artigo ‘transmission of
information’ onde a informação apresenta-se como um
fenômeno mensurável:
Onde s e n representam, respectivamente, o número de
grandezas possíveis e o número de grandezas na transmissão
da informação. Essa unidade natural H, foi chamada de Hatley
em uma clara homenagem.
9
10. Costa (2010, p. 16) afirma “os meios de ordenação dos tijolos
de nossa expressão na realidade revelam o grau de exatidão
que alcançamos na compreensão do modo que estamos
ajudando a construir”. Não poderíamos, portanto, ignorar que
o processo cognitivo humano é construído por sínteses de
informação, as sinapses, e que, de fato, podem existir
processos metafísicos, dado a ‘quântica’ de processamento.
Alan Turing, em 1940, aplicou ideias similares para uma análise
probabilística para desencriptar uma máquina alemã chamada
Enigma. Turing aplicou probabilisticamente grandezas de
transmissão possíveis para n, e grandezas de transmissão
aplicáveis para S, observando um padrão de transmissão da
máquina codificada, descobrindo assim, os intervalos de
frequência de transmissão tabuláveis, aplicando um padrão
dedutível dessa frequência, transformando-os em códigos
binários para desencriptação da máquina Enigma.
A partir deste marco, não se fala de inteligência artificial sem a
natural associação ao Teste de Turing, muito presente no
ideário cultural de Yuval Noah Hahari. Porém, essa ‘cultura
pop’ da inteligência artificial, bem como suas especulações e
distopias, criam uma névoa em torno da matemática discreta
aplicada à Ccog e aos sistemas heurísticos de aprendizagem.
- É possível a substituição de humanos por máquinas nos
processos de cognição fina? Como seria a ética aplicada?
10
11. Costa (2010, p. 17) “dentre os vários ramos científicos
existentes a Arquitetura da Informação – como disciplina da CI
– surgiu como uma promissora forma de perceber e manipular
a informação em suas variadas manifestações na realidade”.
Gottschalg-Duque (2005, p. 1) traz que “somente o Google,
hoje a mais eficiente máquina de busca em atividade, indexa
mais de três bilhões de páginas Web (GOOGLE, 2005). Essa rica
coleção do saber humano (a Web) está disponibilizada em
mais de 59.100.880 Web sites (WEB SERVER SURVEY,
Fevereiro, 2005) e, teoricamente, acessível a qualquer cidadão
do mundo (INCLUSÃO DIGITAL, 2005)”.
O projeto Eroic (2010, p. 14) contextualiza “a Web, até os
últimos anos do século passado, caracterizava-se por suas
páginas estáticas, comportando textos, imagens e links, que
somente podiam ser alteradas pelo webmaster. No início do
novo século ocorre uma mudança progressiva e irreversível
que torna as páginas dinâmicas e abre aos usuários a
possibilidade de alterar e acrescentar dados. Nasce a Web dos
usuários, e blogs e redes comunitárias se multiplicam e se
expandem”.
“[...] a expressão Web 2.0 surgiu durante uma sessão de
brainstorming entre O‘Reilly e Medialive International. O que é
Medialive International? Produtores de conferências e shows
comerciais sobre tecnologia segundo o site da entidade.
11
12. Assim, pode-se pensar que essa sessão de brainstorming‘ era o
seguinte: O‘Reilly desejava organizar uma conferência sobre a
Web e eles buscavam um nome para ela. […] Havia algo como
um desgaste semântico: sabiam que estavam acontecendo
coisas novas e escolheram 2.0 para se referir a todo o que
poderia vir pela frente. (A tradução é nossa)” (EROIC, 2010).
Gottschalg-Duque (2005, p. 1) “Esta é a realização da primeira
parte da Revolução da Informação, o acesso instantâneo do
indivíduo à informação (LÉVY, 1995; NEGROPONTE, 1995;
DERTOUZOS, 1997; TAKAHASHI, 2000). Porém, tamanha
coleção gera enormes problemas (WITTEN, MOFFAT & BELL,
1999; LYMAN and VARIAN, 2000). Esta informação que está
acessível a todos está sendo gerada e manipulada em vários
idiomas e estilos e representa a expressão de várias culturas,
ideologias, crenças, etc. Como a informação vem sendo
organizada? Como tratá-la e recuperá-la?”.
A folksonomia é geradora da temática da Websemântica pelo
W3C, no intuito de possibilitar descrição semântica por meio
de metadados XML. Imagine como esse viés ajudou na
concepção do LeXML? Não seria possível sem a Websemântica.
Vapnik (1998) afirma que é necessário, portanto:
1. Construir uma teoria de processos de Learning Machine LM
2. Construir uma teoria de ‘bounds’ ou transmissão na rede
3. Construir uma teoria de desambiguação ontológica
12
13. 4. Construir uma teoria de algoritmos de LM
5. Aprofundar a teoria do LM à cognição fina
De fato, por uma década, as tecnologias da WEB vêm se
esforçando na intenção de aproximar o aprendizado de
máquinas ao viés dos humanos. Como escutar? Como
enxergar? Como falar? Como sentir? Como inferir?
Se na comunicação de uma mensagem entre duas pessoas já
existem problemas semiológicos, como se daria essa questão
na comunicação entre máquinas e entre máquinas e pessoas?
O problema fundamental da comunicação é reproduzir em um
dado ponto, exata ou aproximadamente, uma mensagem
produzida em outro ponto. Com o artido de Shannon-Hartley:
• a) A entropia da informação e redundância de uma fonte
e sua aplicação no teorema de codificação da fonte; b) A
informação mútua e capacidade de um canal com ruído,
incluindo a promessa de comunicação sem perdas
estabelecida no teorema de codificação de canais-
ruidosos; c) A lei de Shannon-Hartley para a capacidade
de um canal Gaussiano; d) O bit – uma nova forma de
enxergar a unidade fundamental da informação.
Todas estas questões são sistematizadas por Vapnik (1998) nos
seus modelos estatísticos e probabilísticos da informação.
13
15. Monard (2003) afirma que “ainda que LM seja uma ferramenta
poderosa para a aquisição automática de conhecimento, deve
ser observado que não existe um único algoritmo que
apresente o melhor desempenho para todos os problemas.
Portanto, é importante compreender o poder e a limitação dos
diversos algoritmos de AM utilizando alguma metodologia que
permita avaliar os conceitos induzidos por esses algoritmos em
determinados problemas”.
Em se tratando de LM, o ‘sujeito’, máquina, insere-se em uma
fenomenologia que, de acordo com Costa (2010, p. 35), “surge
a ideia de que a relação entre sujeito e objeto [informação] é
um fenômeno e deve ser caracterizado. Nas investigações
lógicas de Husserl (1970) a fenomenologia toma forma para
indicar as manifestações que se apresentam ao sujeito”.
O fenômeno ‘inteligência artificial’ vai ser iniciado, de acordo
com Gottschalg-Duque (2005, p. 3), como um “emprego do
processamento de linguagem natural PLN, objetivando
melhorias de um Sistema de Recuperação de Informação”.
Porém, alerta que “normalmente os SRI’s não utilizam PLN,
mas técnicas diretas, como a extração de sentenças ou de
radicais de palavras combinadas com técnicas estatísticas”.
Witten (2005) desenvolve 558 laudas neste sentido, o data-
mining ou ‘extração de dados’ são as práticas [ou Tools] de
técnicas aplicadas à LM.
15
16. Segundo Witten (2005) uma árvore de decisão representa
regras e vantagens de visualização, que para muitos
propósitos é mais concisa e perspicaz representação de regras
e tem a vantagem de poder ser visualizado mais facilmente.
FONTE: Witten (2005, p. 14)
Essas ontologias serão apresentadas por Costa (2010, p. 36)
como a percepção deste sujeito que tornaria o fenômeno uma
manifestação em si, e que “Husserl reconhece que o
fenômeno não é uma manifestação natural dos objetos (…) é
a revelação da essência”.
Gottschalg-Duque (2005, p. 8) ensina que “existem outras
medidas de avaliação de Sistemas de Recuperação, sendo que
as mais disseminadas, sob a ótica da Ciência da Computação,
são as medidas de Precisão, que é a fração de documentos da
16
17. coleção que já foram examinados e que são relevantes para
uma busca específica, e Revogação, que é a fração de
documentos da coleção, dentre os que já foram examinados
para uma busca específica, e que são relevantes (FRAKES &
BAEZA-YATES, 1992; GEY, 1992; FERNEDA, 2003)”.
O fato é que Lancaster (2004) tenta afirmar que as linguagens
documentárias automáticas são opostas a essa proposta de
Gottschalg-Duque (2005), e que são sim, sistemas de
recuperação da informação mais eficazes. Porém, as
ontologias nascem, na computação, como filhas das
folksonomias. Em certa medida, Lancaster (2004) tentou
desarticular a atividade de indexação por humanos e dar
prioridade às linguagens documentárias de máquinas.
Witten (2005, p. 243) afirma que “árvores [ontologias] são
usadas para predição numérica, são como decisão comum, a
exceção de que em cada folha elas armazenam um valor de
classe [valor médio das instâncias], em modelo de regressão
linear que prediz o valor de classe de instâncias que atingem a
folha, caso uma árvore se denomine modelo”.
O potencial preditivo da computação permite trabalhar a
universalidade semântica das ontologias, mesmo que estas
sejam articuladas livremente, como de fato são, é muito
incomum, portanto, encontrar ontologias de linguagens
documentárias artificiais, mas sim, em linguagem natural.
17
18. É justamente neste sentido que a inteligência artificial trabalha
a singularidade do aprendizado de máquina. O que corrobora
uma enorme demanda, visto que, a diversidade idiomática é
expressiva. Inicialmente, parte-se do contexto de
reconhecimento de imagens, depois aos contornos e,
atualmente, à interpretação textual, semiológicas e de
imagens. É necessária muita linguística às máquinas.
Quando Martin Ciupa tenta popularizar a inteligência artificial
nas redes sociais, e traz uma análise da observação preditiva
dos movimentos solares, ele quer afirmar que o sistema
especialista consegue identificar as imagens, ‘anotar’ suas
singularidades, classificar em padrões ontológicos e realizar
previsões estatísticas ponderadas em padrões.
FONTE: Witten (2005, p. 250)
18
19. Porém, Witten (2005, p. 254) vai identificar que a LM não é um
mero clustering de dados. “clustering são escolhas de pontos
para representar centros [NÓS] de clusters iniciais. Todos os
pontos de dados são atribuídos para o mais próximo, o valor
médio dos pontos em cada cluster é calculado para formar seu
novo centro de cluster [RENQUE ou CADEIA], e a interação
continua até que não haja mudanças nos clusters”. Nos
fenômenos naturais, portanto, haverão situações atípicas.
Gottschalg-Duque (2005) traz uma análise interessante:
Lesk (1995), em seu artigo intitulado “The Seven Ages of Information
Retrieval”, inspirando-se em Shakespeare, propõe a seguinte
cronologia para a Recuperação de Informação: Infância (1945-1955);
Idade Escolar (anos 60); Maioridade (anos 70); Maturidade (anos 80);
Crise da Meia-Idade (anos 90); Realização (anos 2000) e
Aposentadoria (2010). O artigo retrata a história da Recuperação de
Informação ao longo dessas sete fases, referenciando-se às previsões
de Bush (1945), estabelecendo um paralelo entre as mesmas com as
diferentes etapas que compõem a vida humana. O quadro 2.1
apresenta as três grandes seções, que compõem a Ciência da
Informação, de acordo com a visão de Summers et al. (1999): Ciência
da Informação propriamente dita, Gerenciamento da Informação e
Tecnologia da Informação.
Seguem décadas de argumento de programação neuro-
linguístico e a heurística computacional, pelo viés ponderado
da estatística após Vannevar Bush (1945).
19
20. FONTE: Gottschalg-Duque (2005, p. 10)
Gottschalg-Duque (2005, p. 14) relembra que “Ranganathan
(1985) criou uma ordem de citação de assuntos utilizando
cinco categorias distintas: Personalidade/Entidade
(Personality/Entity); Matéria (Matter); Energia (Energy);
Espaço (Space); e Tempo (Time)”. E “para Ranganathan, o
princípio de relevância objetiva garantir a autenticidade das
facetas, ou seja, que as facetas definidas sejam a proposta, o
assunto e o escopo do tema a ser tratado”. Isso reforça a
interdisciplinaridade da ontologia com a taxonomia.
20
21. Costa (2010, p. 36, adaptado) explica que “a fenomenologia
está fundamentada nos seguintes princípios: 1) em primeiro
lugar a consciência é intencional; a consciência transcende em
direção ao objeto e o ‘sujeito’ [MÁQUINA] pretende apreender
o objeto. 2) Este, por sua vez [NÓ ou ONTOLOGIA] se
apresenta ao sujeito em sua essência”; 3) o segundo princípio
é a evidência intuitiva que o objeto deixa no sujeito [SER
HUMANO]. A prova a partir da qual o sujeito assume a
consciência do objeto; e 4) o terceiro elemento é a
generalização da noção do objeto [TAXONOMIA]. Um objeto
pode ser reconhecido em sua essência e por sua categoria. Por
último surge o princípio da percepção imanente [MÁQUINA ou
SER HUMANO]. O sujeito possui suas próprias experiências”.
O projeto Eroic (2010, p. 26) delimita que “ontologias – como
duas bases podem utilizar diferentes identificadores para o
mesmo conceito, é preciso se servir de um programa que
possa combinar ou comparar informações das duas bases de
dados, ― sabendo que os dois termos significam a mesma
coisa. A solução, para que o programa possa ―descobrir o
significado comum, seriam, teoricamente, as coleções de
informações denominadas ―ontologias, termo cooptado da
Filosofia pelos pesquisadores da Web semântica com um
sentido que nada tem a ver com o estudo do ser”.
Ou seja, ontologia não é possível sem a heurística diferencial.
21
22. Gottschalg-Duque (2005, p. 15) contextualiza que
“Atualmente, mudou-se o enfoque do problema. A questão
não é mais saber se determinada informação encontra-se
disponível na Web, mas saber a localização exata dessa
informação. As máquinas de busca (BRIN & PAGE, 1998;
RAKHSHAN et al., 2003) (ALTAVISTA, TODOBR, por exemplo) e
os diretórios (CADÊ, YAHOO, por exemplo) (BAEZA-YATES &
RIBEIRO-NETO, 1999; CENDÓN, 2001) geralmente indexam e
recuperam as páginas Web (normalmente em HTML, porém já
existem muitas páginas em outros formatos, como XML, por
exemplo) (ALMEIDA, 2002), baseando-se somente no texto e
desprezando os vínculos que foram construídos pelos autores
das páginas”.
Continua (Idem, 2005, p. 15) “entretanto, o Google (GOOGLE,
2005) utiliza-se do julgamento humano (através das escolhas
dos seus usuários) para reordenar as páginas apresentadas em
uma determinada consulta. Como funcionam tais “depósitos
de informação?” Os diretórios são construídos através de
julgamento humano. Há profissionais, especialistas de várias
áreas do conhecimento humano, conjuntamente com
especialistas da tecnologia da informação, que navegam pela
Web coletando e indexando as páginas Web; isto restringe
extremamente o tamanho dos diretórios e o tempo de
atualização dos mesmos”.
22
23. “XML e RDF – duas importantes técnicas para o
desenvolvimento da Web Semântica já estavam disponíveis
quando Berners-Lee escreveu seu artigo: A Linguagem de
Marcas eXtensível (eXtensible Markup Language – XML) e
Marco para Descrição de Recursos (Resource Description
Framework – RDF). XML permite a qualquer um criar suas
próprias etiquetas (tags) – etiquetas escondidas como as
usadas para anotar ‘as páginas Web ou partes de texto na
página. Programas ou scripts‘ podem ser usados de formas
sofisticadas, mas quem escreve o script deve conhecer para
que usa as tags o autor da página. XML permite que os
usuários acrescentem livremente estruturas aos seus
documentos, mas não indicam nada sobre seu significado. O
significado se expressa mediante RDF, que o codifica em
grupos de tríades (triples) – frases elementares formadas por
sujeito, verbo e objeto. As tríades podem ser escritas usando
tags XML. Em RDF, as tríades do documento fazem assertivas
sobre coisas particulares (pessoas, páginas Web ou quaisquer
coisas) que têm propriedades (―é irmã de, ―é autor de) com
certos valores (outra pessoa, outra página Web)”.
(EROIC, 2010, p. 26).
Percebe-se que sempre tentamos dissociar Websemântica,
pelo W3C, de Computação Cognitiva ou LM, porém a aplicação
sintagmática da rede já apresenta um viés prático da Ccog.
23
24. FONTE: Eroic (2010, p. 28)
Gottschalg-Duque (2005, p. 15) explica que “por outro lado, as
máquinas de busca coletam e indexam as páginas disponíveis
na Web através da utilização de robôs coletores (PINKERTON,
1994; KOSTER, 1995; CHO et al., 1998; ZIVIANI et al., 1999).
Esses robôs são programas que percorrem a estrutura de
hipertexto da Web recuperando páginas HTML. Após a coleta,
as páginas são armazenadas e indexadas. O armazenamento e
a indexação se dão de várias maneiras (WITTEN et al., 1999;
FRAKES & BAEZA-YATES, 1992; BAEZA-YATES & RIBEIRO-NETO,
24
25. 1999). Normalmente utiliza-se de uma estrutura de arquivo
invertido”. Como tipologias de arquivos invertidos o autor
apresenta: 1) arranjo ordenado ; 2) árvores B ; 3) árvores trie ; e
4) estruturas com Hashing .
Essas tipologias serão estudadas a frente ‘dos tipos de
arquiteturas da informação’. Como modelos de indexação
apresentam-se: “a) o modelo booleano ; b) o modelo booleano
estendido ; c) o modelo probabilístico ; d) o modelo de string
search e e) o modelo vetorial”. (GOTTSCHALG-DUQUE, 2005).
FONTE: Gottschalg-Duque (2010, p. 18)
Monard (2003, p. 40, adaptado) afirma que “indução é a forma
de inferência lógica [MÁQUINA] que permite obter conclusões
genéricas sobre um conjunto particular de exemplos. Ela é
caracterizada como o raciocínio que se origina em um conceito
específico e o generaliza, ou seja, da parte para o todo”.
Ou seja, o principal processo de LM é o indutivo inferencial.
25
27. computacionais como para melhorar a comunicação entre
seres humanos (SANTOS, 2001)”.
Quando os sintagmas nominais são ‘clusterizados’, essa pré-
inteligência artificial, ainda não possui suporte para
intencionalidade e a hermenêutica, somente a pura ontologia:
FONTE: Witten (2005, p. 256)
Gottschalg-Duque (2005, p. 20) pondera que “a contribuição
da Lingüística e da Lingüística Computacional para a
Biblioteconomia e para a Ciência da Informação não é
recente.” Observe o quadro a seguir:
27
28. FONTE: Gottschalg-Duque (2005, p. 20)
São atributos de análise neuro-linguística [HUMANO]:
Morfológica “A análise morfológica (HAGEGÉ, 1997; SANTOS,
2001; PAULO et al. 2002) é aquela em que o
texto é fragmentado para a determinação de
seus componentes, as palavras e os sinais. As
palavras são processadas de acordo com suas
partes (raiz, afixos, prefixos e sufixos), e os
sinais, como a pontuação, são separados da
palavra, podendo ou não ser considerados
relevantes”. (Gottschalg-Duque, 2005, p. 23)
Sintática “A análise sintática (CLARK & CLARK, 1977;
CRAIN & STEEDMAN, 1985; CHOMSKY, 1986;
1995; BICK, 1996; SANTOS, 2001) é aquela em
que cada termo da frase, e consequentemente
do texto, recebe um nome que exprime a sua
função dentro da estrutura oracional, função
28
29. esta que é decorrente do seu relacionamento
com um outro termo. Essa análise sintática
necessita dos resultados da análise morfológica,
para criar uma descrição estrutural da frase”.
(Gottschalg-Duque, 2005, p. 24)
Semântica “A análise semântica (FILLMORE, 1968;
FREDERIKSEN, 1975; 1986; JACKENDOFF, 1990,
1994; GERNSBACHER, 1994) permite a
identificação do significado de cada termo
(palavra) da frase, isolada e conjuntamente com
outros termos. Permite a identificação dos
conceitos primitivos do texto, aqueles que
mantém a essência do texto”. (Gottschalg-
Duque, 2005, p. 29)
Pragmática “A análise pragmática (KINTSCH & van DICK,
1993; DRESNER & DASCAL, 2001) refere-se ao
processamento daquilo que foi dito ou escrito
em contraste com o que realmente se quis dizer
ou escrever. Muitos estudiosos consideram tais
análises como sendo extralingüísticas, que não
pertencem ao domínio da Lingüística e sim da
Psicologia, da Filosofia e da Antropologia”.
(Gottschalg-Duque, 2005, p. 31)
São atributos de análise semiológica de redes neurais
[MÁQUINA]: parametrização particular descendente e
inferência generalizada ou modularização. (VAPNICK, 1998).
29
30. Gottschalg-Duque (2005, p. 31) explica que “ontologia é um
ramo da filosofia que estuda o ser e tudo que se relaciona ao
ser (HEIDEGGER, 1925). Neste estudo ontologia é restrita à
ótica da Inteligência Artificial. É apenas uma especificação
formal de uma conceitualização compartilhada, que é uma
visão abstrata e simplificada do universo que se pretende
representar (GRUBER, 1993)”.
Já sabemos, portanto, que os processos de LM serão baseados
em inferências por modularização em ontologias
[TAXONOMIAS], por meio de cadeias e renques, e que
acontecerá uma parametrização particular descendente nos
diversos níveis de cadeias. Porém, processos de
intencionalidade e hermenêutica, ainda encontram-se
primitivos nas aplicações às máquinas.
Solomonoff (1956, p. 14) afirma que “uma máquina projetada
para aprender a trabalhar problemas de matemática, ao
receber uma série de exemplos categorizados, por associação
e indução, deve ser capaz de envolver um método pelo qual
eles podem ser resolvidos”.
Monard (2003) explica que cada exemplo é descrito por um
vetor de valores de características ou atributos e o rótulo da
classe associada [ONTOLOGIA]. “O objetivo do algoritmo de
indução é construir um classificador que possa determinar
corretamente a classe de novos exemplos” [INFERENCIAIS].
30
31. A noção de momento é definida por Costa (2010, p. 41) aos
sistemas de inteligências artificiais por associação ao grande
problema da Websemântica, que é a continuidade as
associações em cadeias de renques. “O termo é oriundo do
latim momentum. Trata-se de uma expressão que é
empregada na atualidade de quatro modos distintos”.
Quando Gottschalg-Duque (2005, p. 32) define “uma ontologia
(strictu sensu) é composta de classes, relações, regras e
instâncias (CORAZZON, 2003). Uma Ontologia é um “catálogo
de tipos de coisas”, às quais assume-se existir em um domínio
de interesse (SOWA, 1999). Para BORST (1997), uma Ontologia
é uma especificação formal e explicita de uma conceitualização
compartilhada. As diferenças encontradas entre as abordagens
distintas residem principalmente na estrutura, função e
aplicação. Entretanto, as ontologias existentes nas pesquisas
desenvolvidas pela I.A” ; por associação, temos que lembrar de
Koch (1984) quando define os sintagmas intencionais (verbais)
alinhados ao momentum [KRHONUS].
Esse é um dos grandes problemas da linguística e, por
consequencia, da Websemântica. A LM fica comprometida
com as múltiplas ambiguidades semânticas dos diversos
idiomas, quando se trata de ‘momentum’ [intencionalidade].
Costa (2010, p. 41) continua “o momento mecânico linear é
quantidade de movimento e o vetor de posição de partícula”.
31
32. Por sua vez, momento angular é a resultante do produto entre
o vetor de quantidade de movimento e o vetor de posição de
uma partícula [INFORMAÇÃO QUÂNTICA] posta em
movimento. (COSTA, 2010, p. 41).
Ontologias sem a noção de intencionalidade e/ou momentum,
podemos destacar as do tipo ‘ontologias leves’ por Gottschalg-
Duque (2005, p. 33) “atualmente as ontologias são utilizadas
de maneiras variadas e para vários fins (GUARINO, 1997; DING
& FOO, 2001). Para a aplicação na Recuperação Automática de
Informação a utilização de “Ontologias Leves” parece ser uma
opção mais prática, pois, a princípio, elas podem ser
automatizadas de modo mais simples”.
Costa (2010, p. 41) explica que “o sentido dialético do
momento refere-se a uma fase de uma dialética. (…) A
necessidade é composta pelos momentos da condição, da
coisa em si, e da atividade”.
Por Koch (1984) deduzimos Gottschalg-Duque (2005) e Costa
(2010), nos problemas da arquitetura da informação, a
linguista explica “dentre as relações que se estabelecem entre
o texto e o evento que constitui a sua enunciação, podem
destacar as seguintes: a) carregados de pressupostos ; b)
contém intenções explícitas e implícitas ; c) são modalizadores
de atitudes ou ações ; d) possuem operadores
argumentativos ; e e) podem transmitir imagens recíprocas”.
32
33. Gottschalg-Duque (2005, p. 33) explica que as ontologias leves
(DIN & ENGELS, 2001) são ontologias simples, “incompletas”,
pois são compostas apenas de classes e instâncias, não
contendo funções (relações especiais entre as classes) ou
outros tipos de primitivas de representação”.
O autor categoriza as ontologias leves:
• Apresentam uma estrutura de árvore rasa
• Podem ser extraídas diretamente das linguagens naturais
• Podem ser geradas semi-automaticamente a partir de
documentos de um dado domínio
• Base teórica e metodológica advinda do Processamento
de Linguagem Natural PLN, aprendizado automático LM,
extração da informação e recuperação da informação
• Contêm muito ruído, a ambiguidade das palavras é de
difícil tratamento
• O refinamento das mesmas, independentemente de
terem sido obtidas automática ou semi-
automaticamente, não é trivial e requer abordagens
heurísticas
• A identificação e aprendizado automático das relações
existentes entre seus elementos ainda é um problema de
tratamento complexo
• São usadas para uma determinada tarefa ou para um
domínio bem específicos
33
35. 3. ARQUITETURA DA INFORMAÇÃO 1
Arquitetura da informação (AI) é um campo consolidado pelo
consenso de que oferece interface para o desenvolvimento de
ambientes digitais. Cammargo (2011) afirma que a AI permite
elaborar uma estrutura que visa à organização das
informações para que os usuários possam acessá-la mais
facilmente e encontrar seus caminhos de conhecimentos.
Costa (2010) apresenta uma série de abordagens de
epistemologia dos humanos, porém é através de Popper que o
raciocínio hipotético dedutivo partilha o conhecimento em
unidades [ONTOLOGIAS] ou metadados, em bases de dados
ou sistemas de recuperação da informação SRI, e que permite
combinações entre os nós da rede ao conhecimento.
Gottschalg-Duque (2005) apresenta uma estruturação de
arquiteturas da informação do tipo 1 quando traz as tipologias
de arquivos invertidos o autor apresenta: 1) arranjo ordenado ;
2) árvores B ; 3) árvores trie ; e 4) estruturas com Hashing .
Essas tipologias serão estudadas a frente ‘dos tipos de
arquiteturas da informação’. Como modelos de indexação
apresentam-se: “a) o modelo booleano ; b) o modelo booleano
estendido ; c) o modelo probabilístico ; d) o modelo de string
search e e) o modelo vetorial”.
Aos bibliotecários, recomendo a leitura complementar de
noções de bancos de dados, registros e do Dublin Core.
35
36. 4. ARQUITETURA DA INFORMAÇÃO 2
Quando se falava em arquitetura cliente e servidor e nos
bancos de dados tradicionais, a cultura do Big Data apresentou
uma visão disruptiva por virtualizar máquinas e permitir a
multitarefa e o aprendizado de máquinas por meio dos
grandes repositórios de dados.
Monard (2003) apresenta cinco tipos de aprendizado de
máquina: 1) simbólico ; 2) estatístico ; 3) baseados em
exemplos ; 4) conexionista e 5) genérico.
Fonte: Monrad (2003, p. 41)
Na biblioteconomia o processo de estruturação de uma AI
como preemptório da sistemática genérica ‘classificação’ é
amplamente utilizada pelo z 39.50 na profundidade da WEB.
36
37. 5. ARQUITETURA DA INFORMAÇÃO n+1
Quando Gottschalg-Duque (2005, p. 71) pondera análises
preditivas da marcação semântica de sintagmas verbais
[MOMENTUM] para os analisadores sintáticos ; e Costa (2010)
faz uma ampla revisão da teoria da ciência e da fenomenologia
[que pode se utilizada tanto para entender a metafísica da
informação quanto o entendimento das máquinas], podemos
admitir uma infinidade de arquiteturas da informação.
Vamos assumir a Websemântica como uma marcação
sintagmática da WEB com a finalidade conexionista. Monard
(2003) ensina que as redes neurais [conexionistas] são
construções matemáticas simplificadas inspiradas no modelo
biológico do sistema nervoso. A representação de uma rede
neural envolve unidades altamente interconectadas e, por esse
motivo, o nome conexionismo é utilizado para descrever a
área de estudo. Observe que o Google apresenta LM:
37
38. 6. O LexML, o viés conexionista
Moraes (2001) classificam as Search Engines, conforme:
As camadas das ‘search engines’ aplicadas com a
websemântica podem possuir:
• A camada esquema: que estrutura os dados e define seu
significado;
• A camada ontologia: que define as relações entre os
dados;
• A camada lógica: que define mecanismos para fazer
inferências sobre os dados.
Observe no portal do LexML essa estruturação:
www.lexml.gov.br
38
39. As camadas da Websemântica Morais (2001):
A camada esquema provê uma forma de definir os dados do
documento e o significado associado a esses dados. Trata
também da estruturação e disposição dos dados de forma que
os programas que rodam na web possam fazer inferência a
partir dos mesmos. (MORAES, 2001).
Aqui indico a comunidade W3C Brasil: www.w3c.br
39
40. Porém, para que haja representação do conhecimento são
necessárias três condições:
A camada ontologia foi estudada com Gottschalg-Duque
(2005) a contento. Veremos a seguir, no protótipo de enlace
AlyscI beta, o esforço de resolver o impasse da lógica da
argumentação.
A camada lógica também foi identificada em Gottschalg-Duque
(2005) e nos algoritmos do SIRILICO que, basicamente, são um
amadurecimento dos padrões tradicionais de recuperação da
informação às linguagens de programação de alto nível.
A partir de Costa (2010) a lógica inferencial e indutiva ganha
contexto quando da assimilação por comparação dos
processos cognitivos humanos pelas máquinas.
Aqui, indico a comunidade Python Brasil: www.python.org.br
40
41. 7. PROTÓTIPO ALYSCI, o viés estatístico
No protótipo AlyscI beta concentrarei o esforço de abordar o
impasse da lógica da argumentação. Antes, indico a leitura da
versão alfa do protótipo:
https://sites.google.com/view/wikici/alysci
Hastie (2008, p. 605) apresenta que a “ideia de aprender em
conjunto é construir um modelo de previsão combinando os
pontos fortes de uma coleção de modelos de base mais
simples”.
Os métodos bayesianos para regressão não paramétrica
também podem ser vistos como métodos de conjunto – um
grande número de modelos candidatos são calculados com
respeitando a distribuição posterior de suas configurações de
parâmetros. (HASTIE, 2008, p. 605). Conforme:
41
42. São problemas da versão alfa de AlyscI:
• consistência da ‘conexiologia’ entre conteúdos da
profundidade da web através do z 39.50, bem como sua
representação nos buscadores da assistente do Google;
• priorização da interface à assistente do Google;
• aprendizagem semântica por indução através de buscas
nas base de dados e a apresentação por artigos wiki.
Na versão beta acrescenta-se a problemática da lógica da
argumentação de Gottschalg-Duque (2005) e a tentativa de
sair das ontologias leves e passar aos modelos interacionais.
(HASTIE, 2008, p. 609)
42
44. BIBLIOGRAFIA
CAMARGO, L. S. de A. ; VIDOTTI, S. A. B. G. Arquitetura da
informação: uma abordagem prática para o tratamento de
conteúdo e interface em ambientes informacionais digitais. Rio
de Janeiro: LTC, 2011.
COSTA, Ismael de Moura. [DISSERTAÇÃO DE MESTRADO] Um
método para Arquitetura da Informação: Fenomenologia
como base para o desenvolvimento de arquiteturas da
informação aplicadas. Universidade de Brasília, 2010.
HASTIE, Trevor; FRIEDMAN, Jerome; TIBSHIRANI, Robert. The
elements of statistical learning. 2nd ed. New York: Springer
series in statistics, 2008.
GOTTSCHALG-DUQUE, Cláudio. [TESE DE DOUTORADO]
Sirilico: uma proposta para um sistema de recuperação de
informação baseado em teorias da linguística computacional e
ontologia. 2005. 118 f. Escola de Ciência da Informação,
Universidade Federal de Minas Gerais, Belo Horizonte.
KOCH, Ingedore Grunfeld Villaça. Argumentação e linguagem.
Cortez Editora, 1984.
44
45. MONARD, Maria Carolina; BARANAUSKAS, José Augusto.
Conceitos sobre aprendizado de máquina. Sistemas
Inteligentes-Fundamentos e Aplicações, v. 1, n. 1, 2003.
MORAES, E. F. de ; SOARES, M. B. Websemântica para
máquina de buscas [Search Engine]. UFMG, 2001. pág. 1-6.
ROWLEY, J. Informática para bibliotecas. Tradução por Agenor
Briquet de Lemos. Brasília: Briquet de Lemos, 1994.
---------------. A biblioteca eletrônica. Tradução por Agenor
Briquet de Lemos. Brasília: Briquet de Lemos, 2002.
SOLOMONOFF, Raymond J. An inductive inference machine.
In: IRE Convention Record, Section on Information Theory.
1957. p. 56-62.
TAMMARO, A. M. ; SALARELLI, A. A biblioteca digital.
Tradução por Agenor Briquet de Lemos. Brasília: Briquet de
Lemos, 2008.
WITTEN, Ian H. ; FRANK, E. Data Mining: practical machine
learning tools and techniques. 2nd ed. Morgan Kaufmann,
2005.
45