Arquivos Digitais na 3ª geração da Web:
uma ideia com mais de 20 anos
José Carlos Ramalho
jcr@di.uminho.pt
jcr@keep.pt
Enc...
A nossa história
Período Projeto
1989 - 1991 HiTeX – Transcrição assistida com semântica
1998 - 2000 Ed. Eletrónica: “Memó...
De regresso ao passado…
• HITEX (1989-1991): Um Sistema em Desenvolvimento para
Historiadores e Arquivistas
– Normalização...
Um pequeno exemplo
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 4
“Certidão da doação que o arcebispo de...
Modelo ontológico
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 5
Qual a relevância disto no contexto atu...
Três vias alternativas para o
desenvolvimento Web
Setembro de 2013 Engenharia Web 2013 6
Comunidades
Equipamento
Aplicaçõe...
Evolução da Web
Web Arquivos pt
1ª geração Páginas estáticas 1ª geração Informatização
2ª geração Páginas geradas a partir...
Hoje: a Web Sintáctica
Setembro de 2013 Engenharia Web 2013 8
Resource
Resource
Resource
Resource
Resource
Resourcehref
hr...
Exemplo: a Europeana
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 9
Exemplo: a Europeana
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 10
Apenas Semântica?!
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 11
Estamos a criar
silos bem
estruturado...
Semântica & “Linking”
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 12
• É necessário que:
– a informação...
Linked Open Data, Set. 2010
13
Linked Open Data, Set. 2011
14
Por áreas específicas
5 de Outubro de 2013 15Encontro Internacional de Arquivos - Faro
Gostaria que os sistemas de
arquivo...
As opções da Europeana
• Geonames: 10 milhões de nomes/designações
geográficos;
• Dbpedia: base de conhecimento que encerr...
Geonames
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 17
Descrição arquivística com
semântica
1. É preciso identificar univocamente os registos
descritivos: utilizando URIs persis...
• Para integrar dados é necessário acordar
– nos termos a usar:
• “translator”, “author”
– nas categorias a usar:
• “Perso...
O que é preciso?
• Acordo num vocabulário;
• Acordo numa ontologia;
• Embeber esta semântica no “front-end” dos
sistemas d...
– É necessária uma linguagem de especificação
formal para estes vocabulários;
– Para os definir;
– Para lhes associar semâ...
• Definição:
Ontologias
“Especificação formal de uma área de conhecimento através da
definição dos conceitos que lhe são s...
• Para thesauri, glossários, etc: SKOS
• Para definir vocabulários mais complexos com
alguma lógica subjacente: OWL
• E um...
Do bit à Semântica:
XML
RDF
NameSpaces XML Schema
Unicode URI
RDF Schema
Ontologias
Lógica
Prova
Topic
Map
s
245 de Outubr...
Último exemplo: Inquirições de
“Génere”
• Motor SPARQL: http://librdf.org/query
• Ontologia light:
http://www.di.uminho.pt...
Interrogações: Nomes dos
indivíduos?
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 26
PREFIX rdf: <http:/...
Os pares de nomes dos que são
Irmãos?
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 27
PREFIX rdf: <http:...
• Publica a tua informação primeiro, preocupa-te com as
interfaces/aparência depois!
– a “informação crua” pode ser útil a...
Oportunidades
• Horizonte 2020: este é um dos eixos principais de
financiamento na área das TIC;
• Criação de novos produt...
Dificuldades
• Se descrever arquivisticamente consome
recursos, descrever conteúdos consome ainda
mais;
• Voluntariado (fo...
Exemplo: www.retrievo.pt
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 31
Pensamentos “soltos”
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro
Linguagem
Informação
Conhecimento
Esta...
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 33
José Carlos Ramalho
KEEPS/Universidade do Minho
jcr@keep...
Próximos SlideShares
Carregando em…5
×

Arquivos Digitais com Semântica

284 visualizações

Publicada em

Hoje em dia a Web sobrepôs-se a todos os outros meios de comunicação tornando-se o meio de comunicação principal para quem produz informação e para quem a consome. O seu crescimento é exponencial, pode-se dizer mesmo, assustador. Com este ritmo de crescimento e se continuarmos a produzir e a consumir informação da mesma forma, o que hoje tomamos como certo poderá deixar de sê-lo a curto prazo. Os arquivos digitais constituem um subdomínio da Web e estão neste ritmo de crescimento acelerado. A informação disponibilizada seja ela na forma de descrições, transcrições ou digitalizações cresce diariamente. A Web veio eliminar as barreiras geográficas mas se nada for feito no entretanto, encontrar o item que procuramos pode-se tornar uma tarefa difícil. Como a comunidade é muito proactiva a tecnologia já existe o que é preciso é dá-la a conhecer e aplicá-la aos vários domínios. Estamos a falar da Web Semântica ou Web 3.0 e que assenta na seguinte premissa: até à segunda geração da Web as máquinas limitavam-se a apresentar a informação, a interpretação da informação era tarefa exclusiva dos humanos, ou seja, às máquinas era pedido que apresentassem mais ou menos bonita a informação, uma tarefa fácil, aos humanos cabia a tarefa mais árdua e complexa; porque não colocar as máquinas a fazer parte do trabalho árduo? O que temos de alterar na nossa forma de produzir conteúdos para tornar este cenário possível? Estas são algumas das questões a que queremos dar resposta no contexto dos arquivos.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
284
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
9
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Arquivos Digitais com Semântica

  1. 1. Arquivos Digitais na 3ª geração da Web: uma ideia com mais de 20 anos José Carlos Ramalho jcr@di.uminho.pt jcr@keep.pt Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de Informação na Era pós-custodial
  2. 2. A nossa história Período Projeto 1989 - 1991 HiTeX – Transcrição assistida com semântica 1998 - 2000 Ed. Eletrónica: “Memórias de José Inácio Peixoto”; “Índice das Gavetas do Cabido”; “Bulário Bracarense”; etc. 2000 Reverse Engineering da BD das “Inquirições de Génere” 2003 – 2013 Digitarq: Gestão de metainformação, ODs, etc. 2006 – 2008 RODA: Preservação Digital 2006 – 2013 CRAV: Consulta Real em Ambiente Virtual 2010 – 2014 SCAPE: projeto FP7 sobre Preservação Digital 2013 - ... Archeevo: a nova geração do Digitarq e do CRAV 2013 – 2015 4C: projeto FP7 sobre Preservação Digital 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 2 Um denominador comum: geração automática de índices (cronológico, toponímico e antroponímico). Facilidades: navegação relacional e não hierárquica. Produção massiva de conteúdos Milhões de registos organizados hierarquicamente: ISAD, EAD, METS, etc.
  3. 3. De regresso ao passado… • HITEX (1989-1991): Um Sistema em Desenvolvimento para Historiadores e Arquivistas – Normalização: cada um deixar de fazer à sua maneira; – Reutilização: noção de componente reutilizável com interesse histórico; – Classificação: taxonomia padrão de conceitos históricos (classes) que exprime a ordem de subsunção sobre o conhecimento histórico; – Tolerância para com informação incompleta: permite a aquisição incremental de conhecimento histórico; – Resultados: • formato HiTeX: uma linguagem de fácil utilização para transcrição documental; • criação automática de índices: cronológico, toponímico e antroponímico. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 3
  4. 4. Um pequeno exemplo 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 4 “Certidão da doação que o arcebispo de Braga D.Martinho de Oliveira fez ao Cabido de Braga [: : : ] Ano de 1300.” Início do primeiro volume do Índice das Gavetas do Cabido de Braga Asserções: • D. Martinho de Oliveira era o Arcebispo de Braga em 1300; • Este arcebispo doou qualquer coisa ao Cabido de Braga, nesse mesmo ano; • O Cabido guardou uma certidão dessa doação; • Essa certidão está arquivada no fundo documental designado Gavetas do Cabido; • Uma referência a essa certidão é a que se pode encontrar no fol.1, vol.1 do correspondente Índice, compilado no século XVIII. D. Martinho de Oliveira Gavetas do Cabido Certidão X Índice
  5. 5. Modelo ontológico 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 5 Qual a relevância disto no contexto atual?
  6. 6. Três vias alternativas para o desenvolvimento Web Setembro de 2013 Engenharia Web 2013 6 Comunidades Equipamento Aplicações, Serviços, Agentes • Wikis • Blogs • Mashups • Portais • Computação Ubíqua • Espaços Inteligentes • RFID • Sistemas Embebidos • Redes Sensoriais • Metainformação • Ontologias • Serviços Web • Agentes • Portais Inteligentes
  7. 7. Evolução da Web Web Arquivos pt 1ª geração Páginas estáticas 1ª geração Informatização 2ª geração Páginas geradas a partir de conteúdos em SI 2ª geração Acesso Web à informação em regime de acesso livre 3ª geração Sites que se atualizam automaticamente mediante alterações de 3ªs partes: BBC • Integração automática de SI • Normalização • Identificadores persistentes • ... 3ª geração • Integração • Dados com semântica • Novos modelos de acesso • Aplicações de valor acrescentado 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 7 É preciso aumentar o nível de percepção das “máquinas”…
  8. 8. Hoje: a Web Sintáctica Setembro de 2013 Engenharia Web 2013 8 Resource Resource Resource Resource Resource Resourcehref href href href href href href href • Um lugar onde os computadores fazem a apresentação da informação (fácil) e as pessoas a interpretação e a navegação (difícil). • Ideia: Porque não colocar o computador a fazer uma maior parte do trabalho difícil?
  9. 9. Exemplo: a Europeana 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 9
  10. 10. Exemplo: a Europeana 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 10
  11. 11. Apenas Semântica?! 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 11 Estamos a criar silos bem estruturados… SCOPE AND CONTENT: Contém correspondência dirigida ao SAALN proveniente do exterior : "Liga para a Protecção da Natureza", "A Voz do Porto", "projecto omnicooper", sobre assuntos vários.
  12. 12. Semântica & “Linking” 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 12 • É necessário que: – a informação esteja disponível na Web • accessível via tecnologias Web standard; – a informação esteja interligada através da Web; – ie, a informação pode ser integrada através daWeb. Informação disponível na Web não é suficiente…
  13. 13. Linked Open Data, Set. 2010 13
  14. 14. Linked Open Data, Set. 2011 14
  15. 15. Por áreas específicas 5 de Outubro de 2013 15Encontro Internacional de Arquivos - Faro Gostaria que os sistemas de arquivo portugueses fizessem parte desta área nos próximos anos...
  16. 16. As opções da Europeana • Geonames: 10 milhões de nomes/designações geográficos; • Dbpedia: base de conhecimento que encerra a descrição de 3,64 milhões de itens; • Catalog of Life (CoL): catálogo completo de todos os organismos vivos conhecidos; • Uniprot: banco de dados sobre sequenciação de proteínas; • GEMET: thesaurus que define um vocabulário controlado para a temática ambiental; • FOAF: “Friend of a Friend” – ontologia para descrever pessoas e respetivas relações. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 16
  17. 17. Geonames 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 17
  18. 18. Descrição arquivística com semântica 1. É preciso identificar univocamente os registos descritivos: utilizando URIs persistentes; 2. Os registos descritivos devem estar num formato normalizado de modo a que recursos e respetivas relações possam ser automaticamente reconhecidos (RDF); 3. Incluir nas descrições o maior número de links (mínimo = 50 links externos / dataset) possíveis para outros recursos de informação. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 18
  19. 19. • Para integrar dados é necessário acordar – nos termos a usar: • “translator”, “author” – nas categorias a usar: • “Person”, “literature” – nas relações entre aqueles: • “an author is also a Person…”, “historical fiction is a narrower term than fiction” • novas relações podem ser deduzidas. Vocabulários 5 de Outubro de 2013 19Encontro Internacional de Arquivos - Faro
  20. 20. O que é preciso? • Acordo num vocabulário; • Acordo numa ontologia; • Embeber esta semântica no “front-end” dos sistemas de informação atuais (experiências em curso); • No fim: vontade e força política (difícil mas não impossível). 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 20
  21. 21. – É necessária uma linguagem de especificação formal para estes vocabulários; – Para os definir; – Para lhes associar semântica de modo a tornar claro como é que novas relações podem ser deduzidas. Vocabulários 5 de Outubro de 2013 21Encontro Internacional de Arquivos - Faro
  22. 22. • Definição: Ontologias “Especificação formal de uma área de conhecimento através da definição dos conceitos que lhe são subjacentes e relações entre estes.” • Conhecimento explícito (fácil); • Conhecimento implícito (difícil, é preciso torná-lo explícito). 5 de Outubro de 2013 22Encontro Internacional de Arquivos - Faro
  23. 23. • Para thesauri, glossários, etc: SKOS • Para definir vocabulários mais complexos com alguma lógica subjacente: OWL • E uma framework para definir regras sobre os termos e a informação: RIF • RDF/XML para representação dos modelos semânticos Emergiram 3 tecnologias e 1 formato 5 de Outubro de 2013 23Encontro Internacional de Arquivos - Faro
  24. 24. Do bit à Semântica: XML RDF NameSpaces XML Schema Unicode URI RDF Schema Ontologias Lógica Prova Topic Map s 245 de Outubro de 2013 Encontro Internacional de Arquivos - Faro Vocabulários
  25. 25. Último exemplo: Inquirições de “Génere” • Motor SPARQL: http://librdf.org/query • Ontologia light: http://www.di.uminho.pt/~jcr/XML/sparql/in quiricoes-light.owl 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 25 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
  26. 26. Interrogações: Nomes dos indivíduos? 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 26 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#> SELECT ?na WHERE { ?a inq:nome ?na. }
  27. 27. Os pares de nomes dos que são Irmãos? 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 27 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#> SELECT ?na, ?nb WHERE { ?a inq:Irmao ?b. ?a inq:nome ?na. ?b inq:nome ?nb }
  28. 28. • Publica a tua informação primeiro, preocupa-te com as interfaces/aparência depois! – a “informação crua” pode ser útil assim mesmo e outros poderão usá-la; – podes acrescentar-lhe valor, mais tarde, criando-lhe acessos sofisticados. • Se possível, publica a tua informação em RDF caso contrário, outros poderão ajudar-te na conversão – confia na comunidade… • Acrescenta links para outras fontes. “Apenas” publicar não é suficiente… Algumas recomendações 5 de Outubro de 2013 28Encontro Internacional de Arquivos - Faro
  29. 29. Oportunidades • Horizonte 2020: este é um dos eixos principais de financiamento na área das TIC; • Criação de novos produtos: site da BBC, Retrievo, Archeevo, … • Se ligarmos à LOD o nosso repositório estamos a maximizar a sua visibilidade e a aumentar potencialmente o número de visitas; • Os motores de busca tipo google já tiram partido da informação semântica se esta estiver disponível. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 29
  30. 30. Dificuldades • Se descrever arquivisticamente consome recursos, descrever conteúdos consome ainda mais; • Voluntariado (folksonomias na prática) – é preciso preparar o terreno; – controlar/definir os vocabulários usados; – criar política de contribuições. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 30
  31. 31. Exemplo: www.retrievo.pt 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 31
  32. 32. Pensamentos “soltos” 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro Linguagem Informação Conhecimento Estamos algures entre a Informação e o Conhecimento... 32
  33. 33. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 33 José Carlos Ramalho KEEPS/Universidade do Minho jcr@keep.pt / jcr@di.uminho.pt Questões? http://www.keep.pt

×