TataKelola dan KamSiber Kecerdasan Buatan v022.pdf
CVD - Apresentação
1. Universidade Estadual
Paulista – UNESP
A Ciência da Informação e o Ciclo de Vida dos
Dados: Fronteiras de Pesquisa
Fernando de Assis Rodrigues
fernando@elleth.org
Programa de Pós-Graduação em Ciência da Informação
Faculdade de Filosofia e Ciências
Marília, SP
3. Texto
●
●
Título: Interlinking scientific data on a global
scale
Autor: Christian Bizer
–
●
Research Group Data and Web Science, School of
Business Informatics and Mathematics, University
of Mannheim, Germany
Data Science Journal, Volume 12, 23 July 2013
Fernando de Assis Rodrigues - 2013
3
4. Apresentação do Texto
●
Recurrent problem with scientific data:
–
Storing, processing, access are made by isolated
scenarios and solutions.
–
Even when have scientific repositories, they are
isolated solutions too, like:
●
●
USA
Europe
Fernando de Assis Rodrigues - 2013
4
5. Apresentação do Texto
●
High-Level Expert Group on Scientific Data
(HLEG, 2010)
–
Vision 2030
–
“To overcome these limitations and to allow
scientists to discover all data that is relevant for
their task”
Fernando de Assis Rodrigues - 2013
5
6. Apresentação do Texto
●
Linked Data
–
Use URIs as names for things;
–
Use HTTP URIs so that people can look up those
names;
–
When someone looks up a URI, provide useful
information using recommended standards (RDF,
SPARQL);
–
Include links to other URIs so that they can discover
more things.
Fernando de Assis Rodrigues - 2013
6
8. Apresentação do Texto
●
Topology of the Web of Linked Data
–
LOD community (W3C)
●
Catalogue: datahub.io
–
LOD Cloud: http://datahub.io/group/lodcloud
Fernando de Assis Rodrigues - 2013
8
9. Apresentação do Texto
●
Linked Data in Life Science
–
Bio2RDF
●
30 Datasets
–
–
–
–
–
–
UniProt (Proteins)
KEGG (Genes and Genomes)
CAS (Chemical Abstracts)
PubMed
Gene Onthology
Linked Open Drug Data
●
http://www.w3.org/wiki/HCLSIG/LODD
Fernando de Assis Rodrigues - 2013
9
10. Apresentação do Texto
●
Libraries and Scholarly Communication
–
Linked data principles on
●
●
●
●
American Library of Congress
German National Library
OpenLibrary
Europeana
–
“Linked Data principles together with the OAI-ORE, Dublin Core,
SKOS, and FOAF”
Fernando de Assis Rodrigues - 2013
10
11. Apresentação do Texto
●
10 years vision:
–
Linked Data will develop into the standard
technology of sharing scientific data on a global
scale and for interconnecting data between different
scientific data sources.
–
The emerging Web of Linked Data will contain
scientific data as well as data from other domains
and might become as omnipresent in our daily lives
as the classic document Web is today.
Fernando de Assis Rodrigues - 2013
11
12. Apresentação do Texto
●
10 years vision:
–
Most open-license scientific data sets will be
directly available as Linked Data on the Web. For
extremely large data sets from astronomy or
physics for which it is inefficient to generate an RDF
representation, the Web of Linked Data will contain
detailed metadata that will enable the discovery of
these data sets.
Fernando de Assis Rodrigues - 2013
12
13. Apresentação do Texto
●
10 years vision:
–
Scientific work environments will have Linked Data
import and export features and will provide for
publishing scientific data directly to the Web of
Linked Data. Disciplinary repositories of scientific
data as well as data archives will provide Linked
Data views on the archived data and will thus make
their content available on the Web.
Fernando de Assis Rodrigues - 2013
13
14. Apresentação do Texto
●
10 years vision:
–
Scientists will navigate along RDF links between
different scientific data sets as well as between
publications and supporting experimental data.
They will use Linked Data search engines to
discover all data on the global scale that is relevant
to their question at hand.
Fernando de Assis Rodrigues - 2013
14
15. Apresentação do Texto
●
Challenges
–
Data Interoperability
–
Data Quality
–
Scientific Work Environments
–
Research on Pay-as-You-Go-Data Integration
●
–
Desenvolvimento de ontologias e outros artefatos de
acordo com as necessidades
Research on Data Quality Assessment in the Web
Context
Fernando de Assis Rodrigues - 2013
15
17. Contexualização com CI
●
Dados coletados:
–
A obtenção dos dados pelo pesquisador deverá ser a priori
norteada por um guideline
●
●
●
24 meses para um mestrado
48 meses para um doutorado
A composição dos dados científicos é originária de
diversas áreas da ciência
–
CI → estudos de coleta, processamento, armazenamento,
(…), acesso a dados...
●
–
Biólogo não deve ter preocupações com Endpoints, SPARQL...
Ontologias: estudos interdisciplinares com a CI
Fernando de Assis Rodrigues - 2013
17
18. Contexualização com CI
●
Alternativas:
–
Web Services
–
Redução do Cenário:
●
●
●
Área
Nacionalidade
Recuperação
–
Ausência e/ou rudimentares sistemas de
informação e recuperação
●
SPARQL: lentidão
–
Cruzamento de 1Tb de dados científicos? (Big Data)
Fernando de Assis Rodrigues - 2013
18
19. Reflexões
●
●
●
Enorme gap entre dados científicos e endpoints
Grande número de Datasets inativos, fora do ar
e não atualizados
Linha Tecnologia e Informação (PPGCI)
–
Preocupações na coleta de dados com a estrutura
de Linked Data
–
Entendimento de Endpoint
Fernando de Assis Rodrigues - 2013
19