SlideShare uma empresa Scribd logo
PAPEL DOS
VOCABULÁRIOS NO
ACESSO E REUSO DE
RECURSOS DIGITAIS NA
WEB
OBJETIVO
Visão geral sobre a questão da quantidade de dados hoje disponíveis na Web e o
papel que os Vocabulários vêm desempenhando nesta questão
AGENDA
2
1. Introdução
2. Questões a serem respondidas
3. Conceituações
1. Dados e metadados
2. Dados e semântica
3. Vocabulários
4. Big, Small e Smart Data
4. Temas relacionados
1. Teoria do conceito
2. Dados de pesquisa
3. Geração de domínios de conhecimento
4. Enriquecimento semântico
5. Vocabulários em ação
1.
Introdução
3
4
EXPLOSÃO DA “INFORMAÇÃO”, “BIG DATA”, 2 Grandes momentos:
- Informação científica, décadas de 50-60
- Web, economía da informação, “Big Data”, 2000-HOJE!!!:
5
EXPLOSÃO DA
“INFORMAÇÃO”,
“BIG DATA”
6
EXPLOSÃO DA “INFORMAÇÃO”, “BIG DATA”
INFORMAÇÃO
“NÃO ESTRUTURADA”
X “ESTRUTURADA”:
ACESSO, REUSO,
PROCESSAMENTO
2.
Questões a serem
respondidas
Como organizar e dar sentido à grande e crescente
quantidade de dados disponíveis na Web para permitir
ACESSO, REUSO e PROCESSAMENTO AUTOMÁTICO?
Qual o papel dos vocabulários nesta questão? 7
3.
Conceituações
8
3.1.
Dados e metadados
9
3.2.
Dados e semântica
30
3.2. Informação, dados, semântica
Informação = dado + semântica (Floridi, 2019)
A informação é um fenômeno polimórfico e um conceito polissemântico;
É um labirinto conceitual;
Uma definição de informação baseada em dados parece ser um bom ponto de
partida.
31
3.2. Informação, dados, semântica
Definição Geral de Informação (DGI) em termos de dados + significado
A DGI é como uma definição tripartida:
(DGI.1) consiste em um ou mais dados;
(DGI.2) os dados são bem formados;
(DGI.3) os dados bem formados são significativos.
32
3.2. Informação, dados, semântica
DGI.1 = os dados são o material do qual as informações são feitas;
DGI.2 = “bem formado” significa que os dados são agrupados corretamente, de
acordo com as regras (sintaxe);
DGI.3 = “Significativo” significa que os dados devem estar de acordo com os
significados (semântica) do sistema, código ou idioma escolhido em questão.
33
3.2. Informação, dados, semântica
Uma definição de dados
Um dado é um fato suposto referente a alguma diferença ou falta de
uniformidade dentro de algum contexto.
Ou seja, as diferenças ou falta de uniformidade podem ser solucionadas
com vocabulários.
34
A informação, entendida como conteúdo semântico, vem em duas variedades
principais: factual e instrucional.
Informações instrucionais
35
3.2. Informação, dados, semântica
3.2. Informação, dados, semântica
Informação factual
36
3.3.
Vocabulários
37
3.3. O que são vocabulários
“It is important to remember, however, that a KOS vocabulary is more than
just the source of values to be used in metadata descriptions: by modeling
the underlying semantic structures of domains, KOS act as semantic road
maps and make possible a common orientation by indexers and future users,
whether human or machine...” (ZENG; MAYR, 2019, p. 3).
“This corresponds to the narrower meaning, which is also the standard
interpretation in a LIS environment. Since they are basically made of
terms/concepts and, many of them, semantic relations, KOSs are also
depicted as semantic tools (e.g., Hjørland 2007). This account of KOS will be
discussed in section 4.” (MAZZOCCHI, 2018, p. 55).
3.3. O que são vocabulários
REPRESENTAÇÕES de um DOMÍNIO DE CONHECIMENTO em termos das
COISAS que percebemos que existem aí, como elas se relacionam entre si
e quais são seus atributos – CONCEITOS. CONCEITOS são pensamentos,
entes Semióticos, que se referem às COISAS de um domínio, usam
SIGNOS (geralmente termos linguísticos) com um SIGNIFICADO preciso
(acordado, padronizado) para comunicarem a respeito das COISAS do
domínio.
São DISPOSITIVOS DE CONTROLE SEMÂNTICO que padronizam os
significados dos termos que designam os CONCEITOS em um domínio.
Dois tipos de uso: VALORES de campos (DeCS, Autoridades), METADADOS descritivos
de objetos no domínio (MARC, Dublin Core). 39
3.4.
Big, Small e
Smart Data
41
Segundo a Intel (2013), um big data:
1. É um imenso volume formado por uma grande variedade de conjuntos de
dados estruturados, semiestruturados e não-estruturados reunidos a uma
velocidade elevada.
2. Tem um fluxo de dados que advém de equipamentos interconectados e
possuem diferentes formatos (textos, documentos, imagens, vídeos etc.).
3. Tem grande valor potencial pelas oportunidades de análise que oferece
(busca de padrões, derivação de significados, processo decisório etc.).
42
Segundo a Intel (2013), um big data se fundamenta em:
1. Volume - elevada escala e expansão dos dados (sobretudo não-
estruturados), que excede a capacidade das ferramentas tradicionais de
armazenamento e análise de dados.
2. Variedade - diversidade que torna complexa sua utilização pelos sistemas
usuais de gestão de dados.
3. Velocidade - dados gerados em tempo real, requerendo uma oferta
imediata de informações úteis.
Caldas e Silva (2016) acrescentam ainda Veracidade e Valor.
43
Para a Intel (2013), a análise de um big data envolve:
1. Uma estratégia de base tecnológica visando obter uma vantagem
competitiva a partir de insights.
2. Processamento contínuo e distribuído de dados, em tempo real, agilizando
a tomada de decisões.
3. Sinergia entre tecnologias de informação, usuários e “cientistas de dados”
para resolver problemas organizacionais, contribuindo para a eficiência.
44
Para Caldas e Silva (2016), originaram o big data:
1. Data Warehouse (repositório de dados apenas para inclusão e consulta).
2. Data Mart (um subconjunto de um data warehouse).
3. Data Mining (análise de grandes volumes de dados para buscar padrões
e/ou relacionamentos entre variáveis).
4. Business Inteligence (busca informações em um data warehouse que
auxiliem na tomada de decisões).
5. Cloud Computing (computação armazenada em rede).
6. Redes sociais (Principal fonte de dados de um big data).
45
Por sua vez, para Kitchin e Lauriault (2015) um small data é:
1. Um conjunto de dados obtidos a partir de um sistema de natureza sócio-
tecnológica composto de usuários da informação e aparatos digitais.
2. Limitado em seu volume e velocidade de expansão de dados.
3. Criado através de métodos e modos de análise para resolver problemas.
4. Capaz de analisar em detalhes e profundidade contextos onde pessoas
interagem e processos ocorrem, oferecendo respostas significativas.
5. Otimizado em sua utilidade e valor se tiver à disposição infraestrutura de
dados que permita reutilização e combinação com outros small datas.
6. Beneficiado por padrões de (meta)dados, formatos e documentos.
46
COMPARAÇÃO ENTRE SMALL E BIG DATA
Característica Small data Big data
Volume Limitado Elevado
Exaustividade Exemplos População
Variedade Limitada a ampla Ampla
Velocidade Lenta Rápida
Flexibilidade e Escalabilidade Baixa a média Alta
47
Para Schöch (2013) e Zeng (2019), big e small datas formam um conjunto
fundamental para a elaboração de smart datas.
1. Para Schöch (2013), smart data é um dado estruturado ou semi-
estruturado (através de esquemas ou bancos de dados) cuja elaboração se
torna semântica pela associação de anotações, marcações e metadados e
maior redução possível de imperfeições em sua modelagem.
2. Para Zeng (2019), um smart data é uma expressão do valor agregado de
um big data, representando a habilidade em se ter insights a partir de cada
dado e em qualquer escala.
48
Fonte: extraído de Caldas e Silva (2016).
Descoberta de Conhecimento em Bancos de Dados
49
Uma aplicação de big, small e smart data é no registro de lições aprendidas.
1. No contexto da gestão de projetos, lições aprendidas são conhecimentos
relevantes obtidos durante o ciclo de vida dos projetos, cujo registro é
feito após sua validação e para reutilização em projetos futuros.
2. A gestão de projetos em geral produz um volume considerável de
documentos (big data), que demanda uma adequada gestão deste acervo.
3. Uma gestão de documentos adequada preocupa-se com a busca e
recuperação de informações, que são facilitadas se os documentos forem
estruturados segundo critérios semânticos, como o uso de metadados.
50
4. O uso de metadados e vocabulários na elaboração de documentos
favorece sua padronização e integração e, por consequência, a aplicação
de técnicas de mineração de dados e textos (small data).
5. Uma lição aprendida é, portanto, um resultado possível da aplicação
destas técnicas, uma descoberta de conhecimento (smart data).
4.
Temas relacionados
51
4.1.
Teoria do conceito
52
4.1 Teoria do Conceito
53
Em sua Teoria do Conceito, Dahlberg
apresenta o conceito como a soma dos
enunciados verdadeiros (características) e
essenciais sobre um referente, e o termo como
a forma comunicável e representável do
conceito.
Segundo a autora, o conceito é formado por
três elementos:
A. Referente (aquilo que se pretende
conceituar);
B. Características (soma dos
enunciados verdadeiros sobre o
referente);
C. Forma verbal
4.1 Teoria do Conceito
1.Mamífero
2. Carnívoro
3.Quadrúpede
4.Família dos
Canídeos
5.Doméstico
6.Olfato apurado
54
1.Cão
2.Cachorro
4.1 Teoria do Conceito
55
Dahlberg distingue os conceitos em diferentes
tipos:
● CONCEITOS GERAIS: aqueles que apontam
para todos os itens de um determinado tipo
(Gênero — exemplo: todos os cães);
● CONCEITOS ESPECIAIS: aqueles que apontam
para alguns itens de um determinado tipo
(Espécie — exemplo: alguns cães);
● CONCEITOS INDIVIDUAIS: aqueles que
apontam para um único item de um determinado
tipo (Indivíduo — exemplo: um cão).
4.1 Teoria do Conceito
56
Dahlberg também distingue os conceitos em
tipos de características:
● ESSENCIAIS: características encontradas em
todos os referentes de um determinado conceito;
● ACIDENTAIS: características encontradas em
alguns referentes de um determinado conceito;
● INDIVIDUALIZANTES: características
encontradas em um único referente de um
determinado conceito.
4.1 Teoria do Conceito - Aplicabilidade
57
Identificar as características dos
conceitos se faz importante, pois elas
exercem as funções de: “ordenação
classificatória dos conceitos e
respectivos índices; definição dos
conceitos; formação dos nomes dos
conceitos”. (DAHLBERG, 1978).
Controle de polissemia, identificação de
categorias, identificação política do
conceito...
4.1 Teoria do Conceito -
Aplicabilidade
58
4.1 Teoria do Conceito - Aplicabilidade
59Fonte: BALLESTÉ, 2011.
4.1 Teoria do Conceito - Aplicabilidade
60Fonte: Fonte: http://www.cnfcp.gov.br/tesauro/00001473.htm
4.1 Mudanças nas normas ISO de Tesauros
ISO 2708
ISO 25964
61Fonte: CLARKE, ZENG, 2012.
4.1 ISO 2708
A introdução à primeira edição (1974)
do padrão internacional ISO 2788,
Diretrizes para o estabelecimento e
desenvolvimento de tesauros
monolíngues , afirma que: “há uma
necessidade de métodos práticos de
representar conceitos de forma simples
e clara e de ordenar esclarecendo suas
inter-relações.”
62
ISO 2788 tinha o objetivo de organizar
conceitos e suas inter-relações, porém a ed.
de 1974 prossegue recomendando:
TG (Termo Geral) – BT (Broader Term)
TE (Termo Específico) – NT (Narrower
Term)
TR (Termo Relacionado) - RT (Related Term)
4.1 ISO 2708 X ISO 25964 - Contexto
Tesauro usado principalmente em
contextos onde humanos controlavam
ou faziam a mediação do processo de
busca.
63
Web Semântica (computadores agindo em
redes e com agentes inteligentes capazes
de recuperar e manipular as informações).
4.1 ISO 25964
Ele atualiza, revisa e substitui ISO 2708.
Recomendação SKOS (Simple Knowledge Organization Systems)
projetado pela W3C para apoiar a publicação de vocabulários
como tesauros na web.
o escopo da ISO 25964-1 inclui:
● Conteúdo e construção do tesauro, mono- ou multilíngue;
● Orientação sobre a aplicação de análise de facetas a
tesauros;
● Orientação sobre como gerenciar o desenvolvimento de
tesauros e manutenção;
● Requisitos funcionais para software para gerenciar o
tesauro;
● Um modelo de dados e esquema XML derivado, disponível
gratuitamente em um site hospedado pela NISO.
64
4.1 ISO 25964
65
O modelo de dados apresenta
cinco classes básicas:
➔ Thesaurus,
➔ ThesaurusArray
➔ ThesaurusConcept
➔ ThesaurusTerm
➔ Note
4.2.
Dados de pesquisa
66
Comunicação científica
Possibilita que as descobertas sejam divulgadas;
O fluxo da informação envolve os pesquisadores e a literatura produzida;
Os canais, tanto formais como informais, possibilitam a atualização dos
profissionais e a divulgação de informações importantes ao desenvolvimento da
ciência. (MEADOWS, 1999)
67
E-Science
(a) colaboração internacional entre pesquisadores;
(b) aumento do uso de computadores interconectados e em alta velocidade;
(c) visualização de dados;
(d) desenvolvimento de ferramentas e procedimentos baseados na internet;
(e) construção de estruturas organizacionais virtuais para a realização de
pesquisas;
(f) distribuição eletrônica e a publicação dos resultados. (JANKOWSKI, 2007)
68
Dados de pesquisa
“Informação registrada necessária para apoiar ou validar as observações,
descobertas ou resultados de um projeto de pesquisa [...] que é coletado,
observado ou criado [...] para fins de análise e para produzir resultados de
pesquisas originais [...]” (RICE, 2016)
69
Gestão de dados de pesquisa
“Manuseio e fluxo de trabalho de dados de pesquisa durante a fase ativa de um
projeto, bem como às práticas que suportam a preservação, o acesso e o uso a
longo prazo após a conclusão do projeto.”
“Pode incluir planejamento, documentação de dados, formatação de dados,
armazenamento de dados, anonimização de dados e controle de acesso a
dados.”
70http://www.propq.ufscar.br/pesquisador/gestao-de-dados-1.
Princípios FAIR
71
Princípios FAIR
72
Findable (Encontrável) : Metadados legíveis por máquinas são essenciais para descobertas
automáticas de conjuntos de dados e serviços:
F.1 - Aos (meta)dados são atribuídos um identificador único persistente globalmente;
F.2 - Dados são descritos com metadados valiosos;
F.3 - Metadados incluem claramente e explicitamente o identificador dos dados que eles
descrevem;
F.4 - Metadados são registrados e indexados em um recurso pesquisável.
Princípios FAIR
73
Accessible (Acessível) : O usuário precisa saber como os dados podem ser acessados:
A.1 - Os (meta)dados são recuperáveis por meio de seus identificadores usando um protocolo de
comunicação padronizado;
A.1.1 - O protocolo é aberto, gratuito e universalmente implementável;
A.1.2 - O protocolo permite um procedimento de autenticação e autorização, quando necessário;
A.2 - Metadados são acessíveis, mesmo quando os dados não estão mais disponíveis.
Princípios FAIR
74
Interoperable (Interoperável) : Importância dos dados estarem integrados com outros dados. Os
dados necessitam iteroperar com aplicações ou fluxos de trabalhos para análise, armazenamento e
processamento :
I.1 - Os (meta)dados usam uma linguagem formal, acessível, compartilhável e amplamente
aplicável para representação do conhecimento;
I. 2 - Os (meta)dados usam vocabulários que seguem os princípios FAIR;
I.3 - Os (meta)dados incluem referências qualificadas a outros (meta)dados;
Princípios FAIR
75
Reusable (Reusável) : Os metadados e dados devem ser bem descritos para que possam ser
replicados e/ou combinados em diferentes cenários:
R.1 - Os (meta)dados são ricamente descritos com uma pluralidade de atributos relevantes e
precisos;
R.1.1 Os (meta)dados são liberados com uma clara e acessível licença de uso dos dados;
R.1.2 Os (meta)dados são associados com proveniência [origem] detalhada;
R.1.3 Os (meta)dados atendem aos padrões de comunidade de relevante domínio.
Organização semântica
76
Para Schopfel e outros (2014), vincular dados a documentos é crucial para a
interconexão de conhecimento científico. [...]
“[...] A adoção de padrões comuns dá suporte à interoperabilidade, a qual
permite diversos dados, ferramentas, sistemas, e arquivos serem combinados
[...]” (BEAUJARDIÈRE, 2016, p. 16-17, tradução nossa).
O papel dos vocabulários
77
O papel dos vocabulários é fornecer pontos de acesso para encontrar os dados
de pesquisa. Além disso, serve para associar publicações científicas com seus
respectivos dados de pesquisa. Isso permite que os dados não fiquem
escondidos, limitando seu uso e/ou reuso.
4.4.
Geração de domínios
de conhecimento
78
A geração de domínios de conhecimento tem três objetivos:
(1) iniciar um novo tesauro com uma base de termos de assuntos gerais;
(2) aprimorar uma área de assunto com terminologia extra de uma disciplina relacionada;
(3) para auxiliar na manutenção e no crescimento do tesauro.
(OWENS; COCHRANE, 2004)
79
Geração automática de domínios de conhecimento
A categorização automática de texto tem sido amplamente usada em o processo de linguagem natural
e na organização e gestão de informação.
● Algoritmo de Rocchio - (Salton, 1971)
● Máquina de vetor de suporte (Joachims, Nedellec, & Rouveirol, 1998)
● k-Nearest Algoritmo vizinho (k-NN) (Han, Karypis, & Kumar, 2001; Li, Yu, & Qin, 2003; Tan, 2006)
● Redes neurais (Ruiz & Srinivasan, 1999),
● Árvores de decisão (Cohen & Singer, 1999)
● Aprendizado de regras indutivo (Apt´e, Damerau, & Weiss, 1994)
Para gerar representações de domínio (modelos de domínio ou tesauros) assistidas por computadores,
uma combinação de vários e diferentes tipos de técnicas devem ser integradas:
a. Computação
b. Estatística
c. Ciência da informação
80
Etapas
1. Identificação e definição de
domínio
2. Seleção de corpus
3. Indexação de informações:
aquisição de componentes
4. Criação de relacionamentos
entre componentes
5. Validação da representação do
domínio
81
1 Identificação do domínio
O processo de identificação de domínio feita pelo especialista da área pretende colocar os
limites semânticos para a representação a ser criada.
82
2 Seleção do Corpus
O processo de seleção do corpus é responsável por selecionar um conjunto de documentos que
devem ser representativos do domínio.
◎ Infometria: métodos e ferramentas para mensurar e analisar os aspectos cognitivos da
ciência.
2.1 Recomendações
Em relação ao conjunto de documentos como um todo:
● Os documentos devem ser escritos em formato eletrônico (para eliminar problemas de digitalização e OCR), no
mesmo período, local, idioma, e disciplina
● Os documentos devem possuir a mesma estrutura, incluindo resumos e referências.
● O número de diferentes autores não deve ser muito alto para assegurar o mesmo estilo de escrita.
● O conjunto deve ser o mais homogêneo possível.
Com relação a aspectos particulares dos documentos, para medir a qualidade e homogeneidade (Velasco
et al., 1997).
● Termos no texto que aparecem menos de N vezes
● Média de palavras por parágrafo
● Número de frases negativas
● Palavras por seção (resumo, introdução,..., Conclusão)
83
● Número de equações
● Número de acrônimos e abreviações
● Número de referências
● Número de pronomes
● Número de frases futuras e condicionais
3 Indexação
A indexação de artigos e livros é realizada manualmente, a frequências dos descritores ajudará a
estabelecer as relações entre eles.
Em relação aos possíveis descritores (conceitos) em cada documento:
● Número de palavras, provenientes de informações gráficas, considerados como descritores
● Número de palavras descritoras dos rótulos nas figuras
● Número de palavras do descritor na primeira frase de cada parágrafo
● Número de palavras do descritor que aparecem antes do primeiro verbo de cada frase
É feito o processo de indexação automática e os resultados são comparados.
84
3.1 Filtragem de termos
A filtragem de termos deve ser realizada a fim de eliminar termos sem sentido e agrupar
diferentes termos com o mesmo significado em um único descritor.
◎ IDF (frequência inversa do documento) intuito de indicar a importância de uma
palavra em um documento com relação a uma coleção de documentos ou em um
corpus linguístico.
◎ Lei de Zipf e Ponto de Transição: existem palavras que se repetem muito mais vezes
que outras, possuindo alta frequência de ocorrência, deve-se classificar todas as
palavras observadas no texto ou conjunto de textos, de forma que as que possuam alta
frequência de ocorrência sejam as primeiras da lista, às palavras líderes de frequência
de ocorrência é atribuído um número de ordem menor, e à medida que as palavras vão
diminuindo suas frequências, os números de ordem vão aumentando.
◎ Remoção de palavras irrelevantes. Palavras como artigos, preposições, conjunções
85
4. Criação dos relacionamentos
Uma vez que os descritores no domínio foram selecionados e indexados, é necessário
estabelecer entre eles as relações semânticas correspondentes (hierarquias, sinonímia,
associações permanentes, associações circunstanciais, associações temáticas, etc.)
Existem técnicas estatísticas e de redes neurais (Lelu, 1993; Scholtes, 1993) para estabelecer
qual é o principal componente na lista de conceitos filtrados baseada em processos de
agrupamento.
Entre os descritores reunidos a partir de um assunto específico, é possível aplicar algoritmos
multitermos particulares para extrair relações hierárquicas usando as informações de frequência
dos termos.
Para medir o grau de relacionamento entre os termos é utilizado o método Chen (Chen, Yim,
Fye, & Schatz, 1995) é uma técnica estatística que gera, para cada par de termos, um
coeficiente, este indica o peso do cluster, com base em cálculos estatísticos de co-formulação
(Callon et al., 1983).
86
Relacionamentos temáticos podem ser construídos
usando técnicas de agrupamento (Gallant, 1995).
Cada conjunto forma um nó da árvore da área
temática (TAT)
Essas técnicas criam conjuntos de descritores
relacionados entre si.
As técnicas de agrupamento são usadas como
núcleo para obter relacionamentos temáticos e
hierárquicos.
87
5 Validação do domínio
Deve haver uma cooperação estreita entre os envolvidos para
validação do modelo, um conjunto de buscas inteligentes é
determinado para verificar a capacidade de recuperação da
informação.
É importante durante o processo as validações humanas, e
regulação dos parâmetros para obter bons resultados.
88
4.4.
Enriquecimento
semântico
89
5.
Vocabulários em
ação
104
105
106
107
108
109
http://msbiodata.irb.hr/cgi/scripts.pl
110
111
112
113
https://pro.europeana.eu/page/europeana-semantic-enrichment
114
https://pro.europeana.eu/page/europeana-semantic-enrichment
Referências bibliográficas
115
BEAUJARDIÈRE, J. de la. NOAA Environmental Data Management. Journal of Map & Geography Libraries, [S. l.], v. 12, n. 1, p. 5-27, 2016.
Disponível em: https://www.tandfonline.com/doi/abs/10.1080/15420353.2015.1087446?tab=permissions&scroll=top. Acesso em: 07 set. 2020.
DEXTRE CLARKE, Stella G.; ZENG, Marcia Lei. From ISO 2788 to ISO 25964: The evolution of thesaurus standards towards
interoperability and data modelling. Information Standards Quarterly (ISQ), v. 24, n. 1, 2012. Disponível em:
http://eprints.rclis.org/16818/1/SP_clarke_zeng_isqv24no1.pdf. Acesso em: 26 mai. 2020.
FLORIDI, Luciano. Semantic Conceptions of Information. In: The Stanford Encyclopedia of Philosophy (Winter 2019 Edition), Edward N.
Zalta (ed.). 2019. Disponível em: https://plato.stanford.edu/archives/win2019/entries/information-semantic/. Acesso em: 21 dez. 2019.
GO FAIR. FAIR principles. 2019. Disponível em: https://www.go-fair.org/fair-principles/. Acesso em: 20 jan. 2020.
JANKOWSKI, N. W. Exploring e-Science: an introduction. Journal of Computer Mediated Communication, v. 12, n. 2, 549- 562, 2007.
Disponível em: http://onlinelibrary.wiley.com/doi/10.1111/j.1083-6101.2007.00337.x/pdf/. Acesso em: 07 set. 2020.
LLORÉNS, Juan; VELASCO, Manuel; AMESCUA, Antonio de; MOREIRO, José A.; MARTÍNEZ, Vicente. Automatic generation of domain
representations using thesaurus structures. Journal Of The American Society For Information Science And Technology, [S.L.], v. 55, n. 10, p.
846-858, 28 abr. 2004. Wiley. http://dx.doi.org/10.1002/asi.20039.
116
MATTEUSSI, Kassiano; GEYER, Claudio. Introdução a Big Data: Mini curso Big Data 2018. Instituto de Informática/URGS, 2018.
Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/2018-1/BD01-IntroducaoBigData-2018-1.pdf. Acesso em: 17
set. 2020.
MEADOWS, A. J. A comunicação científica. Brasília: Briquet de Lemos Livros, 1999.
NISO TR-06-2017. Issues in Vocabulary Management. NISO, 2017. Disponível em: https://www.niso.org/publications/tr-06-2017-issues-
vocabulary-management. Acesso em: 10 fev. 2020.
RICE, R.; SOUTHALL, S. The data librarian’s handbook. London: Facet Publishing, 2016.
SCHOPFEL, J. et al. Open access to research data in electronic theses and dissertations: an overview. Library Hi Tech, [S. l.], v. 32, n. 4, 612-
627, 2014. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/LHT-06-2014- 0058/full/pdf?title=open-access-to-research-
data-in-electronic-theses-and-dissertations-anoverview. Acesso em: 07 set. 2020.
ZENG, Marcia Lei. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la
información, v. 28, n. 1, e280103, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019.
BALLESTÉ, Adriana Olinto. Organização conceitual do domínio de instrumentos musicais com base na Teoria do Conceito. In: ENCONTRO
NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 12., 2011, Brasília, DF. Anais... Brasília: UnB, 2011.DAHLBERG, I. Teoria
do conceito. Ciência da Informação, v. 7, n. 2, p. 101–107, 1978.
DAHLBERG, I. Teoria do conceito. Ciência da Informação, v. 7, n. 2, p. 101–107, 1978.
CLARKE, Stella G. Dextre ;ZENG, Marcia Lei. From ISO 2788 to ISO 25964: the evolution of thesaurus standards towards interoperability
and data modeling. Information standards quarterly, v. 24, n. 1, p.20-26, 2012.
DAHLBERG, Ingetraut. Knowledge organization. 2006a. In: HJØRLAND, Birger. Lifeboat for Knowledge Organization. Disponível em:
http://www.iva.dk/bh/lifeboat_ko/CONCEPTS/knowledge_organization_Dahlberg.htm. Acesso em: 14 abr. 2019.
117
CALDAS, M. S.; SILVA, E. C. C. Fundamentos e aplicação do Big Data: como tratar informações em uma sociedade de yottabytes.
Bibliotecas Universitárias: pesquisas, experiências e perspectivas, Belo Horizonte, v. 3, n.1, p. 65-83, jan. /jun. 2016.
KITCHIN, R.; LAURIAULT, T. P. Small data in the era of big data. GeoJournal, n. 80, p. 463-475, 2015.
INTEL. Guia de Planejamento: saiba mais sobre Big Data. 2013. Disponível em:
<https://dialogoti.intel.com/sites/default/files/documents/90318386_1.pdf>. Acesso em: 20 set. 2020.
SCHÖCH, C. Big? Smart? Clean? Messy? Data in the Humanities. Journal of Digital Humanities, v. 2, n. 3, 2013.
ZENG, M. L. Semantic enrichment for enhancing LAM data and supporting digital humanities. El profesional de la información, v. 28, n. 1,
2019.
Autores
Bruno Leite - Doutorando PPGCI/UFF | brunopcl@id.uff.br
Carlos H. Marcondes - Professor PPGCI/UFF, PPGGOC/UFMG | ch_marcondes@id.uff.br
Durval Vieira - Doutorando PPGCI/UFF | durvalvieira@gmail.com
Gabriela Caetano - Mestranda PPGGOC-UFMG | gabscae@ufmg.br
Sergio de Castro - Doutor PPGCI/UFF | sergio.scm@gmail.com
Mauricio Cabral - Doutorando PPGCI/UFF | macrjunior@gmail.com
Grupo de Pesquisa REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO em
ambientes digitais
118
119
Obrigado (a)
Alguma questão?

Mais conteúdo relacionado

Mais procurados

Aula metadados 2012
Aula metadados 2012Aula metadados 2012
Aula metadados 2012
rachelvesu
 
Utilização de Big Data em portais de dados abertos
Utilização de Big Data em portais de dados abertosUtilização de Big Data em portais de dados abertos
Utilização de Big Data em portais de dados abertos
Marcos V. Saturno Ribeiro
 
Metadados com XML
Metadados com XMLMetadados com XML
Metadados com XML
Paulo Loncarovich
 
Metadados
MetadadosMetadados
Texto rede ci parreiras
Texto rede ci   parreirasTexto rede ci   parreiras
Texto rede ci parreiras
Rômulo Barros
 
Data Mining
Data MiningData Mining
Destaque33
Destaque33   Destaque33
Destaque33
Raphael Santos
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
Miguel Angel Mardero Arellano
 
Modelos Quantitativos de Recuperação da Informação
Modelos Quantitativos de Recuperação da InformaçãoModelos Quantitativos de Recuperação da Informação
Modelos Quantitativos de Recuperação da Informação
Viviane Santos Cunha
 
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
UTFPR
 
Artigo de banco de dados
Artigo  de banco de dadosArtigo  de banco de dados
Artigo de banco de dados
Milena Karola De Azevedo Santos
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
AntonioEE256
 
An approach for managing and semantically enriching the publication of Linked...
An approach for managing and semantically enriching the publication of Linked...An approach for managing and semantically enriching the publication of Linked...
An approach for managing and semantically enriching the publication of Linked...
greco_ufrj
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da Informação
Nilton Heck
 
MARKETING2
MARKETING2MARKETING2
MARKETING2
leidianemarinho
 

Mais procurados (15)

Aula metadados 2012
Aula metadados 2012Aula metadados 2012
Aula metadados 2012
 
Utilização de Big Data em portais de dados abertos
Utilização de Big Data em portais de dados abertosUtilização de Big Data em portais de dados abertos
Utilização de Big Data em portais de dados abertos
 
Metadados com XML
Metadados com XMLMetadados com XML
Metadados com XML
 
Metadados
MetadadosMetadados
Metadados
 
Texto rede ci parreiras
Texto rede ci   parreirasTexto rede ci   parreiras
Texto rede ci parreiras
 
Data Mining
Data MiningData Mining
Data Mining
 
Destaque33
Destaque33   Destaque33
Destaque33
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
 
Modelos Quantitativos de Recuperação da Informação
Modelos Quantitativos de Recuperação da InformaçãoModelos Quantitativos de Recuperação da Informação
Modelos Quantitativos de Recuperação da Informação
 
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
 
Artigo de banco de dados
Artigo  de banco de dadosArtigo  de banco de dados
Artigo de banco de dados
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
An approach for managing and semantically enriching the publication of Linked...
An approach for managing and semantically enriching the publication of Linked...An approach for managing and semantically enriching the publication of Linked...
An approach for managing and semantically enriching the publication of Linked...
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da Informação
 
MARKETING2
MARKETING2MARKETING2
MARKETING2
 

Semelhante a Papel dos vocabulários no acesso e reuso de recursos digitais na web

BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
Antonio Pedro
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
CarlosMarcondes17
 
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfSEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
CarlosMarcondes17
 
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAApresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Frederico Bortolato
 
Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...
Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...
Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...
Universidade Metodista de São Paulo
 
Wperformance 2015 (2)
Wperformance   2015 (2)Wperformance   2015 (2)
Wperformance 2015 (2)
Marcelo Iury d
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Newton Calegari
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
WANDERSON JONER
 
Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...
Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...
Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...
Felipe J. R. Vieira
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
Vivaldo Jose Breternitz
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
csmp
 
Ver
VerVer
Ver
csmp
 
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
Elvis Fusco
 
LIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOS
LIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOSLIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOS
LIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOS
Os Fantasmas !
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
CarlosMarcondes17
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informação
Cristina Ferreira
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
Ana Carolina Simionato
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017
Cariniana Rede
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Bianca Santana
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificos
Liber UFPE
 

Semelhante a Papel dos vocabulários no acesso e reuso de recursos digitais na web (20)

BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfSEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
 
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAApresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
 
Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...
Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...
Jornalismo estruturado uso de metadados para enriquecimento de bases noticios...
 
Wperformance 2015 (2)
Wperformance   2015 (2)Wperformance   2015 (2)
Wperformance 2015 (2)
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
 
Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...
Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...
Utilização da Gestão do Conhecimento nas Metodologias Ageis para Melhoria da ...
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
 
Ver
VerVer
Ver
 
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
 
LIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOS
LIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOSLIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOS
LIVRO PROPRIETÁRIO - IMPLEMENTAÇÃO DE BANCO DE DADOS
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informação
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificos
 

Papel dos vocabulários no acesso e reuso de recursos digitais na web

  • 1. PAPEL DOS VOCABULÁRIOS NO ACESSO E REUSO DE RECURSOS DIGITAIS NA WEB
  • 2. OBJETIVO Visão geral sobre a questão da quantidade de dados hoje disponíveis na Web e o papel que os Vocabulários vêm desempenhando nesta questão AGENDA 2 1. Introdução 2. Questões a serem respondidas 3. Conceituações 1. Dados e metadados 2. Dados e semântica 3. Vocabulários 4. Big, Small e Smart Data 4. Temas relacionados 1. Teoria do conceito 2. Dados de pesquisa 3. Geração de domínios de conhecimento 4. Enriquecimento semântico 5. Vocabulários em ação
  • 4. 4 EXPLOSÃO DA “INFORMAÇÃO”, “BIG DATA”, 2 Grandes momentos: - Informação científica, décadas de 50-60 - Web, economía da informação, “Big Data”, 2000-HOJE!!!:
  • 6. 6 EXPLOSÃO DA “INFORMAÇÃO”, “BIG DATA” INFORMAÇÃO “NÃO ESTRUTURADA” X “ESTRUTURADA”: ACESSO, REUSO, PROCESSAMENTO
  • 7. 2. Questões a serem respondidas Como organizar e dar sentido à grande e crescente quantidade de dados disponíveis na Web para permitir ACESSO, REUSO e PROCESSAMENTO AUTOMÁTICO? Qual o papel dos vocabulários nesta questão? 7
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 31. 3.2. Informação, dados, semântica Informação = dado + semântica (Floridi, 2019) A informação é um fenômeno polimórfico e um conceito polissemântico; É um labirinto conceitual; Uma definição de informação baseada em dados parece ser um bom ponto de partida. 31
  • 32. 3.2. Informação, dados, semântica Definição Geral de Informação (DGI) em termos de dados + significado A DGI é como uma definição tripartida: (DGI.1) consiste em um ou mais dados; (DGI.2) os dados são bem formados; (DGI.3) os dados bem formados são significativos. 32
  • 33. 3.2. Informação, dados, semântica DGI.1 = os dados são o material do qual as informações são feitas; DGI.2 = “bem formado” significa que os dados são agrupados corretamente, de acordo com as regras (sintaxe); DGI.3 = “Significativo” significa que os dados devem estar de acordo com os significados (semântica) do sistema, código ou idioma escolhido em questão. 33
  • 34. 3.2. Informação, dados, semântica Uma definição de dados Um dado é um fato suposto referente a alguma diferença ou falta de uniformidade dentro de algum contexto. Ou seja, as diferenças ou falta de uniformidade podem ser solucionadas com vocabulários. 34
  • 35. A informação, entendida como conteúdo semântico, vem em duas variedades principais: factual e instrucional. Informações instrucionais 35 3.2. Informação, dados, semântica
  • 36. 3.2. Informação, dados, semântica Informação factual 36
  • 38. 3.3. O que são vocabulários “It is important to remember, however, that a KOS vocabulary is more than just the source of values to be used in metadata descriptions: by modeling the underlying semantic structures of domains, KOS act as semantic road maps and make possible a common orientation by indexers and future users, whether human or machine...” (ZENG; MAYR, 2019, p. 3). “This corresponds to the narrower meaning, which is also the standard interpretation in a LIS environment. Since they are basically made of terms/concepts and, many of them, semantic relations, KOSs are also depicted as semantic tools (e.g., Hjørland 2007). This account of KOS will be discussed in section 4.” (MAZZOCCHI, 2018, p. 55).
  • 39. 3.3. O que são vocabulários REPRESENTAÇÕES de um DOMÍNIO DE CONHECIMENTO em termos das COISAS que percebemos que existem aí, como elas se relacionam entre si e quais são seus atributos – CONCEITOS. CONCEITOS são pensamentos, entes Semióticos, que se referem às COISAS de um domínio, usam SIGNOS (geralmente termos linguísticos) com um SIGNIFICADO preciso (acordado, padronizado) para comunicarem a respeito das COISAS do domínio. São DISPOSITIVOS DE CONTROLE SEMÂNTICO que padronizam os significados dos termos que designam os CONCEITOS em um domínio. Dois tipos de uso: VALORES de campos (DeCS, Autoridades), METADADOS descritivos de objetos no domínio (MARC, Dublin Core). 39
  • 41. 41 Segundo a Intel (2013), um big data: 1. É um imenso volume formado por uma grande variedade de conjuntos de dados estruturados, semiestruturados e não-estruturados reunidos a uma velocidade elevada. 2. Tem um fluxo de dados que advém de equipamentos interconectados e possuem diferentes formatos (textos, documentos, imagens, vídeos etc.). 3. Tem grande valor potencial pelas oportunidades de análise que oferece (busca de padrões, derivação de significados, processo decisório etc.).
  • 42. 42 Segundo a Intel (2013), um big data se fundamenta em: 1. Volume - elevada escala e expansão dos dados (sobretudo não- estruturados), que excede a capacidade das ferramentas tradicionais de armazenamento e análise de dados. 2. Variedade - diversidade que torna complexa sua utilização pelos sistemas usuais de gestão de dados. 3. Velocidade - dados gerados em tempo real, requerendo uma oferta imediata de informações úteis. Caldas e Silva (2016) acrescentam ainda Veracidade e Valor.
  • 43. 43 Para a Intel (2013), a análise de um big data envolve: 1. Uma estratégia de base tecnológica visando obter uma vantagem competitiva a partir de insights. 2. Processamento contínuo e distribuído de dados, em tempo real, agilizando a tomada de decisões. 3. Sinergia entre tecnologias de informação, usuários e “cientistas de dados” para resolver problemas organizacionais, contribuindo para a eficiência.
  • 44. 44 Para Caldas e Silva (2016), originaram o big data: 1. Data Warehouse (repositório de dados apenas para inclusão e consulta). 2. Data Mart (um subconjunto de um data warehouse). 3. Data Mining (análise de grandes volumes de dados para buscar padrões e/ou relacionamentos entre variáveis). 4. Business Inteligence (busca informações em um data warehouse que auxiliem na tomada de decisões). 5. Cloud Computing (computação armazenada em rede). 6. Redes sociais (Principal fonte de dados de um big data).
  • 45. 45 Por sua vez, para Kitchin e Lauriault (2015) um small data é: 1. Um conjunto de dados obtidos a partir de um sistema de natureza sócio- tecnológica composto de usuários da informação e aparatos digitais. 2. Limitado em seu volume e velocidade de expansão de dados. 3. Criado através de métodos e modos de análise para resolver problemas. 4. Capaz de analisar em detalhes e profundidade contextos onde pessoas interagem e processos ocorrem, oferecendo respostas significativas. 5. Otimizado em sua utilidade e valor se tiver à disposição infraestrutura de dados que permita reutilização e combinação com outros small datas. 6. Beneficiado por padrões de (meta)dados, formatos e documentos.
  • 46. 46 COMPARAÇÃO ENTRE SMALL E BIG DATA Característica Small data Big data Volume Limitado Elevado Exaustividade Exemplos População Variedade Limitada a ampla Ampla Velocidade Lenta Rápida Flexibilidade e Escalabilidade Baixa a média Alta
  • 47. 47 Para Schöch (2013) e Zeng (2019), big e small datas formam um conjunto fundamental para a elaboração de smart datas. 1. Para Schöch (2013), smart data é um dado estruturado ou semi- estruturado (através de esquemas ou bancos de dados) cuja elaboração se torna semântica pela associação de anotações, marcações e metadados e maior redução possível de imperfeições em sua modelagem. 2. Para Zeng (2019), um smart data é uma expressão do valor agregado de um big data, representando a habilidade em se ter insights a partir de cada dado e em qualquer escala.
  • 48. 48 Fonte: extraído de Caldas e Silva (2016). Descoberta de Conhecimento em Bancos de Dados
  • 49. 49 Uma aplicação de big, small e smart data é no registro de lições aprendidas. 1. No contexto da gestão de projetos, lições aprendidas são conhecimentos relevantes obtidos durante o ciclo de vida dos projetos, cujo registro é feito após sua validação e para reutilização em projetos futuros. 2. A gestão de projetos em geral produz um volume considerável de documentos (big data), que demanda uma adequada gestão deste acervo. 3. Uma gestão de documentos adequada preocupa-se com a busca e recuperação de informações, que são facilitadas se os documentos forem estruturados segundo critérios semânticos, como o uso de metadados.
  • 50. 50 4. O uso de metadados e vocabulários na elaboração de documentos favorece sua padronização e integração e, por consequência, a aplicação de técnicas de mineração de dados e textos (small data). 5. Uma lição aprendida é, portanto, um resultado possível da aplicação destas técnicas, uma descoberta de conhecimento (smart data).
  • 53. 4.1 Teoria do Conceito 53 Em sua Teoria do Conceito, Dahlberg apresenta o conceito como a soma dos enunciados verdadeiros (características) e essenciais sobre um referente, e o termo como a forma comunicável e representável do conceito. Segundo a autora, o conceito é formado por três elementos: A. Referente (aquilo que se pretende conceituar); B. Características (soma dos enunciados verdadeiros sobre o referente); C. Forma verbal
  • 54. 4.1 Teoria do Conceito 1.Mamífero 2. Carnívoro 3.Quadrúpede 4.Família dos Canídeos 5.Doméstico 6.Olfato apurado 54 1.Cão 2.Cachorro
  • 55. 4.1 Teoria do Conceito 55 Dahlberg distingue os conceitos em diferentes tipos: ● CONCEITOS GERAIS: aqueles que apontam para todos os itens de um determinado tipo (Gênero — exemplo: todos os cães); ● CONCEITOS ESPECIAIS: aqueles que apontam para alguns itens de um determinado tipo (Espécie — exemplo: alguns cães); ● CONCEITOS INDIVIDUAIS: aqueles que apontam para um único item de um determinado tipo (Indivíduo — exemplo: um cão).
  • 56. 4.1 Teoria do Conceito 56 Dahlberg também distingue os conceitos em tipos de características: ● ESSENCIAIS: características encontradas em todos os referentes de um determinado conceito; ● ACIDENTAIS: características encontradas em alguns referentes de um determinado conceito; ● INDIVIDUALIZANTES: características encontradas em um único referente de um determinado conceito.
  • 57. 4.1 Teoria do Conceito - Aplicabilidade 57 Identificar as características dos conceitos se faz importante, pois elas exercem as funções de: “ordenação classificatória dos conceitos e respectivos índices; definição dos conceitos; formação dos nomes dos conceitos”. (DAHLBERG, 1978). Controle de polissemia, identificação de categorias, identificação política do conceito...
  • 58. 4.1 Teoria do Conceito - Aplicabilidade 58
  • 59. 4.1 Teoria do Conceito - Aplicabilidade 59Fonte: BALLESTÉ, 2011.
  • 60. 4.1 Teoria do Conceito - Aplicabilidade 60Fonte: Fonte: http://www.cnfcp.gov.br/tesauro/00001473.htm
  • 61. 4.1 Mudanças nas normas ISO de Tesauros ISO 2708 ISO 25964 61Fonte: CLARKE, ZENG, 2012.
  • 62. 4.1 ISO 2708 A introdução à primeira edição (1974) do padrão internacional ISO 2788, Diretrizes para o estabelecimento e desenvolvimento de tesauros monolíngues , afirma que: “há uma necessidade de métodos práticos de representar conceitos de forma simples e clara e de ordenar esclarecendo suas inter-relações.” 62 ISO 2788 tinha o objetivo de organizar conceitos e suas inter-relações, porém a ed. de 1974 prossegue recomendando: TG (Termo Geral) – BT (Broader Term) TE (Termo Específico) – NT (Narrower Term) TR (Termo Relacionado) - RT (Related Term)
  • 63. 4.1 ISO 2708 X ISO 25964 - Contexto Tesauro usado principalmente em contextos onde humanos controlavam ou faziam a mediação do processo de busca. 63 Web Semântica (computadores agindo em redes e com agentes inteligentes capazes de recuperar e manipular as informações).
  • 64. 4.1 ISO 25964 Ele atualiza, revisa e substitui ISO 2708. Recomendação SKOS (Simple Knowledge Organization Systems) projetado pela W3C para apoiar a publicação de vocabulários como tesauros na web. o escopo da ISO 25964-1 inclui: ● Conteúdo e construção do tesauro, mono- ou multilíngue; ● Orientação sobre a aplicação de análise de facetas a tesauros; ● Orientação sobre como gerenciar o desenvolvimento de tesauros e manutenção; ● Requisitos funcionais para software para gerenciar o tesauro; ● Um modelo de dados e esquema XML derivado, disponível gratuitamente em um site hospedado pela NISO. 64
  • 65. 4.1 ISO 25964 65 O modelo de dados apresenta cinco classes básicas: ➔ Thesaurus, ➔ ThesaurusArray ➔ ThesaurusConcept ➔ ThesaurusTerm ➔ Note
  • 67. Comunicação científica Possibilita que as descobertas sejam divulgadas; O fluxo da informação envolve os pesquisadores e a literatura produzida; Os canais, tanto formais como informais, possibilitam a atualização dos profissionais e a divulgação de informações importantes ao desenvolvimento da ciência. (MEADOWS, 1999) 67
  • 68. E-Science (a) colaboração internacional entre pesquisadores; (b) aumento do uso de computadores interconectados e em alta velocidade; (c) visualização de dados; (d) desenvolvimento de ferramentas e procedimentos baseados na internet; (e) construção de estruturas organizacionais virtuais para a realização de pesquisas; (f) distribuição eletrônica e a publicação dos resultados. (JANKOWSKI, 2007) 68
  • 69. Dados de pesquisa “Informação registrada necessária para apoiar ou validar as observações, descobertas ou resultados de um projeto de pesquisa [...] que é coletado, observado ou criado [...] para fins de análise e para produzir resultados de pesquisas originais [...]” (RICE, 2016) 69
  • 70. Gestão de dados de pesquisa “Manuseio e fluxo de trabalho de dados de pesquisa durante a fase ativa de um projeto, bem como às práticas que suportam a preservação, o acesso e o uso a longo prazo após a conclusão do projeto.” “Pode incluir planejamento, documentação de dados, formatação de dados, armazenamento de dados, anonimização de dados e controle de acesso a dados.” 70http://www.propq.ufscar.br/pesquisador/gestao-de-dados-1.
  • 72. Princípios FAIR 72 Findable (Encontrável) : Metadados legíveis por máquinas são essenciais para descobertas automáticas de conjuntos de dados e serviços: F.1 - Aos (meta)dados são atribuídos um identificador único persistente globalmente; F.2 - Dados são descritos com metadados valiosos; F.3 - Metadados incluem claramente e explicitamente o identificador dos dados que eles descrevem; F.4 - Metadados são registrados e indexados em um recurso pesquisável.
  • 73. Princípios FAIR 73 Accessible (Acessível) : O usuário precisa saber como os dados podem ser acessados: A.1 - Os (meta)dados são recuperáveis por meio de seus identificadores usando um protocolo de comunicação padronizado; A.1.1 - O protocolo é aberto, gratuito e universalmente implementável; A.1.2 - O protocolo permite um procedimento de autenticação e autorização, quando necessário; A.2 - Metadados são acessíveis, mesmo quando os dados não estão mais disponíveis.
  • 74. Princípios FAIR 74 Interoperable (Interoperável) : Importância dos dados estarem integrados com outros dados. Os dados necessitam iteroperar com aplicações ou fluxos de trabalhos para análise, armazenamento e processamento : I.1 - Os (meta)dados usam uma linguagem formal, acessível, compartilhável e amplamente aplicável para representação do conhecimento; I. 2 - Os (meta)dados usam vocabulários que seguem os princípios FAIR; I.3 - Os (meta)dados incluem referências qualificadas a outros (meta)dados;
  • 75. Princípios FAIR 75 Reusable (Reusável) : Os metadados e dados devem ser bem descritos para que possam ser replicados e/ou combinados em diferentes cenários: R.1 - Os (meta)dados são ricamente descritos com uma pluralidade de atributos relevantes e precisos; R.1.1 Os (meta)dados são liberados com uma clara e acessível licença de uso dos dados; R.1.2 Os (meta)dados são associados com proveniência [origem] detalhada; R.1.3 Os (meta)dados atendem aos padrões de comunidade de relevante domínio.
  • 76. Organização semântica 76 Para Schopfel e outros (2014), vincular dados a documentos é crucial para a interconexão de conhecimento científico. [...] “[...] A adoção de padrões comuns dá suporte à interoperabilidade, a qual permite diversos dados, ferramentas, sistemas, e arquivos serem combinados [...]” (BEAUJARDIÈRE, 2016, p. 16-17, tradução nossa).
  • 77. O papel dos vocabulários 77 O papel dos vocabulários é fornecer pontos de acesso para encontrar os dados de pesquisa. Além disso, serve para associar publicações científicas com seus respectivos dados de pesquisa. Isso permite que os dados não fiquem escondidos, limitando seu uso e/ou reuso.
  • 79. A geração de domínios de conhecimento tem três objetivos: (1) iniciar um novo tesauro com uma base de termos de assuntos gerais; (2) aprimorar uma área de assunto com terminologia extra de uma disciplina relacionada; (3) para auxiliar na manutenção e no crescimento do tesauro. (OWENS; COCHRANE, 2004) 79
  • 80. Geração automática de domínios de conhecimento A categorização automática de texto tem sido amplamente usada em o processo de linguagem natural e na organização e gestão de informação. ● Algoritmo de Rocchio - (Salton, 1971) ● Máquina de vetor de suporte (Joachims, Nedellec, & Rouveirol, 1998) ● k-Nearest Algoritmo vizinho (k-NN) (Han, Karypis, & Kumar, 2001; Li, Yu, & Qin, 2003; Tan, 2006) ● Redes neurais (Ruiz & Srinivasan, 1999), ● Árvores de decisão (Cohen & Singer, 1999) ● Aprendizado de regras indutivo (Apt´e, Damerau, & Weiss, 1994) Para gerar representações de domínio (modelos de domínio ou tesauros) assistidas por computadores, uma combinação de vários e diferentes tipos de técnicas devem ser integradas: a. Computação b. Estatística c. Ciência da informação 80
  • 81. Etapas 1. Identificação e definição de domínio 2. Seleção de corpus 3. Indexação de informações: aquisição de componentes 4. Criação de relacionamentos entre componentes 5. Validação da representação do domínio 81
  • 82. 1 Identificação do domínio O processo de identificação de domínio feita pelo especialista da área pretende colocar os limites semânticos para a representação a ser criada. 82 2 Seleção do Corpus O processo de seleção do corpus é responsável por selecionar um conjunto de documentos que devem ser representativos do domínio. ◎ Infometria: métodos e ferramentas para mensurar e analisar os aspectos cognitivos da ciência.
  • 83. 2.1 Recomendações Em relação ao conjunto de documentos como um todo: ● Os documentos devem ser escritos em formato eletrônico (para eliminar problemas de digitalização e OCR), no mesmo período, local, idioma, e disciplina ● Os documentos devem possuir a mesma estrutura, incluindo resumos e referências. ● O número de diferentes autores não deve ser muito alto para assegurar o mesmo estilo de escrita. ● O conjunto deve ser o mais homogêneo possível. Com relação a aspectos particulares dos documentos, para medir a qualidade e homogeneidade (Velasco et al., 1997). ● Termos no texto que aparecem menos de N vezes ● Média de palavras por parágrafo ● Número de frases negativas ● Palavras por seção (resumo, introdução,..., Conclusão) 83 ● Número de equações ● Número de acrônimos e abreviações ● Número de referências ● Número de pronomes ● Número de frases futuras e condicionais
  • 84. 3 Indexação A indexação de artigos e livros é realizada manualmente, a frequências dos descritores ajudará a estabelecer as relações entre eles. Em relação aos possíveis descritores (conceitos) em cada documento: ● Número de palavras, provenientes de informações gráficas, considerados como descritores ● Número de palavras descritoras dos rótulos nas figuras ● Número de palavras do descritor na primeira frase de cada parágrafo ● Número de palavras do descritor que aparecem antes do primeiro verbo de cada frase É feito o processo de indexação automática e os resultados são comparados. 84
  • 85. 3.1 Filtragem de termos A filtragem de termos deve ser realizada a fim de eliminar termos sem sentido e agrupar diferentes termos com o mesmo significado em um único descritor. ◎ IDF (frequência inversa do documento) intuito de indicar a importância de uma palavra em um documento com relação a uma coleção de documentos ou em um corpus linguístico. ◎ Lei de Zipf e Ponto de Transição: existem palavras que se repetem muito mais vezes que outras, possuindo alta frequência de ocorrência, deve-se classificar todas as palavras observadas no texto ou conjunto de textos, de forma que as que possuam alta frequência de ocorrência sejam as primeiras da lista, às palavras líderes de frequência de ocorrência é atribuído um número de ordem menor, e à medida que as palavras vão diminuindo suas frequências, os números de ordem vão aumentando. ◎ Remoção de palavras irrelevantes. Palavras como artigos, preposições, conjunções 85
  • 86. 4. Criação dos relacionamentos Uma vez que os descritores no domínio foram selecionados e indexados, é necessário estabelecer entre eles as relações semânticas correspondentes (hierarquias, sinonímia, associações permanentes, associações circunstanciais, associações temáticas, etc.) Existem técnicas estatísticas e de redes neurais (Lelu, 1993; Scholtes, 1993) para estabelecer qual é o principal componente na lista de conceitos filtrados baseada em processos de agrupamento. Entre os descritores reunidos a partir de um assunto específico, é possível aplicar algoritmos multitermos particulares para extrair relações hierárquicas usando as informações de frequência dos termos. Para medir o grau de relacionamento entre os termos é utilizado o método Chen (Chen, Yim, Fye, & Schatz, 1995) é uma técnica estatística que gera, para cada par de termos, um coeficiente, este indica o peso do cluster, com base em cálculos estatísticos de co-formulação (Callon et al., 1983). 86
  • 87. Relacionamentos temáticos podem ser construídos usando técnicas de agrupamento (Gallant, 1995). Cada conjunto forma um nó da árvore da área temática (TAT) Essas técnicas criam conjuntos de descritores relacionados entre si. As técnicas de agrupamento são usadas como núcleo para obter relacionamentos temáticos e hierárquicos. 87
  • 88. 5 Validação do domínio Deve haver uma cooperação estreita entre os envolvidos para validação do modelo, um conjunto de buscas inteligentes é determinado para verificar a capacidade de recuperação da informação. É importante durante o processo as validações humanas, e regulação dos parâmetros para obter bons resultados. 88
  • 90.
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97.
  • 98.
  • 99.
  • 100.
  • 101.
  • 102.
  • 103.
  • 105. 105
  • 106. 106
  • 107. 107
  • 108. 108
  • 110. 110
  • 111. 111
  • 112. 112
  • 115. Referências bibliográficas 115 BEAUJARDIÈRE, J. de la. NOAA Environmental Data Management. Journal of Map & Geography Libraries, [S. l.], v. 12, n. 1, p. 5-27, 2016. Disponível em: https://www.tandfonline.com/doi/abs/10.1080/15420353.2015.1087446?tab=permissions&scroll=top. Acesso em: 07 set. 2020. DEXTRE CLARKE, Stella G.; ZENG, Marcia Lei. From ISO 2788 to ISO 25964: The evolution of thesaurus standards towards interoperability and data modelling. Information Standards Quarterly (ISQ), v. 24, n. 1, 2012. Disponível em: http://eprints.rclis.org/16818/1/SP_clarke_zeng_isqv24no1.pdf. Acesso em: 26 mai. 2020. FLORIDI, Luciano. Semantic Conceptions of Information. In: The Stanford Encyclopedia of Philosophy (Winter 2019 Edition), Edward N. Zalta (ed.). 2019. Disponível em: https://plato.stanford.edu/archives/win2019/entries/information-semantic/. Acesso em: 21 dez. 2019. GO FAIR. FAIR principles. 2019. Disponível em: https://www.go-fair.org/fair-principles/. Acesso em: 20 jan. 2020. JANKOWSKI, N. W. Exploring e-Science: an introduction. Journal of Computer Mediated Communication, v. 12, n. 2, 549- 562, 2007. Disponível em: http://onlinelibrary.wiley.com/doi/10.1111/j.1083-6101.2007.00337.x/pdf/. Acesso em: 07 set. 2020. LLORÉNS, Juan; VELASCO, Manuel; AMESCUA, Antonio de; MOREIRO, José A.; MARTÍNEZ, Vicente. Automatic generation of domain representations using thesaurus structures. Journal Of The American Society For Information Science And Technology, [S.L.], v. 55, n. 10, p. 846-858, 28 abr. 2004. Wiley. http://dx.doi.org/10.1002/asi.20039.
  • 116. 116 MATTEUSSI, Kassiano; GEYER, Claudio. Introdução a Big Data: Mini curso Big Data 2018. Instituto de Informática/URGS, 2018. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/2018-1/BD01-IntroducaoBigData-2018-1.pdf. Acesso em: 17 set. 2020. MEADOWS, A. J. A comunicação científica. Brasília: Briquet de Lemos Livros, 1999. NISO TR-06-2017. Issues in Vocabulary Management. NISO, 2017. Disponível em: https://www.niso.org/publications/tr-06-2017-issues- vocabulary-management. Acesso em: 10 fev. 2020. RICE, R.; SOUTHALL, S. The data librarian’s handbook. London: Facet Publishing, 2016. SCHOPFEL, J. et al. Open access to research data in electronic theses and dissertations: an overview. Library Hi Tech, [S. l.], v. 32, n. 4, 612- 627, 2014. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/LHT-06-2014- 0058/full/pdf?title=open-access-to-research- data-in-electronic-theses-and-dissertations-anoverview. Acesso em: 07 set. 2020. ZENG, Marcia Lei. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la información, v. 28, n. 1, e280103, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019. BALLESTÉ, Adriana Olinto. Organização conceitual do domínio de instrumentos musicais com base na Teoria do Conceito. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 12., 2011, Brasília, DF. Anais... Brasília: UnB, 2011.DAHLBERG, I. Teoria do conceito. Ciência da Informação, v. 7, n. 2, p. 101–107, 1978. DAHLBERG, I. Teoria do conceito. Ciência da Informação, v. 7, n. 2, p. 101–107, 1978. CLARKE, Stella G. Dextre ;ZENG, Marcia Lei. From ISO 2788 to ISO 25964: the evolution of thesaurus standards towards interoperability and data modeling. Information standards quarterly, v. 24, n. 1, p.20-26, 2012. DAHLBERG, Ingetraut. Knowledge organization. 2006a. In: HJØRLAND, Birger. Lifeboat for Knowledge Organization. Disponível em: http://www.iva.dk/bh/lifeboat_ko/CONCEPTS/knowledge_organization_Dahlberg.htm. Acesso em: 14 abr. 2019.
  • 117. 117 CALDAS, M. S.; SILVA, E. C. C. Fundamentos e aplicação do Big Data: como tratar informações em uma sociedade de yottabytes. Bibliotecas Universitárias: pesquisas, experiências e perspectivas, Belo Horizonte, v. 3, n.1, p. 65-83, jan. /jun. 2016. KITCHIN, R.; LAURIAULT, T. P. Small data in the era of big data. GeoJournal, n. 80, p. 463-475, 2015. INTEL. Guia de Planejamento: saiba mais sobre Big Data. 2013. Disponível em: <https://dialogoti.intel.com/sites/default/files/documents/90318386_1.pdf>. Acesso em: 20 set. 2020. SCHÖCH, C. Big? Smart? Clean? Messy? Data in the Humanities. Journal of Digital Humanities, v. 2, n. 3, 2013. ZENG, M. L. Semantic enrichment for enhancing LAM data and supporting digital humanities. El profesional de la información, v. 28, n. 1, 2019.
  • 118. Autores Bruno Leite - Doutorando PPGCI/UFF | brunopcl@id.uff.br Carlos H. Marcondes - Professor PPGCI/UFF, PPGGOC/UFMG | ch_marcondes@id.uff.br Durval Vieira - Doutorando PPGCI/UFF | durvalvieira@gmail.com Gabriela Caetano - Mestranda PPGGOC-UFMG | gabscae@ufmg.br Sergio de Castro - Doutor PPGCI/UFF | sergio.scm@gmail.com Mauricio Cabral - Doutorando PPGCI/UFF | macrjunior@gmail.com Grupo de Pesquisa REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO em ambientes digitais 118