SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
EXPRESSIVIDADE SEMÂNTICA X
NÍVEIS DE COMPLEXIDADE X
QUANTIDADE DE DADOS
II SEMOC 2022, dez. 2022
Sergio de Castro Martins (UFRJ), sergio.scm@gmail.com, Maurício Augusto
Cabral Jr (PPGCI/UFF), macrjunior@gmail.com, Carlos H. Marcondes
(PPGCI/UFF, ch_marcondes@id.uff.br
Grupo de pesquisa:
ROCAD - REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO EM
AMBIENTES DIGITAIS
EXPRESSIVIDADE SEMÂNTICA X NÍVEIS DE
COMPLEXIDADE X QUANTIDADE DE DADOS
Sumário
1. Grupo de Pesquisa REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO
EM AMBIENTES DIGITAIS
2. Contexto: “Big Data”
3. Questão de Pesquisa e Hipótese
4. Bases teóricas e metodologia
5. Expressividade Semântica X Níveis de Complexidade X Quantidade de
Dados
6. Considerações finais
Referências
1. Grupo de pesquisa REPRESENTAÇÃO E
ORGANIZAÇÃO DO CONHECIMENTO EM
AMBIENTES DIGITAIS
Tem como objetivo buscar soluções teóricas e práticas para
representar e organizar registros de conhecimento em
ambientes digitais
Esta pesquisa é uma continuação de
MARCONDES, C. H., MARTINS, S. C., RAMOS JUNIOR, M. C. O
papel dos vocabulários no reuso e acesso aos Big Data.
Informação & Informação, v. 26, n. 4, p. 146-174, 2021.
Disponível em:
https://www.uel.br/revistas/uel/index.php/informacao/article/v
iew/44653/pdf. Acesso em: 5 jan. 2022
2. Contexto:
“Big Data”
Quantidade de
conteúdo
publicado na Web
em 1 minuto (2021)
VOLUME, VARIEDADE,
VELOCIDADE E VALOR
Dados não estruturados
Dados estruturados
Fonte: https://www.smartinsights.com/internet-marketing-
statistics/happens-online-60-seconds
3. Questão de Pesquisa e Hipótese
Semântica é um conceito muito geral. Um conceito operacional de Semântica aplicado a
mensagens (CAPURRO, 2003), i.e., DADOS é: a inferência feita por um agente baseado
em uma mensagem que lhe permite tomar decisões e, possivelmente, agir de acordo
Questão de Pesquisa: O que são dados? Como dados podem gerar semântica?
Como é gerada semântica (para humanos e para máquinas) a partir de dados digitais?
Pressupostos: Dados REPRESENTAM coisas do mundo, são artefatos
Dados se agregam em unidades mais complexas, em
sistemas, e em maior volume, p. representar coisas,
como bases de dados, bancos de dados, ontologias, etc.
Hipótese: agregados/sistemas de dados digitais (campos, registros, tabelas, modelos
conceituais), a medida que se tornam mais complexos e em maior volume, tornam-se
também mais expressivos e podem gerar semântica para pessoas e para máquinas
4. Bases Teóricas e Metodologia
Objeto,
MONOREFENCIALIDADE (o
calçado E NÃO o esporte
ALGO
“tenis”
ALGUMA
COISA
ALGUÉM
significado
6
para
Representação,
Símbolo, Termo,
Dado
4.1. Semiótica Peirceana
Interpretante, efeito
do símbolo na mente
4. Bases Teóricas e Metodologia
4.2. Conceito, triângulo do Conceito (DAHLBERG, 1978)
Termo “cão”
Símbolo
Objeto
Referente
designam
denota
predicam 7
Características:
“Cão é um mamífero”
proposições verdadeiras
sobre o objeto
4. Bases Teóricas e Metodologia
4.3. Triângulo Semiótico, triângulo do Conceito
Termo “cão”
Interpretante: Conceito de cão
Símbolo
Objeto
Referente
Termo “cão”
Características:
“Cão é um mamífero”
proposições verdadeira
sobre o objeto
Símbolo
Objeto
Referente
designam
denota
predicam 8
4. Bases Teóricas e Metodologia
4.4. Ponto de dados (SHAH, 2020), datum, dados (HJORLAND,2018)
- Ponto de dados (datapoint, Shah (2020): conteúdo descontextualizado, ex:
“2018”
- Datum (Hjørland (2018), conteúdo contextualizado: (entidade, atributo, valor)
ex: 3 conceitos, “Giovana, ano de nascimento, 2018”
4. Bases Teóricas e Metodologia
4.5. Ponto de dado (SHAH, 2020),Datum, dados (HJORLAND,2018)
Id. Paciente Data da notificação Comorbidade
0054/20191217/000075 2019/12/17 Asma
Data Umidade média ar Temperatura Min Temperatura Max
2019/12/17 4,9 g/M3 17oC 21oC
PACIENTES COM COVID-19
TEMPERATURAS E UMIDADE DIÁRIAS
CONCEITOS
4. Bases Teóricas e Metodologia
4.6 Teoria dos Níveis Integrativos (FEIBLEMAN, 1954)
- A realidade se organiza em níveis de complexidade
crescente
- A passagem de um nível inferior para um nível superior
implica que o nível superior tenha uma propriedade que o
nível inferior não tem
- Um nível superior depende do nível imediatamente inferior
FÍSICO
BIOLÓGICO
SOCIAL
CULTURAL
Complexidade
crescente
4. Bases Teóricas e Metodologia
4.7 “Big Data”, Data Science, volume de dados,
modelagem estatística, intervalo de confiança dos dados
“Without a doubt, the more data an association
can get about the condition of the market, the
more it may be able to identify new opportunities
and develop new strategies” (ALJUMAH; NUSEIR;
ALAM, 2021, p. 1097)
Ver: https://pt.wikipedia.org/wiki/Intervalo_de_confiança
5. Expressividade Semântica X Níveis de
Complexidade X Quantidade de Dados
NÍVEL DE
COMPLEXIDAD
E DE DADOS
EXPRESSIVIDADE SEMÂNTICA DESCRIÇÃO/EXEMPLOS DIGITAIS EXPRESSIVIDADE POR PROCESSAMENTO E
QUANTIDADE DE DADOS, ver (ALJUMAH;
NUSEIR; ALAM 2021, p. 1097)
Nível 0 Arquivo segundo um formato digital, reconhecido
por um Sistema Operacional
Arquivos em formato não estruturado como txt, pdf, jpg, mp3, mp4
PROPRIEDADE
EMERGENTE
IDENTIFICAÇÃO DE BITS E BYTES dentro do “body” de um arquivo computacional (ver https://resources.infosecinstitute.com/topic/pdf-file-
format-basic-structure/), ou seja, os DADOS, ou CONTEÚDO que não façam parte do “layout” do arquivo, não contenham metadados do
formato
DADOS NÃO
ESTRUTURADOS,
perceptíveis só
por humanos
Nível 1 Bits e bytes no “body” de um arquivo segundo
um formato
PROPRIEDADE
EMERGENTE
IDENTIFICAÇÃO DE PONTOS DE DADOS (datapoint, Shah (2020) DENTRO DO “BODY”), uso de técnicas de, p. ex. PLN
Nível 2 Um conceito identificado em um vocabulário, mas
descontextualizado
“Giovana”, “ano de nascimento”, “2018”, “João”, “3,1416”, “estudante”, “V”, ver
XML Schema Part 2: Datatypes Second Edition, https://www.w3.org/TR/xmlschema-
2/
PROPRIEDADE
EMERGENTE
DADOS + METADADOS, UMA UNIDADE DE DADO dentro de um arquivo computacional não estruturado, uma palavra em um arquivo textual, um pixel
em um arquivo de imagem. A necessidade de PROCESSAMENTO DE DADOS, tecnologias viabilizadoras: análise estatística de textos, (lei de Zipf),
processamento de linguagem natural, NLP, natural language processing; aplicações: reconhecimento de entidades nomeadas (named-entity
recognition), anotações semânticas, indexação automática
5. Expressividade Semântica X Níveis de
Complexidade X Quantidade de Dados
Nível 3 O valor de uma propriedade de UMA
instância de UMA entidade, uma
proposição, “state of affairs” (JANSEN,
2008, 188), um datum <e, a, v>, Entidade,
Atributo/Propriedade, Valor (Hjørland,
2018), um elemento básico de dados,
conteúdos contextualizados
<Giovana, ano de nascimento, 2018>, <Funcionário, nome, João
da Silva>, uma marcação XML com conteúdo
<a>hghghsag</<a>, 3 pontos de dados ou Conceitos
(DAHLBERG, 1978), o valor de um campo de um banco de dados
ou célula em uma planilha, o valor de uma propriedade em
uma instância de uma ontologia, uma marcação XML com
conteúdo <a>hghghsag</<a>, marcação folha, em um
documento XML de maior nível, RAIZ
PROPRIEDADE
EMERGENTE
A REPRESENTAÇÃO DE UMA ENTIDADE, A REUNIÃO DE TODAS AS PROPRIEDADES DE UMA ENTIDADE
DADOS ESTRUTURADOS,
perceptíveis por
humanos e por
máquinas
Nível 4 A representação e UMA instância de UMA
entidade com todas as suas propriedades
Uma linha em uma base de dados ou planilha, um
documento XML a descrição, ou grafo, de um recurso RDF
como a Mona Lisa na Wikidata,
https://www.wikidata.org/wiki/Q12418
PROPRIEDADE
EMERGENTE
REPRESENTAÇÃO DE VÁRIAS INSTÂNCIAS DE UMA MESMA ENTIDADE
”BIG DATA”, VOLUME,
VARIEDADE,
VELOCIDADE E VALOR
Nível 5 Aumento da expressividade pelo aumento
do VOLUME do dataset
Uma base de dados ou dataset PROCESSAMENTO DE
DADOS, ver
(ALJUMAH; NUSEIR;
ALAM 2021, p. 1097)
Tecnologias Data
Science
Technologies,
“insightS” a partir d
processamento de
um dataset (Dhar,
2013).
PROPRIEDADE
EMERGENTE
REPRESENTAÇÃO DE VÁRIAS INSTÂNCIAS DE VÁRIAS ENTIDADES DIFERENTES
Nível 6 Aumento da expressividade pelo aumento
do tamanho do dataset
Um banco de dados formado por várias bases de dados ou
datasets, um repositório digital (padrões de metadados
como D-CAT)
PROCESSAMENTO DE
DADOS (ver
(ALJUMAH; NUSEIR;
ALAM 2021, p. 1097)
Data Science
Technologies,
“insight” do
processamento de
vários datasets
6. Considerações finais
Dados digitais, um ativo cada vez mais importante
Dados estruturados, processáveis por máquina
Semântica dos dados: complexidade dos
agregados/sistemas de dados + processamento +
volume
Modelagem Conceitual (coisas) X Modelagem
Estatística (conjuntos de coisas)
Referências
ALJUMAH, Ahmad Ibrahim; NUSEIR, Mohammed T.; ALAM, Md Mahmudul. Organizational performance and capabilities to
analyze big data: do the ambidexterity and business value of big data analytics matter?. Business Process Management
Journal, 2021.
CAPURRO, R. Epistemologia e Ciência da Informação. In: Encontro Nacional de Pesquisa em Ciência da Informação, 5, ANCIB/UFMG,
2003, Anais... Belo Horizonte: ANCIB/UFMG, 2003. Disponível em: <http://www.capurro.de/enancib_p.htm>. Acesso em: 8 mar. 2010.
DAHLBERG, I. Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, 1978. Disponível em:
http://revista.ibict.br/ciinf/article/view/115/115. Acesso em: 11 ago. 2013.
FEIBLEMAN, J. K. Theory of Integrative Levels. The British Journal for the Philosophy of Science, v. 5, n. 17, pp. 59-66, May, 1954.
Disponível em: http://www.jstor.org/stable/685952. Acesso em: 10 dez. 2013.
GUARINO, N.. The ontological level: Revisiting 30 years of knowledge representation. In: Conceptual modeling:
Foundations and applications. Springer, Berlin, Heidelberg, 2009. p. 52-67. Disponível em:
http://telematika.kstu.kg/server/books/ger/conceptualmodel/4.pdf. Acesso em: 13 set. 2011.
HJØRLAND, B. Data with big data and database semantics. In. IEKO, ISKO Encyclopedia of Knowledge Organization. ISKO: 2018. Disponível em:
https://www.isko.org/cyclo/data. Acesso em: 02 dez. 2020.
PEIRCE, C. S. COLLECTED PAPERS OF CHARLES SANDERS PEIRCE. vol 1. PRINCIPLES OF PHILOSOPHY. HARTSHORNE, C.; WEISS, P. (eds.).
Cambridge: Harvard University Press, 1931. Disponível em: https://colorysemiotica.files.wordpress.com/2014/08/peirce-collectedpapers.pdf.
Acesso em: 25 abr. 2020.
SHAH, C. A Hands-on Introduction to Data Science. Cambridge: Cambridge University Press, 2020. doi:10.1017/9781108560412.
ZENG, Marcia Lei. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la
información, v. 28, n. 1, e280103, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019.
OBRIGADO!
ch_marcondes@id.uff.br

Mais conteúdo relacionado

Semelhante a SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf

Arquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosAna Carolina Simionato
 
Palestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoPalestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoSCIP Brasil
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiNewton Calegari
 
Preservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosPreservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosCariniana Rede
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosLiber UFPE
 
Metadados para a representação de imagens digitais
Metadados para a representação de imagens digitaisMetadados para a representação de imagens digitais
Metadados para a representação de imagens digitaisAna Carolina Simionato
 
Módulo 06 Introdução a metadados no DSpace
Módulo 06 Introdução a metadados no DSpaceMódulo 06 Introdução a metadados no DSpace
Módulo 06 Introdução a metadados no DSpaceRodrigo Prado
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...CarlosMarcondes17
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisRaquel Camargo
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Cássio Alan Garcia
 
A nteligencia da organização
A nteligencia da organizaçãoA nteligencia da organização
A nteligencia da organizaçãoBrando Vargas
 
A inteligência da Organização Policial
A inteligência da Organização PolicialA inteligência da Organização Policial
A inteligência da Organização PolicialCelso Ferro
 
Administração de Banco de Dados
Administração de Banco de DadosAdministração de Banco de Dados
Administração de Banco de DadosFabio Abel
 
Administração de Banco de Dados
Administração de Banco de DadosAdministração de Banco de Dados
Administração de Banco de DadosFabio Abel
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Documentar Tecnologia e Informação
 
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOSBIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOSVivaldo Jose Breternitz
 
Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...Index3i
 

Semelhante a SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf (20)

Arquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicos
 
Palestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoPalestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e Evolução
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
 
Preservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosPreservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados Científicos
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificos
 
Data Science em Humanidades Digitais
Data Science em Humanidades Digitais Data Science em Humanidades Digitais
Data Science em Humanidades Digitais
 
Metadados para a representação de imagens digitais
Metadados para a representação de imagens digitaisMetadados para a representação de imagens digitais
Metadados para a representação de imagens digitais
 
Módulo 06 Introdução a metadados no DSpace
Módulo 06 Introdução a metadados no DSpaceMódulo 06 Introdução a metadados no DSpace
Módulo 06 Introdução a metadados no DSpace
 
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias Sociais
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
 
A nteligencia da organização
A nteligencia da organizaçãoA nteligencia da organização
A nteligencia da organização
 
A inteligência da Organização Policial
A inteligência da Organização PolicialA inteligência da Organização Policial
A inteligência da Organização Policial
 
Administração de Banco de Dados
Administração de Banco de DadosAdministração de Banco de Dados
Administração de Banco de Dados
 
Administração de Banco de Dados
Administração de Banco de DadosAdministração de Banco de Dados
Administração de Banco de Dados
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOSBIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
 
Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...
 

Mais de CarlosMarcondes17

Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...CarlosMarcondes17
 
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...CarlosMarcondes17
 
CaTCH Conference 2023 - Poster 111 - Marcondes.pdf
CaTCH Conference 2023 - Poster 111 - Marcondes.pdfCaTCH Conference 2023 - Poster 111 - Marcondes.pdf
CaTCH Conference 2023 - Poster 111 - Marcondes.pdfCarlosMarcondes17
 
Un modelo curatorial para colecciones de patrimonio digital como datos abiert...
Un modelo curatorial para colecciones de patrimonio digital como datos abiert...Un modelo curatorial para colecciones de patrimonio digital como datos abiert...
Un modelo curatorial para colecciones de patrimonio digital como datos abiert...CarlosMarcondes17
 
HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...
HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...
HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...CarlosMarcondes17
 
Seminário BBM de Bibliotecas Digitais em Rede 2019.pdf
Seminário BBM de Bibliotecas Digitais em Rede 2019.pdfSeminário BBM de Bibliotecas Digitais em Rede 2019.pdf
Seminário BBM de Bibliotecas Digitais em Rede 2019.pdfCarlosMarcondes17
 
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...CarlosMarcondes17
 
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...CarlosMarcondes17
 

Mais de CarlosMarcondes17 (8)

Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...
 
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...
Curaduría de colecciones digitales en Memoria y Cultura: propuesta de un mode...
 
CaTCH Conference 2023 - Poster 111 - Marcondes.pdf
CaTCH Conference 2023 - Poster 111 - Marcondes.pdfCaTCH Conference 2023 - Poster 111 - Marcondes.pdf
CaTCH Conference 2023 - Poster 111 - Marcondes.pdf
 
Un modelo curatorial para colecciones de patrimonio digital como datos abiert...
Un modelo curatorial para colecciones de patrimonio digital como datos abiert...Un modelo curatorial para colecciones de patrimonio digital como datos abiert...
Un modelo curatorial para colecciones de patrimonio digital como datos abiert...
 
HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...
HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...
HD Rio 2023- Acervos digitais em Memória e Cultura um modelo para curadoria a...
 
Seminário BBM de Bibliotecas Digitais em Rede 2019.pdf
Seminário BBM de Bibliotecas Digitais em Rede 2019.pdfSeminário BBM de Bibliotecas Digitais em Rede 2019.pdf
Seminário BBM de Bibliotecas Digitais em Rede 2019.pdf
 
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA:papel dos vocabulários na...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
 
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...
 

SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf

  • 1. EXPRESSIVIDADE SEMÂNTICA X NÍVEIS DE COMPLEXIDADE X QUANTIDADE DE DADOS II SEMOC 2022, dez. 2022 Sergio de Castro Martins (UFRJ), sergio.scm@gmail.com, Maurício Augusto Cabral Jr (PPGCI/UFF), macrjunior@gmail.com, Carlos H. Marcondes (PPGCI/UFF, ch_marcondes@id.uff.br Grupo de pesquisa: ROCAD - REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO EM AMBIENTES DIGITAIS
  • 2. EXPRESSIVIDADE SEMÂNTICA X NÍVEIS DE COMPLEXIDADE X QUANTIDADE DE DADOS Sumário 1. Grupo de Pesquisa REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO EM AMBIENTES DIGITAIS 2. Contexto: “Big Data” 3. Questão de Pesquisa e Hipótese 4. Bases teóricas e metodologia 5. Expressividade Semântica X Níveis de Complexidade X Quantidade de Dados 6. Considerações finais Referências
  • 3. 1. Grupo de pesquisa REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO EM AMBIENTES DIGITAIS Tem como objetivo buscar soluções teóricas e práticas para representar e organizar registros de conhecimento em ambientes digitais Esta pesquisa é uma continuação de MARCONDES, C. H., MARTINS, S. C., RAMOS JUNIOR, M. C. O papel dos vocabulários no reuso e acesso aos Big Data. Informação & Informação, v. 26, n. 4, p. 146-174, 2021. Disponível em: https://www.uel.br/revistas/uel/index.php/informacao/article/v iew/44653/pdf. Acesso em: 5 jan. 2022
  • 4. 2. Contexto: “Big Data” Quantidade de conteúdo publicado na Web em 1 minuto (2021) VOLUME, VARIEDADE, VELOCIDADE E VALOR Dados não estruturados Dados estruturados Fonte: https://www.smartinsights.com/internet-marketing- statistics/happens-online-60-seconds
  • 5. 3. Questão de Pesquisa e Hipótese Semântica é um conceito muito geral. Um conceito operacional de Semântica aplicado a mensagens (CAPURRO, 2003), i.e., DADOS é: a inferência feita por um agente baseado em uma mensagem que lhe permite tomar decisões e, possivelmente, agir de acordo Questão de Pesquisa: O que são dados? Como dados podem gerar semântica? Como é gerada semântica (para humanos e para máquinas) a partir de dados digitais? Pressupostos: Dados REPRESENTAM coisas do mundo, são artefatos Dados se agregam em unidades mais complexas, em sistemas, e em maior volume, p. representar coisas, como bases de dados, bancos de dados, ontologias, etc. Hipótese: agregados/sistemas de dados digitais (campos, registros, tabelas, modelos conceituais), a medida que se tornam mais complexos e em maior volume, tornam-se também mais expressivos e podem gerar semântica para pessoas e para máquinas
  • 6. 4. Bases Teóricas e Metodologia Objeto, MONOREFENCIALIDADE (o calçado E NÃO o esporte ALGO “tenis” ALGUMA COISA ALGUÉM significado 6 para Representação, Símbolo, Termo, Dado 4.1. Semiótica Peirceana Interpretante, efeito do símbolo na mente
  • 7. 4. Bases Teóricas e Metodologia 4.2. Conceito, triângulo do Conceito (DAHLBERG, 1978) Termo “cão” Símbolo Objeto Referente designam denota predicam 7 Características: “Cão é um mamífero” proposições verdadeiras sobre o objeto
  • 8. 4. Bases Teóricas e Metodologia 4.3. Triângulo Semiótico, triângulo do Conceito Termo “cão” Interpretante: Conceito de cão Símbolo Objeto Referente Termo “cão” Características: “Cão é um mamífero” proposições verdadeira sobre o objeto Símbolo Objeto Referente designam denota predicam 8
  • 9. 4. Bases Teóricas e Metodologia 4.4. Ponto de dados (SHAH, 2020), datum, dados (HJORLAND,2018) - Ponto de dados (datapoint, Shah (2020): conteúdo descontextualizado, ex: “2018” - Datum (Hjørland (2018), conteúdo contextualizado: (entidade, atributo, valor) ex: 3 conceitos, “Giovana, ano de nascimento, 2018”
  • 10. 4. Bases Teóricas e Metodologia 4.5. Ponto de dado (SHAH, 2020),Datum, dados (HJORLAND,2018) Id. Paciente Data da notificação Comorbidade 0054/20191217/000075 2019/12/17 Asma Data Umidade média ar Temperatura Min Temperatura Max 2019/12/17 4,9 g/M3 17oC 21oC PACIENTES COM COVID-19 TEMPERATURAS E UMIDADE DIÁRIAS CONCEITOS
  • 11. 4. Bases Teóricas e Metodologia 4.6 Teoria dos Níveis Integrativos (FEIBLEMAN, 1954) - A realidade se organiza em níveis de complexidade crescente - A passagem de um nível inferior para um nível superior implica que o nível superior tenha uma propriedade que o nível inferior não tem - Um nível superior depende do nível imediatamente inferior FÍSICO BIOLÓGICO SOCIAL CULTURAL Complexidade crescente
  • 12. 4. Bases Teóricas e Metodologia 4.7 “Big Data”, Data Science, volume de dados, modelagem estatística, intervalo de confiança dos dados “Without a doubt, the more data an association can get about the condition of the market, the more it may be able to identify new opportunities and develop new strategies” (ALJUMAH; NUSEIR; ALAM, 2021, p. 1097) Ver: https://pt.wikipedia.org/wiki/Intervalo_de_confiança
  • 13. 5. Expressividade Semântica X Níveis de Complexidade X Quantidade de Dados NÍVEL DE COMPLEXIDAD E DE DADOS EXPRESSIVIDADE SEMÂNTICA DESCRIÇÃO/EXEMPLOS DIGITAIS EXPRESSIVIDADE POR PROCESSAMENTO E QUANTIDADE DE DADOS, ver (ALJUMAH; NUSEIR; ALAM 2021, p. 1097) Nível 0 Arquivo segundo um formato digital, reconhecido por um Sistema Operacional Arquivos em formato não estruturado como txt, pdf, jpg, mp3, mp4 PROPRIEDADE EMERGENTE IDENTIFICAÇÃO DE BITS E BYTES dentro do “body” de um arquivo computacional (ver https://resources.infosecinstitute.com/topic/pdf-file- format-basic-structure/), ou seja, os DADOS, ou CONTEÚDO que não façam parte do “layout” do arquivo, não contenham metadados do formato DADOS NÃO ESTRUTURADOS, perceptíveis só por humanos Nível 1 Bits e bytes no “body” de um arquivo segundo um formato PROPRIEDADE EMERGENTE IDENTIFICAÇÃO DE PONTOS DE DADOS (datapoint, Shah (2020) DENTRO DO “BODY”), uso de técnicas de, p. ex. PLN Nível 2 Um conceito identificado em um vocabulário, mas descontextualizado “Giovana”, “ano de nascimento”, “2018”, “João”, “3,1416”, “estudante”, “V”, ver XML Schema Part 2: Datatypes Second Edition, https://www.w3.org/TR/xmlschema- 2/ PROPRIEDADE EMERGENTE DADOS + METADADOS, UMA UNIDADE DE DADO dentro de um arquivo computacional não estruturado, uma palavra em um arquivo textual, um pixel em um arquivo de imagem. A necessidade de PROCESSAMENTO DE DADOS, tecnologias viabilizadoras: análise estatística de textos, (lei de Zipf), processamento de linguagem natural, NLP, natural language processing; aplicações: reconhecimento de entidades nomeadas (named-entity recognition), anotações semânticas, indexação automática
  • 14. 5. Expressividade Semântica X Níveis de Complexidade X Quantidade de Dados Nível 3 O valor de uma propriedade de UMA instância de UMA entidade, uma proposição, “state of affairs” (JANSEN, 2008, 188), um datum <e, a, v>, Entidade, Atributo/Propriedade, Valor (Hjørland, 2018), um elemento básico de dados, conteúdos contextualizados <Giovana, ano de nascimento, 2018>, <Funcionário, nome, João da Silva>, uma marcação XML com conteúdo <a>hghghsag</<a>, 3 pontos de dados ou Conceitos (DAHLBERG, 1978), o valor de um campo de um banco de dados ou célula em uma planilha, o valor de uma propriedade em uma instância de uma ontologia, uma marcação XML com conteúdo <a>hghghsag</<a>, marcação folha, em um documento XML de maior nível, RAIZ PROPRIEDADE EMERGENTE A REPRESENTAÇÃO DE UMA ENTIDADE, A REUNIÃO DE TODAS AS PROPRIEDADES DE UMA ENTIDADE DADOS ESTRUTURADOS, perceptíveis por humanos e por máquinas Nível 4 A representação e UMA instância de UMA entidade com todas as suas propriedades Uma linha em uma base de dados ou planilha, um documento XML a descrição, ou grafo, de um recurso RDF como a Mona Lisa na Wikidata, https://www.wikidata.org/wiki/Q12418 PROPRIEDADE EMERGENTE REPRESENTAÇÃO DE VÁRIAS INSTÂNCIAS DE UMA MESMA ENTIDADE ”BIG DATA”, VOLUME, VARIEDADE, VELOCIDADE E VALOR Nível 5 Aumento da expressividade pelo aumento do VOLUME do dataset Uma base de dados ou dataset PROCESSAMENTO DE DADOS, ver (ALJUMAH; NUSEIR; ALAM 2021, p. 1097) Tecnologias Data Science Technologies, “insightS” a partir d processamento de um dataset (Dhar, 2013). PROPRIEDADE EMERGENTE REPRESENTAÇÃO DE VÁRIAS INSTÂNCIAS DE VÁRIAS ENTIDADES DIFERENTES Nível 6 Aumento da expressividade pelo aumento do tamanho do dataset Um banco de dados formado por várias bases de dados ou datasets, um repositório digital (padrões de metadados como D-CAT) PROCESSAMENTO DE DADOS (ver (ALJUMAH; NUSEIR; ALAM 2021, p. 1097) Data Science Technologies, “insight” do processamento de vários datasets
  • 15. 6. Considerações finais Dados digitais, um ativo cada vez mais importante Dados estruturados, processáveis por máquina Semântica dos dados: complexidade dos agregados/sistemas de dados + processamento + volume Modelagem Conceitual (coisas) X Modelagem Estatística (conjuntos de coisas)
  • 16. Referências ALJUMAH, Ahmad Ibrahim; NUSEIR, Mohammed T.; ALAM, Md Mahmudul. Organizational performance and capabilities to analyze big data: do the ambidexterity and business value of big data analytics matter?. Business Process Management Journal, 2021. CAPURRO, R. Epistemologia e Ciência da Informação. In: Encontro Nacional de Pesquisa em Ciência da Informação, 5, ANCIB/UFMG, 2003, Anais... Belo Horizonte: ANCIB/UFMG, 2003. Disponível em: <http://www.capurro.de/enancib_p.htm>. Acesso em: 8 mar. 2010. DAHLBERG, I. Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, 1978. Disponível em: http://revista.ibict.br/ciinf/article/view/115/115. Acesso em: 11 ago. 2013. FEIBLEMAN, J. K. Theory of Integrative Levels. The British Journal for the Philosophy of Science, v. 5, n. 17, pp. 59-66, May, 1954. Disponível em: http://www.jstor.org/stable/685952. Acesso em: 10 dez. 2013. GUARINO, N.. The ontological level: Revisiting 30 years of knowledge representation. In: Conceptual modeling: Foundations and applications. Springer, Berlin, Heidelberg, 2009. p. 52-67. Disponível em: http://telematika.kstu.kg/server/books/ger/conceptualmodel/4.pdf. Acesso em: 13 set. 2011. HJØRLAND, B. Data with big data and database semantics. In. IEKO, ISKO Encyclopedia of Knowledge Organization. ISKO: 2018. Disponível em: https://www.isko.org/cyclo/data. Acesso em: 02 dez. 2020. PEIRCE, C. S. COLLECTED PAPERS OF CHARLES SANDERS PEIRCE. vol 1. PRINCIPLES OF PHILOSOPHY. HARTSHORNE, C.; WEISS, P. (eds.). Cambridge: Harvard University Press, 1931. Disponível em: https://colorysemiotica.files.wordpress.com/2014/08/peirce-collectedpapers.pdf. Acesso em: 25 abr. 2020. SHAH, C. A Hands-on Introduction to Data Science. Cambridge: Cambridge University Press, 2020. doi:10.1017/9781108560412. ZENG, Marcia Lei. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la información, v. 28, n. 1, e280103, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019. OBRIGADO! ch_marcondes@id.uff.br