1. O documento discute a expressividade semântica de dados digitais em diferentes níveis de complexidade e quantidade de dados.
2. A hipótese é que agregados/sistemas de dados mais complexos e em maior volume tornam-se mais expressivos e podem gerar semântica para humanos e máquinas.
3. A metodologia baseia-se na semiótica de Peirce, no conceito de nível integrativo e em teorias sobre pontos de dados, dados e big data.
EM BUSCA DA CIÊNCIA DA INFORMAÇÃO TENDÊNCIAS DE PESQUISA-Aula inaugural ppg g...
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
1. EXPRESSIVIDADE SEMÂNTICA X
NÍVEIS DE COMPLEXIDADE X
QUANTIDADE DE DADOS
II SEMOC 2022, dez. 2022
Sergio de Castro Martins (UFRJ), sergio.scm@gmail.com, Maurício Augusto
Cabral Jr (PPGCI/UFF), macrjunior@gmail.com, Carlos H. Marcondes
(PPGCI/UFF, ch_marcondes@id.uff.br
Grupo de pesquisa:
ROCAD - REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO EM
AMBIENTES DIGITAIS
2. EXPRESSIVIDADE SEMÂNTICA X NÍVEIS DE
COMPLEXIDADE X QUANTIDADE DE DADOS
Sumário
1. Grupo de Pesquisa REPRESENTAÇÃO E ORGANIZAÇÃO DO CONHECIMENTO
EM AMBIENTES DIGITAIS
2. Contexto: “Big Data”
3. Questão de Pesquisa e Hipótese
4. Bases teóricas e metodologia
5. Expressividade Semântica X Níveis de Complexidade X Quantidade de
Dados
6. Considerações finais
Referências
3. 1. Grupo de pesquisa REPRESENTAÇÃO E
ORGANIZAÇÃO DO CONHECIMENTO EM
AMBIENTES DIGITAIS
Tem como objetivo buscar soluções teóricas e práticas para
representar e organizar registros de conhecimento em
ambientes digitais
Esta pesquisa é uma continuação de
MARCONDES, C. H., MARTINS, S. C., RAMOS JUNIOR, M. C. O
papel dos vocabulários no reuso e acesso aos Big Data.
Informação & Informação, v. 26, n. 4, p. 146-174, 2021.
Disponível em:
https://www.uel.br/revistas/uel/index.php/informacao/article/v
iew/44653/pdf. Acesso em: 5 jan. 2022
4. 2. Contexto:
“Big Data”
Quantidade de
conteúdo
publicado na Web
em 1 minuto (2021)
VOLUME, VARIEDADE,
VELOCIDADE E VALOR
Dados não estruturados
Dados estruturados
Fonte: https://www.smartinsights.com/internet-marketing-
statistics/happens-online-60-seconds
5. 3. Questão de Pesquisa e Hipótese
Semântica é um conceito muito geral. Um conceito operacional de Semântica aplicado a
mensagens (CAPURRO, 2003), i.e., DADOS é: a inferência feita por um agente baseado
em uma mensagem que lhe permite tomar decisões e, possivelmente, agir de acordo
Questão de Pesquisa: O que são dados? Como dados podem gerar semântica?
Como é gerada semântica (para humanos e para máquinas) a partir de dados digitais?
Pressupostos: Dados REPRESENTAM coisas do mundo, são artefatos
Dados se agregam em unidades mais complexas, em
sistemas, e em maior volume, p. representar coisas,
como bases de dados, bancos de dados, ontologias, etc.
Hipótese: agregados/sistemas de dados digitais (campos, registros, tabelas, modelos
conceituais), a medida que se tornam mais complexos e em maior volume, tornam-se
também mais expressivos e podem gerar semântica para pessoas e para máquinas
6. 4. Bases Teóricas e Metodologia
Objeto,
MONOREFENCIALIDADE (o
calçado E NÃO o esporte
ALGO
“tenis”
ALGUMA
COISA
ALGUÉM
significado
6
para
Representação,
Símbolo, Termo,
Dado
4.1. Semiótica Peirceana
Interpretante, efeito
do símbolo na mente
7. 4. Bases Teóricas e Metodologia
4.2. Conceito, triângulo do Conceito (DAHLBERG, 1978)
Termo “cão”
Símbolo
Objeto
Referente
designam
denota
predicam 7
Características:
“Cão é um mamífero”
proposições verdadeiras
sobre o objeto
8. 4. Bases Teóricas e Metodologia
4.3. Triângulo Semiótico, triângulo do Conceito
Termo “cão”
Interpretante: Conceito de cão
Símbolo
Objeto
Referente
Termo “cão”
Características:
“Cão é um mamífero”
proposições verdadeira
sobre o objeto
Símbolo
Objeto
Referente
designam
denota
predicam 8
9. 4. Bases Teóricas e Metodologia
4.4. Ponto de dados (SHAH, 2020), datum, dados (HJORLAND,2018)
- Ponto de dados (datapoint, Shah (2020): conteúdo descontextualizado, ex:
“2018”
- Datum (Hjørland (2018), conteúdo contextualizado: (entidade, atributo, valor)
ex: 3 conceitos, “Giovana, ano de nascimento, 2018”
10. 4. Bases Teóricas e Metodologia
4.5. Ponto de dado (SHAH, 2020),Datum, dados (HJORLAND,2018)
Id. Paciente Data da notificação Comorbidade
0054/20191217/000075 2019/12/17 Asma
Data Umidade média ar Temperatura Min Temperatura Max
2019/12/17 4,9 g/M3 17oC 21oC
PACIENTES COM COVID-19
TEMPERATURAS E UMIDADE DIÁRIAS
CONCEITOS
11. 4. Bases Teóricas e Metodologia
4.6 Teoria dos Níveis Integrativos (FEIBLEMAN, 1954)
- A realidade se organiza em níveis de complexidade
crescente
- A passagem de um nível inferior para um nível superior
implica que o nível superior tenha uma propriedade que o
nível inferior não tem
- Um nível superior depende do nível imediatamente inferior
FÍSICO
BIOLÓGICO
SOCIAL
CULTURAL
Complexidade
crescente
12. 4. Bases Teóricas e Metodologia
4.7 “Big Data”, Data Science, volume de dados,
modelagem estatística, intervalo de confiança dos dados
“Without a doubt, the more data an association
can get about the condition of the market, the
more it may be able to identify new opportunities
and develop new strategies” (ALJUMAH; NUSEIR;
ALAM, 2021, p. 1097)
Ver: https://pt.wikipedia.org/wiki/Intervalo_de_confiança
13. 5. Expressividade Semântica X Níveis de
Complexidade X Quantidade de Dados
NÍVEL DE
COMPLEXIDAD
E DE DADOS
EXPRESSIVIDADE SEMÂNTICA DESCRIÇÃO/EXEMPLOS DIGITAIS EXPRESSIVIDADE POR PROCESSAMENTO E
QUANTIDADE DE DADOS, ver (ALJUMAH;
NUSEIR; ALAM 2021, p. 1097)
Nível 0 Arquivo segundo um formato digital, reconhecido
por um Sistema Operacional
Arquivos em formato não estruturado como txt, pdf, jpg, mp3, mp4
PROPRIEDADE
EMERGENTE
IDENTIFICAÇÃO DE BITS E BYTES dentro do “body” de um arquivo computacional (ver https://resources.infosecinstitute.com/topic/pdf-file-
format-basic-structure/), ou seja, os DADOS, ou CONTEÚDO que não façam parte do “layout” do arquivo, não contenham metadados do
formato
DADOS NÃO
ESTRUTURADOS,
perceptíveis só
por humanos
Nível 1 Bits e bytes no “body” de um arquivo segundo
um formato
PROPRIEDADE
EMERGENTE
IDENTIFICAÇÃO DE PONTOS DE DADOS (datapoint, Shah (2020) DENTRO DO “BODY”), uso de técnicas de, p. ex. PLN
Nível 2 Um conceito identificado em um vocabulário, mas
descontextualizado
“Giovana”, “ano de nascimento”, “2018”, “João”, “3,1416”, “estudante”, “V”, ver
XML Schema Part 2: Datatypes Second Edition, https://www.w3.org/TR/xmlschema-
2/
PROPRIEDADE
EMERGENTE
DADOS + METADADOS, UMA UNIDADE DE DADO dentro de um arquivo computacional não estruturado, uma palavra em um arquivo textual, um pixel
em um arquivo de imagem. A necessidade de PROCESSAMENTO DE DADOS, tecnologias viabilizadoras: análise estatística de textos, (lei de Zipf),
processamento de linguagem natural, NLP, natural language processing; aplicações: reconhecimento de entidades nomeadas (named-entity
recognition), anotações semânticas, indexação automática
14. 5. Expressividade Semântica X Níveis de
Complexidade X Quantidade de Dados
Nível 3 O valor de uma propriedade de UMA
instância de UMA entidade, uma
proposição, “state of affairs” (JANSEN,
2008, 188), um datum <e, a, v>, Entidade,
Atributo/Propriedade, Valor (Hjørland,
2018), um elemento básico de dados,
conteúdos contextualizados
<Giovana, ano de nascimento, 2018>, <Funcionário, nome, João
da Silva>, uma marcação XML com conteúdo
<a>hghghsag</<a>, 3 pontos de dados ou Conceitos
(DAHLBERG, 1978), o valor de um campo de um banco de dados
ou célula em uma planilha, o valor de uma propriedade em
uma instância de uma ontologia, uma marcação XML com
conteúdo <a>hghghsag</<a>, marcação folha, em um
documento XML de maior nível, RAIZ
PROPRIEDADE
EMERGENTE
A REPRESENTAÇÃO DE UMA ENTIDADE, A REUNIÃO DE TODAS AS PROPRIEDADES DE UMA ENTIDADE
DADOS ESTRUTURADOS,
perceptíveis por
humanos e por
máquinas
Nível 4 A representação e UMA instância de UMA
entidade com todas as suas propriedades
Uma linha em uma base de dados ou planilha, um
documento XML a descrição, ou grafo, de um recurso RDF
como a Mona Lisa na Wikidata,
https://www.wikidata.org/wiki/Q12418
PROPRIEDADE
EMERGENTE
REPRESENTAÇÃO DE VÁRIAS INSTÂNCIAS DE UMA MESMA ENTIDADE
”BIG DATA”, VOLUME,
VARIEDADE,
VELOCIDADE E VALOR
Nível 5 Aumento da expressividade pelo aumento
do VOLUME do dataset
Uma base de dados ou dataset PROCESSAMENTO DE
DADOS, ver
(ALJUMAH; NUSEIR;
ALAM 2021, p. 1097)
Tecnologias Data
Science
Technologies,
“insightS” a partir d
processamento de
um dataset (Dhar,
2013).
PROPRIEDADE
EMERGENTE
REPRESENTAÇÃO DE VÁRIAS INSTÂNCIAS DE VÁRIAS ENTIDADES DIFERENTES
Nível 6 Aumento da expressividade pelo aumento
do tamanho do dataset
Um banco de dados formado por várias bases de dados ou
datasets, um repositório digital (padrões de metadados
como D-CAT)
PROCESSAMENTO DE
DADOS (ver
(ALJUMAH; NUSEIR;
ALAM 2021, p. 1097)
Data Science
Technologies,
“insight” do
processamento de
vários datasets
15. 6. Considerações finais
Dados digitais, um ativo cada vez mais importante
Dados estruturados, processáveis por máquina
Semântica dos dados: complexidade dos
agregados/sistemas de dados + processamento +
volume
Modelagem Conceitual (coisas) X Modelagem
Estatística (conjuntos de coisas)
16. Referências
ALJUMAH, Ahmad Ibrahim; NUSEIR, Mohammed T.; ALAM, Md Mahmudul. Organizational performance and capabilities to
analyze big data: do the ambidexterity and business value of big data analytics matter?. Business Process Management
Journal, 2021.
CAPURRO, R. Epistemologia e Ciência da Informação. In: Encontro Nacional de Pesquisa em Ciência da Informação, 5, ANCIB/UFMG,
2003, Anais... Belo Horizonte: ANCIB/UFMG, 2003. Disponível em: <http://www.capurro.de/enancib_p.htm>. Acesso em: 8 mar. 2010.
DAHLBERG, I. Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, 1978. Disponível em:
http://revista.ibict.br/ciinf/article/view/115/115. Acesso em: 11 ago. 2013.
FEIBLEMAN, J. K. Theory of Integrative Levels. The British Journal for the Philosophy of Science, v. 5, n. 17, pp. 59-66, May, 1954.
Disponível em: http://www.jstor.org/stable/685952. Acesso em: 10 dez. 2013.
GUARINO, N.. The ontological level: Revisiting 30 years of knowledge representation. In: Conceptual modeling:
Foundations and applications. Springer, Berlin, Heidelberg, 2009. p. 52-67. Disponível em:
http://telematika.kstu.kg/server/books/ger/conceptualmodel/4.pdf. Acesso em: 13 set. 2011.
HJØRLAND, B. Data with big data and database semantics. In. IEKO, ISKO Encyclopedia of Knowledge Organization. ISKO: 2018. Disponível em:
https://www.isko.org/cyclo/data. Acesso em: 02 dez. 2020.
PEIRCE, C. S. COLLECTED PAPERS OF CHARLES SANDERS PEIRCE. vol 1. PRINCIPLES OF PHILOSOPHY. HARTSHORNE, C.; WEISS, P. (eds.).
Cambridge: Harvard University Press, 1931. Disponível em: https://colorysemiotica.files.wordpress.com/2014/08/peirce-collectedpapers.pdf.
Acesso em: 25 abr. 2020.
SHAH, C. A Hands-on Introduction to Data Science. Cambridge: Cambridge University Press, 2020. doi:10.1017/9781108560412.
ZENG, Marcia Lei. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la
información, v. 28, n. 1, e280103, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019.
OBRIGADO!
ch_marcondes@id.uff.br