O documento discute o conceito de Web 3.0, como uma extensão da Web atual que adiciona informações sobre o significado dos dados para facilitar a cooperação entre computadores e pessoas. Também aborda os conceitos de Linked/Open Data e como eles se relacionam com o tratamento de grandes volumes de dados heterogêneos (Big Data), utilizando técnicas como aprendizado de máquina.
4. “A Web Semântica é uma extensão da Web
corrente na qual é adicionada a informação
a representação do seu significado, visando
facilitar computadores e pessoas trabalhar
de maneira cooperativa.”
[Berners-Lee et al, 2001]
10. Linked Data
Linked Data is the term used to describe a method of
exposing and connecting data on the Web from different
sources. Currently, the Web uses hypertext links that
allow people to move from one document to another. The
idea behind Linked Data is that hyperdata links will let
people or machines find related data on the Web that was
not previously linked.
http://www.webopedia.com/TERM/L/Linked_Data.html
11. Dados ligados
“Termo usado para descrever um método de expor e
conectar dados na Web a partir de diferentes fontes. A
Web atual usa links em hipertexto que permite ir de um
documento para outro. A idéia por traz do Linked Data é
que pessoas e máquinas poderão encontrar relações
entre dados que não haviam sido explicitamente ligados
por links”
Tradução livre
12. Open Data
“Open data and content can be freely used, modified, and
shared by anyone for any purpose”
http://opendefinition.org/
13. Dados abertos
“Dados abertos podem ser livremente usados,
modificados e compartilhados por qualquer um, não
importando o propósito”
Tradução livre
22. Formas de acesso
• Download de arquivos
TXT, CSV, XML, XLS, PDF, JSON, Turtle, RDF
• APIs que retornam JSON
• Endpoint SPARQL
que podem retornar RDF, TURTLE ou JSON-LD
27. Sparql
# Busca os dados de Tim Berners-Lee
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?name ?email
FROM <http://www.w3.org/People/Berners-Lee/card>
WHERE {
?person a foaf:Person.
?person foaf:name ?name.
?person foaf:mbox ?email.
}
34. Sparql
# Busca os dados de Tim Berners-Lee
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?name ?email
FROM <http://www.w3.org/People/Berners-Lee/card>
WHERE {
?person a foaf:Person.
?person foaf:name ?name.
?person foaf:mbox ?email.
}
38. Big Data trata-se de um patrimônio informacional em
grande volume, velocidade e variedade, o qual requer
formas inovadoras e sustentáveis economicamente de
processamento de forma a se promover a descoberta
de insights, a tomada decisão e a otimização de
processos.
Tradução livre
39.
40.
41.
42. Big Data trata-se de um patrimônio informacional em
grande volume, velocidade e variedade, o qual requer
formas inovadoras e sustentáveis economicamente de
processamento de forma a se promover a descoberta
de insights, a tomada decisão e a otimização de
processos.
Tradução livre
43. Big Data trata-se de um patrimônio informacional em
grande volume, velocidade e variedade, o qual requer
formas inovadoras e sustentáveis economicamente de
processamento de forma a se promover a descoberta
de insights, a tomada decisão e a otimização de
processos.
Tradução livre
44. Big Data trata-se de um patrimônio informacional em
grande volume, velocidade e variedade, o qual requer
formas inovadoras e sustentáveis economicamente de
processamento de forma a se promover a descoberta
de insights, a tomada decisão e a otimização de
processos.
Tradução livre
60. Scala – algumas virtudes
• Tipagem estática e inferida
• Paradigma funcional (Monads) + OO
• Aproveita toda a infraestrutura Java
• Estruturas de dados e de controle otimizadas para o
tratamento matemático
• Modelo de paralelização e distribuição descomplicados
• Akka.io + Apache Spark (até 100 x mais rápido que o Hadoop)
• Código menos verboso (cada toque de teclada conta)
71. Iris dataset - Resultados
The use of this data set in cluster analysis however is
uncommon, since the data set only contains two clusters with
rather obvious separation. One of the clusters contains Iris
setosa, while the other cluster contains both Iris virginica and
Iris versicolor and is not separable without the species
information Fisher used. This makes the data set a good
example to explain the difference between supervised and
unsupervised techniques in data mining: Fisher's linear
discriminant model can only be obtained when the object
species are known: class labels and clusters are not necessarily
the same.[5]
72. Iris dataset - Resultados
The use of this data set in cluster analysis however is
uncommon, since the data set only contains two clusters with
rather obvious separation. One of the clusters contains Iris
setosa, while the other cluster contains both Iris virginica and
Iris versicolor and is not separable without the species
information Fisher used. This makes the data set a good
example to explain the difference between supervised and
unsupervised techniques in data mining: Fisher's linear
discriminant model can only be obtained when the object
species are known: class labels and clusters are not necessarily
the same.[5]
73. Iris dataset - Resultados
The use of this data set in cluster analysis however is
uncommon, since the data set only contains two clusters with
rather obvious separation. One of the clusters contains Iris
setosa, while the other cluster contains both Iris virginica and
Iris versicolor and is not separable without the species
information Fisher used. This makes the data set a good
example to explain the difference between supervised and
unsupervised techniques in data mining: Fisher's linear
discriminant model can only be obtained when the object
species are known: class labels and clusters are not necessarily
the same.[5]
74. Iris dataset - Resultados
The use of this data set in cluster analysis however is
uncommon, since the data set only contains two clusters with
rather obvious separation. One of the clusters contains Iris
setosa, while the other cluster contains both Iris virginica and
Iris versicolor and is not separable without the species
information Fisher used. This makes the data set a good
example to explain the difference between supervised and
unsupervised techniques in data mining: Fisher's linear
discriminant model can only be obtained when the object
species are known: class labels and clusters are not necessarily
the same.[5]