Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)

2. O que é Web 3.0?

4. “A Web Semântica é uma extensão da Web corrente na qual é adicionada a informação a representação do seu significado, visando facilitar computadores e pessoas trabalhar de maneira cooperativa.” [Berners-Lee et al, 2001]

5. Web 1 2 3 . . .

8. ? 3

9. Qual a relação com o Linked / Open e Big Data?

10. Linked Data Linked Data is the term used to describe a method of exposing and connecting data on the Web from different sources. Currently, the Web uses hypertext links that allow people to move from one document to another. The idea behind Linked Data is that hyperdata links will let people or machines find related data on the Web that was not previously linked. http://www.webopedia.com/TERM/L/Linked_Data.html

11. Dados ligados “Termo usado para descrever um método de expor e conectar dados na Web a partir de diferentes fontes. A Web atual usa links em hipertexto que permite ir de um documento para outro. A idéia por traz do Linked Data é que pessoas e máquinas poderão encontrar relações entre dados que não haviam sido explicitamente ligados por links” Tradução livre

12. Open Data “Open data and content can be freely used, modified, and shared by anyone for any purpose” http://opendefinition.org/

13. Dados abertos “Dados abertos podem ser livremente usados, modificados e compartilhados por qualquer um, não importando o propósito” Tradução livre

15. Linked Data

16. Linked / Open Data

22. Formas de acesso • Download de arquivos TXT, CSV, XML, XLS, PDF, JSON, Turtle, RDF • APIs que retornam JSON • Endpoint SPARQL que podem retornar RDF, TURTLE ou JSON-LD

26. Sparql SPARQL Protocol and RDF Query Language)

27. Sparql # Busca os dados de Tim Berners-Lee PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name ?email FROM <http://www.w3.org/People/Berners-Lee/card> WHERE { ?person a foaf:Person. ?person foaf:name ?name. ?person foaf:mbox ?email. }

28. Resultado { "head": { "vars": [ "name" , "email" ] } , "results": { "bindings": [ { "name": { "type": "literal" , "value": "Timothy Berners-Lee" } , "email": { "type": "uri" , "value": "mailto:timbl@w3.org" } } ] } }

29. Sparql SELECT ?label ?criterio ?peso FROM <http://aquare.la/mec/benchmark> WHERE { ?iniciativa rdf:type mec:Iniciativa . OPTIONAl { ?iniciativa rdfs:label> ?label } OPTIONAL { ?iniciativa mec:temCriterio ?criterio . ?criterio mec:temPeso ?peso . } }

30. RDF Resource Descriptor Framework

31. RDF Resource Descriptor Framework

32. OWL Ontology Web Language

34. Sparql # Busca os dados de Tim Berners-Lee PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name ?email FROM <http://www.w3.org/People/Berners-Lee/card> WHERE { ?person a foaf:Person. ?person foaf:name ?name. ?person foaf:mbox ?email. }

36. Linked / Open, e o Big Data?

38. Big Data trata-se de um patrimônio informacional em grande volume, velocidade e variedade, o qual requer formas inovadoras e sustentáveis economicamente de processamento de forma a se promover a descoberta de insights, a tomada decisão e a otimização de processos. Tradução livre

45. Machine Learning

46. Machine Learning Abordagem supervisionada Redes neurais Redes Bayesianas Raciocínio baseado em casos (RBC) Inductive logic programming Classificadores ( ex: k-nearest neighbors ) Árvores de decisão Clustering (com treinamento) Não supervisionada Redes neurais SOM (Self-organizing map) Clustering (sem treinamento)

53. Machine Learning Abordagem supervisionada Redes neurais Redes Bayesianas Raciocínio baseado em casos (RBC) Inductive logic programming Classificadores ( ex: k-nearest neighbors ) Árvores de decisão (ex: C4.5, Apriori) Clustering (com treinamento) Não supervisionada Redes neurais SOM (Self-organizing map) Clustering (sem treinamento)

58. E seu eu precisar ou quiser criar meu próprio algoritmo de machine learning?

59. Scala Java

60. Scala – algumas virtudes • Tipagem estática e inferida • Paradigma funcional (Monads) + OO • Aproveita toda a infraestrutura Java • Estruturas de dados e de controle otimizadas para o tratamento matemático • Modelo de paralelização e distribuição descomplicados • Akka.io + Apache Spark (até 100 x mais rápido que o Hadoop) • Código menos verboso (cada toque de teclada conta)

61. Case: G-Cluster

62. Pequeno teste

63. Pequeno teste Algoritmos •CobWeb •DBSCAN •FarthestFirst •FilteredClusterer •HierarchicalClusterer •MakeDensityBasedClusterer •OPTICS •sIB •SimpleKMeans •Xmeans •EM

64. Os melhores resultados

65. Será que posso confiar a estratégia de minha empresa nesses resultados?

66. G-Cluster

67. Outro teste Iris setosa Iris versicolor Iris virginica

68. Iris dataset

70. Iris dataset - Resultados Algoritmo Resultado •CobWeb 2 espécies •DBSCAN Nenhuma espécie •FarthestFirst 2 espécies •FilteredClusterer 2 espécies •HierarchicalClusterer 2 espécies •MakeDensityBasedClustere r 2 espécies •OPTICS Nenhuma espécie •sIB 2 espécies •SimpleKMeans 2 espécies •Xmeans 2 espécies •EM 5 espécies •G-Cluster 3 espécies

71. Iris dataset - Resultados The use of this data set in cluster analysis however is uncommon, since the data set only contains two clusters with rather obvious separation. One of the clusters contains Iris setosa, while the other cluster contains both Iris virginica and Iris versicolor and is not separable without the species information Fisher used. This makes the data set a good example to explain the difference between supervised and unsupervised techniques in data mining: Fisher's linear discriminant model can only be obtained when the object species are known: class labels and clusters are not necessarily the same.[5]

75. Scala - Snippets

76. Outros testes em andamento

77. Retomando Qual a relação do Big / Open / Linked Data + Machine Learning com a Web 3.0?

78. Obrigado! E-mail marcos@aquare.la Twitter @marcos_hs Facebook https://www.facebook.com/aquarela.innovation Blog http://aquare.la/pt/artigos/ Artigos e inf. de cursos

Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)

Semelhante a Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica) (20)

Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)