SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
Como consumir e minerar dados
abertos com Software Livre
Marcos Vinicius Fidelis
Palestrante
Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde
1991.
Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999.
Entusiasta de Software Livre e Código Aberto desde 2007.
Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os
Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica.
Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho.
Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL,
Latinoware e PentahoDay.
Roadmap
● Open Data
●
Internet of Things
● Data Mining
● Knowledge Database Discovery
● Classification
● Pentaho Data Mining – WEKA
● ARFF, Explorer, Experimenter
● Pentaho Data Integration – Kettle
● Hands on
● Conclusion
Uma revolução de dados para quem?
● A crescente disponibilidade de dados digitais e
de tecnologias de dados levou muitos grupos
da sociedade civil, governos e organizações
internacionais a falar de uma “revolução de
dados”. Mas que tipos de projetos políticos,
modelos de cidadania e formas de ação irá a
tal revolução de dados permitir? E a quem irá,
em última análise, servir?
Dados Abertos
Que são dados abertos?
“Dados abertos são
aqueles que podem ser
usados, reutilizados e
distribuídos livremente por
qualquer pessoa – no
máximo exigindo-se que a
fonte seja citada ou que os
dados sejam divulgados
com a mesma licença.”
Quais tipos de Dados Abertos?
●
Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e
construções até topografia e limites)
●
Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores –
geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus)
●
Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até
zoologia.
●
Financeiros: dados como contas governamentais (receitas e despesas) e informações
sobre mercados financeiros (títulos ações, etc).
● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores
socioeconômicos.
● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o
tempo.
●
Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de
poluentes, a qualidade dos rios e oceanos.
●
Transporte: dados como horários, rotas e estatísticas pontuais.
Portais de Dados abertos
Internet of things - IoT
Por que Dados Abertos?
● Transparência
● Liberando valor social e comercial
● Participação e engajamento
● e ainda ...
Plataforma Pentaho
O que é Mineração de Dados?
● é o processo de explorar grandes quantidades de dados à procura
de padrões consistentes, como regras de associação ou sequências
temporais, para detectar relacionamentos sistemáticos entre
variáveis, detectando assim novos subconjuntos de dados.
● É formada por um conjunto de ferramentas e técnicas que através
do uso de algoritmos de aprendizagem ou classificação baseados
em redes neurais e estatística, são capazes de explorar um conjunto
de dados, extraindo ou ajudando a evidenciar padrões nestes dados
e auxiliando na descoberta de conhecimento. Esse conhecimento
pode ser apresentado por essas ferramentas de diversas formas:
agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.
Fases do Processo de Descoberta de
Conhecimento (Knowledge Discovery in
Databases)
KDD – Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em dados
novos e possuir o mesmo grau de confiança. Estes padrões são
considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento de
um problema ou um procedimento de tomada de decisão
● Torture os dados até confessarem!
WEKA - Histórico
● Existem três versões do Weka
– Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda
edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs.
– Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito
na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas
correções de bugs.
– Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de
bugs e novos recursos. (última 3.7.12 mai/2015)
● Anteriormente
– 1992 – submissão do projeto ao governo de NZ (Ian Witten)
– 1993 – aprovado pelo governo
– 1994 – Primeira versão (principalmente em C)
– 1996 – Primeira versão pública – WEKA 2.1
– 1997 – Convertido para Java
– 1998 – WEKA 3 (completamente Java)
– 2006 – O projeto foi incorporado ao Pentaho
Tarefas mais comuns de DM
• Classificação: aprendizado de uma função que mapeia um
dado em uma de várias classes conhecidas.
• Regressão (predição): aprendizado de uma função que mapeia
um dado em um valor real.
• Agrupamento (clustering): identificação de grupos de dados
onde os dados tem características semelhantes entre si e os
grupos tem características diferentes.
• Sumarização: descrição do que caracteriza um conjunto de
dados (ex. conjunto de regras).
• Detecção de desvios ou outliers: identificação de dados que
deveriam seguir um padrão mas não o fazem.
Construindo um modelo (classificador)
O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como AIS, AC e AG
Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
● @relation <relation-name>
● @attribute <attribute-name> <datatype>
– numeric
– <nominal-specification>
– string
– date [<date-format>]
– Ex: @ATTRIBUTE timestamp DATE "yyyy-
MM-dd HH:mm:ss"
● Sparse ARFF files
– @data
– 0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
– @data
– {1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}
Weka – Explorer
Classificador J48 (C4.5) – Árvore de Decisão
Output source code
Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado
Experimenter
Experimenter
PDI & PDM
Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais
eficaz você pode ser
● Buscando padrões úteis em dados de vendas,
políticas públicas, medicina, seguros, esportes
e etc.
● Analisar os dados de sensores, internet das
coisas.
Mudando o jeito de gerenciar o negócio
● Uma fase é o BI utilizando ETL e ferramentas
analíticas para suporte a decisão
● Outra fase é utilizar o BI antes de acontecer os
problemas, prever problemas, e/ou utilizar os
sistemas de apoio a decisão baseados em
aprendizagem de máquina junto aos sistemas
transacionais.
Data Mining e privacidade
● Data Mining busca PADRÕES e não
PESSOAS.
● Soluções técnicas podem limitar a invasão de
privacidade
– Substituir informações sigilosas com um id anônimo
– Fornecer saídas aleatórias
– Utilizar rótulos em instâncias que escondam o real
significado.
Hands on with WEKA
Vamos ver na prática como funciona!
Advanced Data Mining with Weka
Aprendendo mais sobre Data Mining
Aprendendo mais sobre Data Mining
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com
Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
(The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd
Contato
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
fidelis@utfpr.edu.br

Mais conteúdo relacionado

Mais procurados

Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisSérgio Dias
 
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIR
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIRPanorama global de gestão de dados de pesquisa e a iniciativa GO FAIR
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIRLuiz Olavo Bonino da Silva Santos
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosEduardo de Lucena Falcão
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Ciência de Dados em Governo
Ciência de Dados em GovernoCiência de Dados em Governo
Ciência de Dados em GovernoSérgio Dias
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data Analytics em Governo
Big Data Analytics em GovernoBig Data Analytics em Governo
Big Data Analytics em GovernoSérgio Dias
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS Antonio Pedro
 
Introdução a modelagem de dados - Banco de Dados
Introdução a modelagem de dados - Banco de DadosIntrodução a modelagem de dados - Banco de Dados
Introdução a modelagem de dados - Banco de Dadosinfo_cimol
 

Mais procurados (20)

Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionais
 
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIR
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIRPanorama global de gestão de dados de pesquisa e a iniciativa GO FAIR
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIR
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Ciência de Dados em Governo
Ciência de Dados em GovernoCiência de Dados em Governo
Ciência de Dados em Governo
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data Analytics em Governo
Big Data Analytics em GovernoBig Data Analytics em Governo
Big Data Analytics em Governo
 
Consulta a banco de dados
Consulta a banco de dadosConsulta a banco de dados
Consulta a banco de dados
 
Metadados com XML
Metadados com XMLMetadados com XML
Metadados com XML
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
 
Introdução a modelagem de dados - Banco de Dados
Introdução a modelagem de dados - Banco de DadosIntrodução a modelagem de dados - Banco de Dados
Introdução a modelagem de dados - Banco de Dados
 
Metadados
MetadadosMetadados
Metadados
 

Destaque

СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...
СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...
СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...Елена Денисова
 
Barcamp: Noise, Chaos and Deceptive Signals: Product Management in a Startup
Barcamp: Noise, Chaos and Deceptive Signals: Product Management in a StartupBarcamp: Noise, Chaos and Deceptive Signals: Product Management in a Startup
Barcamp: Noise, Chaos and Deceptive Signals: Product Management in a StartupAlek Kowalczyk
 
Vaanijya - Mobile Solutions for Microfinance Institutions
Vaanijya - Mobile Solutions for Microfinance InstitutionsVaanijya - Mobile Solutions for Microfinance Institutions
Vaanijya - Mobile Solutions for Microfinance InstitutionsSoumyadeep Majumdar
 
Node.js Presentation
Node.js PresentationNode.js Presentation
Node.js PresentationExist
 
How to Quantumly Grow your Ecommerce Business - Strategies and Tactics
How to Quantumly Grow your Ecommerce Business - Strategies and TacticsHow to Quantumly Grow your Ecommerce Business - Strategies and Tactics
How to Quantumly Grow your Ecommerce Business - Strategies and TacticsGoECart
 
Dancing with Life - Czech Republic - Sept 2012
Dancing with Life - Czech Republic - Sept 2012Dancing with Life - Czech Republic - Sept 2012
Dancing with Life - Czech Republic - Sept 2012Beautiful Individuals
 
(10 11)日常崗位工作安排
(10 11)日常崗位工作安排(10 11)日常崗位工作安排
(10 11)日常崗位工作安排Bovicky
 
Experiences in english class
Experiences in english classExperiences in english class
Experiences in english classdarkcrow08
 
Exist Aboitiz Tech Forum :: Embracing Open Source to Deliver Innovation
Exist Aboitiz Tech Forum :: Embracing Open Source to Deliver InnovationExist Aboitiz Tech Forum :: Embracing Open Source to Deliver Innovation
Exist Aboitiz Tech Forum :: Embracing Open Source to Deliver InnovationExist
 
Prepositions workshop
Prepositions workshopPrepositions workshop
Prepositions workshopdarkcrow08
 
Spelling Bee Contest Word List La Salle School
Spelling Bee Contest Word List La Salle SchoolSpelling Bee Contest Word List La Salle School
Spelling Bee Contest Word List La Salle Schooldarkcrow08
 
IDEAS TO ENCOURAGE ENGLISH LEARNING
IDEAS TO ENCOURAGE ENGLISH LEARNINGIDEAS TO ENCOURAGE ENGLISH LEARNING
IDEAS TO ENCOURAGE ENGLISH LEARNINGdarkcrow08
 
Yadari using BlueMaps - Healthcare Applications
Yadari using BlueMaps - Healthcare ApplicationsYadari using BlueMaps - Healthcare Applications
Yadari using BlueMaps - Healthcare ApplicationsTara Lynn Gray
 
What do you want to be vision
What do you want to be visionWhat do you want to be vision
What do you want to be visionSarka
 

Destaque (20)

СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...
СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...
СЕТЕВЫЕ ПРОЕКТЫ КАК СРЕДСТВА ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ ОБУЧА...
 
Barcamp: Noise, Chaos and Deceptive Signals: Product Management in a Startup
Barcamp: Noise, Chaos and Deceptive Signals: Product Management in a StartupBarcamp: Noise, Chaos and Deceptive Signals: Product Management in a Startup
Barcamp: Noise, Chaos and Deceptive Signals: Product Management in a Startup
 
Vaanijya - Mobile Solutions for Microfinance Institutions
Vaanijya - Mobile Solutions for Microfinance InstitutionsVaanijya - Mobile Solutions for Microfinance Institutions
Vaanijya - Mobile Solutions for Microfinance Institutions
 
Colores4
Colores4Colores4
Colores4
 
Node.js Presentation
Node.js PresentationNode.js Presentation
Node.js Presentation
 
2011 (3) feb 1 15
2011 (3) feb 1 152011 (3) feb 1 15
2011 (3) feb 1 15
 
Jennifer at cornell 3
Jennifer at cornell 3Jennifer at cornell 3
Jennifer at cornell 3
 
How to Quantumly Grow your Ecommerce Business - Strategies and Tactics
How to Quantumly Grow your Ecommerce Business - Strategies and TacticsHow to Quantumly Grow your Ecommerce Business - Strategies and Tactics
How to Quantumly Grow your Ecommerce Business - Strategies and Tactics
 
Dancing with Life - Czech Republic - Sept 2012
Dancing with Life - Czech Republic - Sept 2012Dancing with Life - Czech Republic - Sept 2012
Dancing with Life - Czech Republic - Sept 2012
 
(10 11)日常崗位工作安排
(10 11)日常崗位工作安排(10 11)日常崗位工作安排
(10 11)日常崗位工作安排
 
Experiences in english class
Experiences in english classExperiences in english class
Experiences in english class
 
Exist Aboitiz Tech Forum :: Embracing Open Source to Deliver Innovation
Exist Aboitiz Tech Forum :: Embracing Open Source to Deliver InnovationExist Aboitiz Tech Forum :: Embracing Open Source to Deliver Innovation
Exist Aboitiz Tech Forum :: Embracing Open Source to Deliver Innovation
 
Prepositions workshop
Prepositions workshopPrepositions workshop
Prepositions workshop
 
Colleton baptist association 2009 10
Colleton baptist association 2009 10Colleton baptist association 2009 10
Colleton baptist association 2009 10
 
Nvza bas drese
Nvza bas dreseNvza bas drese
Nvza bas drese
 
Spelling Bee Contest Word List La Salle School
Spelling Bee Contest Word List La Salle SchoolSpelling Bee Contest Word List La Salle School
Spelling Bee Contest Word List La Salle School
 
IDEAS TO ENCOURAGE ENGLISH LEARNING
IDEAS TO ENCOURAGE ENGLISH LEARNINGIDEAS TO ENCOURAGE ENGLISH LEARNING
IDEAS TO ENCOURAGE ENGLISH LEARNING
 
Pharmacognosy ist sem
Pharmacognosy ist semPharmacognosy ist sem
Pharmacognosy ist sem
 
Yadari using BlueMaps - Healthcare Applications
Yadari using BlueMaps - Healthcare ApplicationsYadari using BlueMaps - Healthcare Applications
Yadari using BlueMaps - Healthcare Applications
 
What do you want to be vision
What do you want to be visionWhat do you want to be vision
What do you want to be vision
 

Semelhante a Flisol 2016 fidelis - Curitiba - PR - Brazil

Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Situação e tendências da gestão de dados de investigação
Situação e tendências da gestão de dados de investigaçãoSituação e tendências da gestão de dados de investigação
Situação e tendências da gestão de dados de investigaçãoPedro Príncipe
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicosPortal de Periódicos UFSC
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisRaquel Camargo
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiNewton Calegari
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSVivaldo Jose Breternitz
 
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigaçãoWorkshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigaçãoPedro Príncipe
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Enhanced Publication aspects in Thesis and Dissertations
Enhanced Publication aspects in Thesis and DissertationsEnhanced Publication aspects in Thesis and Dissertations
Enhanced Publication aspects in Thesis and DissertationsFernando de Assis Rodrigues
 

Semelhante a Flisol 2016 fidelis - Curitiba - PR - Brazil (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Situação e tendências da gestão de dados de investigação
Situação e tendências da gestão de dados de investigaçãoSituação e tendências da gestão de dados de investigação
Situação e tendências da gestão de dados de investigação
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicos
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
Dados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicaçãoDados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicação
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias Sociais
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
 
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigaçãoWorkshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigação
 
Mineração
MineraçãoMineração
Mineração
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Enhanced Publication aspects in Thesis and Dissertations
Enhanced Publication aspects in Thesis and DissertationsEnhanced Publication aspects in Thesis and Dissertations
Enhanced Publication aspects in Thesis and Dissertations
 

Último

AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfhistonfilho
 
Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteDaniloMatos36
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfmaanuarruda
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfmaanuarruda
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfmaanuarruda
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...9z64mgz4kf
 

Último (6)

AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
 
Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste Nordeste
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
 

Flisol 2016 fidelis - Curitiba - PR - Brazil

  • 1. Como consumir e minerar dados abertos com Software Livre Marcos Vinicius Fidelis
  • 2. Palestrante Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde 1991. Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999. Entusiasta de Software Livre e Código Aberto desde 2007. Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica. Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho. Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL, Latinoware e PentahoDay.
  • 3. Roadmap ● Open Data ● Internet of Things ● Data Mining ● Knowledge Database Discovery ● Classification ● Pentaho Data Mining – WEKA ● ARFF, Explorer, Experimenter ● Pentaho Data Integration – Kettle ● Hands on ● Conclusion
  • 4. Uma revolução de dados para quem? ● A crescente disponibilidade de dados digitais e de tecnologias de dados levou muitos grupos da sociedade civil, governos e organizações internacionais a falar de uma “revolução de dados”. Mas que tipos de projetos políticos, modelos de cidadania e formas de ação irá a tal revolução de dados permitir? E a quem irá, em última análise, servir?
  • 5. Dados Abertos Que são dados abertos? “Dados abertos são aqueles que podem ser usados, reutilizados e distribuídos livremente por qualquer pessoa – no máximo exigindo-se que a fonte seja citada ou que os dados sejam divulgados com a mesma licença.”
  • 6. Quais tipos de Dados Abertos? ● Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e construções até topografia e limites) ● Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores – geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus) ● Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até zoologia. ● Financeiros: dados como contas governamentais (receitas e despesas) e informações sobre mercados financeiros (títulos ações, etc). ● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores socioeconômicos. ● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o tempo. ● Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de poluentes, a qualidade dos rios e oceanos. ● Transporte: dados como horários, rotas e estatísticas pontuais.
  • 9. Por que Dados Abertos? ● Transparência ● Liberando valor social e comercial ● Participação e engajamento ● e ainda ...
  • 11. O que é Mineração de Dados? ● é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados. ● É formada por um conjunto de ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.
  • 12. Fases do Processo de Descoberta de Conhecimento (Knowledge Discovery in Databases)
  • 13. KDD – Knowledge Database Discovery ● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados) ● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo ● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão ● Torture os dados até confessarem!
  • 14.
  • 15.
  • 16. WEKA - Histórico ● Existem três versões do Weka – Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs. – Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas correções de bugs. – Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de bugs e novos recursos. (última 3.7.12 mai/2015) ● Anteriormente – 1992 – submissão do projeto ao governo de NZ (Ian Witten) – 1993 – aprovado pelo governo – 1994 – Primeira versão (principalmente em C) – 1996 – Primeira versão pública – WEKA 2.1 – 1997 – Convertido para Java – 1998 – WEKA 3 (completamente Java) – 2006 – O projeto foi incorporado ao Pentaho
  • 17. Tarefas mais comuns de DM • Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. • Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real. • Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes. • Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras). • Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.
  • 18. Construindo um modelo (classificador)
  • 19. O que tenho disponível? ● 100+ algoritmos de classificação ● 75 para pré-processamento de dados ● 25 para apoiar o processo de Seleção de Atributos ● 20 para agrupamento, regras de associação, etc ● E muitas outras contribuições como AIS, AC e AG
  • 20. Arquivo ARFF % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa ● @relation <relation-name> ● @attribute <attribute-name> <datatype> – numeric – <nominal-specification> – string – date [<date-format>] – Ex: @ATTRIBUTE timestamp DATE "yyyy- MM-dd HH:mm:ss" ● Sparse ARFF files – @data – 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" – @data – {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
  • 22. Classificador J48 (C4.5) – Árvore de Decisão
  • 24. Experimenter ● permite a comparação de diferentes estratégias de aprendizagem. ● Para problemas de classificação e regressão ● Resultados escritos em um arquivo ou base de dados ● Opções de avaliação: cross-validation, curva de aprendizagem, hold-out ● Pode ser executado com diferentes configurações de parâmetros ● Teste de significância acoplado
  • 28. Onde utilizar DM? ● Quanto mais direcionados os anúncios, mais eficaz você pode ser ● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc. ● Analisar os dados de sensores, internet das coisas.
  • 29. Mudando o jeito de gerenciar o negócio ● Uma fase é o BI utilizando ETL e ferramentas analíticas para suporte a decisão ● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais.
  • 30. Data Mining e privacidade ● Data Mining busca PADRÕES e não PESSOAS. ● Soluções técnicas podem limitar a invasão de privacidade – Substituir informações sigilosas com um id anônimo – Fornecer saídas aleatórias – Utilizar rótulos em instâncias que escondam o real significado.
  • 31. Hands on with WEKA Vamos ver na prática como funciona!
  • 32. Advanced Data Mining with Weka Aprendendo mais sobre Data Mining
  • 33. Aprendendo mais sobre Data Mining ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) ● KDnuggets – news, software, jobs, courses,… – www.KDnuggets.com ● ACM SIGKDD – data mining association – www.acm.org/sigkdd
  • 34. Contato Obrigado a todos! Prof. Marcos Vinicius Fidelis fidelis@utfpr.edu.br