Como consumir e minerar dados
abertos com Software Livre
Marcos Vinicius Fidelis
Palestrante
Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde
1991.
Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999.
Entusiasta de Software Livre e Código Aberto desde 2007.
Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os
Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica.
Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho.
Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL,
Latinoware e PentahoDay.
Roadmap
● Open Data
●
Internet of Things
● Data Mining
● Knowledge Database Discovery
● Classification
● Pentaho Data Mining – WEKA
● ARFF, Explorer, Experimenter
● Pentaho Data Integration – Kettle
● Hands on
● Conclusion
Uma revolução de dados para quem?
● A crescente disponibilidade de dados digitais e
de tecnologias de dados levou muitos grupos
da sociedade civil, governos e organizações
internacionais a falar de uma “revolução de
dados”. Mas que tipos de projetos políticos,
modelos de cidadania e formas de ação irá a
tal revolução de dados permitir? E a quem irá,
em última análise, servir?
Dados Abertos
Que são dados abertos?
“Dados abertos são
aqueles que podem ser
usados, reutilizados e
distribuídos livremente por
qualquer pessoa – no
máximo exigindo-se que a
fonte seja citada ou que os
dados sejam divulgados
com a mesma licença.”
Quais tipos de Dados Abertos?
●
Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e
construções até topografia e limites)
●
Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores –
geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus)
●
Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até
zoologia.
●
Financeiros: dados como contas governamentais (receitas e despesas) e informações
sobre mercados financeiros (títulos ações, etc).
● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores
socioeconômicos.
● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o
tempo.
●
Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de
poluentes, a qualidade dos rios e oceanos.
●
Transporte: dados como horários, rotas e estatísticas pontuais.
Portais de Dados abertos
Internet of things - IoT
Por que Dados Abertos?
● Transparência
● Liberando valor social e comercial
● Participação e engajamento
● e ainda ...
Plataforma Pentaho
O que é Mineração de Dados?
● é o processo de explorar grandes quantidades de dados à procura
de padrões consistentes, como regras de associação ou sequências
temporais, para detectar relacionamentos sistemáticos entre
variáveis, detectando assim novos subconjuntos de dados.
● É formada por um conjunto de ferramentas e técnicas que através
do uso de algoritmos de aprendizagem ou classificação baseados
em redes neurais e estatística, são capazes de explorar um conjunto
de dados, extraindo ou ajudando a evidenciar padrões nestes dados
e auxiliando na descoberta de conhecimento. Esse conhecimento
pode ser apresentado por essas ferramentas de diversas formas:
agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.
Fases do Processo de Descoberta de
Conhecimento (Knowledge Discovery in
Databases)
KDD – Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em dados
novos e possuir o mesmo grau de confiança. Estes padrões são
considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento de
um problema ou um procedimento de tomada de decisão
● Torture os dados até confessarem!
WEKA - Histórico
● Existem três versões do Weka
– Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda
edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs.
– Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito
na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas
correções de bugs.
– Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de
bugs e novos recursos. (última 3.7.12 mai/2015)
● Anteriormente
– 1992 – submissão do projeto ao governo de NZ (Ian Witten)
– 1993 – aprovado pelo governo
– 1994 – Primeira versão (principalmente em C)
– 1996 – Primeira versão pública – WEKA 2.1
– 1997 – Convertido para Java
– 1998 – WEKA 3 (completamente Java)
– 2006 – O projeto foi incorporado ao Pentaho
Tarefas mais comuns de DM
• Classificação: aprendizado de uma função que mapeia um
dado em uma de várias classes conhecidas.
• Regressão (predição): aprendizado de uma função que mapeia
um dado em um valor real.
• Agrupamento (clustering): identificação de grupos de dados
onde os dados tem características semelhantes entre si e os
grupos tem características diferentes.
• Sumarização: descrição do que caracteriza um conjunto de
dados (ex. conjunto de regras).
• Detecção de desvios ou outliers: identificação de dados que
deveriam seguir um padrão mas não o fazem.
Construindo um modelo (classificador)
O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como AIS, AC e AG
Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
● @relation <relation-name>
● @attribute <attribute-name> <datatype>
– numeric
– <nominal-specification>
– string
– date [<date-format>]
– Ex: @ATTRIBUTE timestamp DATE "yyyy-
MM-dd HH:mm:ss"
● Sparse ARFF files
– @data
– 0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
– @data
– {1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}
Weka – Explorer
Classificador J48 (C4.5) – Árvore de Decisão
Output source code
Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado
Experimenter
Experimenter
PDI & PDM
Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais
eficaz você pode ser
● Buscando padrões úteis em dados de vendas,
políticas públicas, medicina, seguros, esportes
e etc.
● Analisar os dados de sensores, internet das
coisas.
Mudando o jeito de gerenciar o negócio
● Uma fase é o BI utilizando ETL e ferramentas
analíticas para suporte a decisão
● Outra fase é utilizar o BI antes de acontecer os
problemas, prever problemas, e/ou utilizar os
sistemas de apoio a decisão baseados em
aprendizagem de máquina junto aos sistemas
transacionais.
Data Mining e privacidade
● Data Mining busca PADRÕES e não
PESSOAS.
● Soluções técnicas podem limitar a invasão de
privacidade
– Substituir informações sigilosas com um id anônimo
– Fornecer saídas aleatórias
– Utilizar rótulos em instâncias que escondam o real
significado.
Hands on with WEKA
Vamos ver na prática como funciona!
Advanced Data Mining with Weka
Aprendendo mais sobre Data Mining
Aprendendo mais sobre Data Mining
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com
Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
(The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd
Contato
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
fidelis@utfpr.edu.br

Flisol 2016 fidelis - Curitiba - PR - Brazil

  • 1.
    Como consumir eminerar dados abertos com Software Livre Marcos Vinicius Fidelis
  • 2.
    Palestrante Professor da UTFPRna graduação desde 1996, e Analista de Informática da UEPG desde 1991. Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999. Entusiasta de Software Livre e Código Aberto desde 2007. Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica. Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho. Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL, Latinoware e PentahoDay.
  • 3.
    Roadmap ● Open Data ● Internetof Things ● Data Mining ● Knowledge Database Discovery ● Classification ● Pentaho Data Mining – WEKA ● ARFF, Explorer, Experimenter ● Pentaho Data Integration – Kettle ● Hands on ● Conclusion
  • 4.
    Uma revolução dedados para quem? ● A crescente disponibilidade de dados digitais e de tecnologias de dados levou muitos grupos da sociedade civil, governos e organizações internacionais a falar de uma “revolução de dados”. Mas que tipos de projetos políticos, modelos de cidadania e formas de ação irá a tal revolução de dados permitir? E a quem irá, em última análise, servir?
  • 5.
    Dados Abertos Que sãodados abertos? “Dados abertos são aqueles que podem ser usados, reutilizados e distribuídos livremente por qualquer pessoa – no máximo exigindo-se que a fonte seja citada ou que os dados sejam divulgados com a mesma licença.”
  • 6.
    Quais tipos deDados Abertos? ● Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e construções até topografia e limites) ● Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores – geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus) ● Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até zoologia. ● Financeiros: dados como contas governamentais (receitas e despesas) e informações sobre mercados financeiros (títulos ações, etc). ● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores socioeconômicos. ● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o tempo. ● Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de poluentes, a qualidade dos rios e oceanos. ● Transporte: dados como horários, rotas e estatísticas pontuais.
  • 7.
  • 8.
  • 9.
    Por que DadosAbertos? ● Transparência ● Liberando valor social e comercial ● Participação e engajamento ● e ainda ...
  • 10.
  • 11.
    O que éMineração de Dados? ● é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados. ● É formada por um conjunto de ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.
  • 12.
    Fases do Processode Descoberta de Conhecimento (Knowledge Discovery in Databases)
  • 13.
    KDD – KnowledgeDatabase Discovery ● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados) ● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo ● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão ● Torture os dados até confessarem!
  • 16.
    WEKA - Histórico ●Existem três versões do Weka – Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs. – Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas correções de bugs. – Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de bugs e novos recursos. (última 3.7.12 mai/2015) ● Anteriormente – 1992 – submissão do projeto ao governo de NZ (Ian Witten) – 1993 – aprovado pelo governo – 1994 – Primeira versão (principalmente em C) – 1996 – Primeira versão pública – WEKA 2.1 – 1997 – Convertido para Java – 1998 – WEKA 3 (completamente Java) – 2006 – O projeto foi incorporado ao Pentaho
  • 17.
    Tarefas mais comunsde DM • Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. • Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real. • Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes. • Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras). • Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.
  • 18.
    Construindo um modelo(classificador)
  • 19.
    O que tenhodisponível? ● 100+ algoritmos de classificação ● 75 para pré-processamento de dados ● 25 para apoiar o processo de Seleção de Atributos ● 20 para agrupamento, regras de associação, etc ● E muitas outras contribuições como AIS, AC e AG
  • 20.
    Arquivo ARFF % 1.Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa ● @relation <relation-name> ● @attribute <attribute-name> <datatype> – numeric – <nominal-specification> – string – date [<date-format>] – Ex: @ATTRIBUTE timestamp DATE "yyyy- MM-dd HH:mm:ss" ● Sparse ARFF files – @data – 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" – @data – {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
  • 21.
  • 22.
    Classificador J48 (C4.5)– Árvore de Decisão
  • 23.
  • 24.
    Experimenter ● permite acomparação de diferentes estratégias de aprendizagem. ● Para problemas de classificação e regressão ● Resultados escritos em um arquivo ou base de dados ● Opções de avaliação: cross-validation, curva de aprendizagem, hold-out ● Pode ser executado com diferentes configurações de parâmetros ● Teste de significância acoplado
  • 25.
  • 26.
  • 27.
  • 28.
    Onde utilizar DM? ●Quanto mais direcionados os anúncios, mais eficaz você pode ser ● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc. ● Analisar os dados de sensores, internet das coisas.
  • 29.
    Mudando o jeitode gerenciar o negócio ● Uma fase é o BI utilizando ETL e ferramentas analíticas para suporte a decisão ● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais.
  • 30.
    Data Mining eprivacidade ● Data Mining busca PADRÕES e não PESSOAS. ● Soluções técnicas podem limitar a invasão de privacidade – Substituir informações sigilosas com um id anônimo – Fornecer saídas aleatórias – Utilizar rótulos em instâncias que escondam o real significado.
  • 31.
    Hands on withWEKA Vamos ver na prática como funciona!
  • 32.
    Advanced Data Miningwith Weka Aprendendo mais sobre Data Mining
  • 33.
    Aprendendo mais sobreData Mining ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) ● KDnuggets – news, software, jobs, courses,… – www.KDnuggets.com ● ACM SIGKDD – data mining association – www.acm.org/sigkdd
  • 34.
    Contato Obrigado a todos! Prof.Marcos Vinicius Fidelis fidelis@utfpr.edu.br