Flisol 2016 fidelis - Curitiba - PR - Brazil

Como consumir e minerar dados
abertos com Software Livre
Marcos Vinicius Fidelis

Palestrante
Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde
1991.
Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999.
Entusiasta de Software Livre e Código Aberto desde 2007.
Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os
Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica.
Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho.
Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL,
Latinoware e PentahoDay.

Roadmap
● Open Data
●
Internet of Things
● Data Mining
● Knowledge Database Discovery
● Classification
● Pentaho Data Mining – WEKA
● ARFF, Explorer, Experimenter
● Pentaho Data Integration – Kettle
● Hands on
● Conclusion

Uma revolução de dados para quem?
● A crescente disponibilidade de dados digitais e
de tecnologias de dados levou muitos grupos
da sociedade civil, governos e organizações
internacionais a falar de uma “revolução de
dados”. Mas que tipos de projetos políticos,
modelos de cidadania e formas de ação irá a
tal revolução de dados permitir? E a quem irá,
em última análise, servir?

Dados Abertos
Que são dados abertos?
“Dados abertos são
aqueles que podem ser
usados, reutilizados e
distribuídos livremente por
qualquer pessoa – no
máximo exigindo-se que a
fonte seja citada ou que os
dados sejam divulgados
com a mesma licença.”

Quais tipos de Dados Abertos?
●
Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e
construções até topografia e limites)
●
Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores –
geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus)
●
Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até
zoologia.
●
Financeiros: dados como contas governamentais (receitas e despesas) e informações
sobre mercados financeiros (títulos ações, etc).
● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores
socioeconômicos.
● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o
tempo.
●
Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de
poluentes, a qualidade dos rios e oceanos.
●
Transporte: dados como horários, rotas e estatísticas pontuais.

Por que Dados Abertos?
● Transparência
● Liberando valor social e comercial
● Participação e engajamento
● e ainda ...

O que é Mineração de Dados?
● é o processo de explorar grandes quantidades de dados à procura
de padrões consistentes, como regras de associação ou sequências
temporais, para detectar relacionamentos sistemáticos entre
variáveis, detectando assim novos subconjuntos de dados.
● É formada por um conjunto de ferramentas e técnicas que através
do uso de algoritmos de aprendizagem ou classificação baseados
em redes neurais e estatística, são capazes de explorar um conjunto
de dados, extraindo ou ajudando a evidenciar padrões nestes dados
e auxiliando na descoberta de conhecimento. Esse conhecimento
pode ser apresentado por essas ferramentas de diversas formas:
agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.

Fases do Processo de Descoberta de
Conhecimento (Knowledge Discovery in
Databases)

KDD – Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em dados
novos e possuir o mesmo grau de confiança. Estes padrões são
considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento de
um problema ou um procedimento de tomada de decisão
● Torture os dados até confessarem!

WEKA - Histórico
● Existem três versões do Weka
– Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda
edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs.
– Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito
na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas
correções de bugs.
– Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de
bugs e novos recursos. (última 3.7.12 mai/2015)
● Anteriormente
– 1992 – submissão do projeto ao governo de NZ (Ian Witten)
– 1993 – aprovado pelo governo
– 1994 – Primeira versão (principalmente em C)
– 1996 – Primeira versão pública – WEKA 2.1
– 1997 – Convertido para Java
– 1998 – WEKA 3 (completamente Java)
– 2006 – O projeto foi incorporado ao Pentaho

Tarefas mais comuns de DM
• Classificação: aprendizado de uma função que mapeia um
dado em uma de várias classes conhecidas.
• Regressão (predição): aprendizado de uma função que mapeia
um dado em um valor real.
• Agrupamento (clustering): identificação de grupos de dados
onde os dados tem características semelhantes entre si e os
grupos tem características diferentes.
• Sumarização: descrição do que caracteriza um conjunto de
dados (ex. conjunto de regras).
• Detecção de desvios ou outliers: identificação de dados que
deveriam seguir um padrão mas não o fazem.

Construindo um modelo (classificador)

O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como AIS, AC e AG

Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
● @relation <relation-name>
● @attribute <attribute-name> <datatype>
– numeric
– <nominal-specification>
– string
– date [<date-format>]
– Ex: @ATTRIBUTE timestamp DATE "yyyy-
MM-dd HH:mm:ss"
● Sparse ARFF files
– @data
– 0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
– @data
– {1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}

Classificador J48 (C4.5) – Árvore de Decisão

Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado

Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais
eficaz você pode ser
● Buscando padrões úteis em dados de vendas,
políticas públicas, medicina, seguros, esportes
e etc.
● Analisar os dados de sensores, internet das
coisas.

Mudando o jeito de gerenciar o negócio
● Uma fase é o BI utilizando ETL e ferramentas
analíticas para suporte a decisão
● Outra fase é utilizar o BI antes de acontecer os
problemas, prever problemas, e/ou utilizar os
sistemas de apoio a decisão baseados em
aprendizagem de máquina junto aos sistemas
transacionais.

Data Mining e privacidade
● Data Mining busca PADRÕES e não
PESSOAS.
● Soluções técnicas podem limitar a invasão de
privacidade
– Substituir informações sigilosas com um id anônimo
– Fornecer saídas aleatórias
– Utilizar rótulos em instâncias que escondam o real
significado.

Hands on with WEKA
Vamos ver na prática como funciona!

Advanced Data Mining with Weka
Aprendendo mais sobre Data Mining

Aprendendo mais sobre Data Mining
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com
Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
(The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd

Contato
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
fidelis@utfpr.edu.br

Flisol 2016 fidelis - Curitiba - PR - Brazil

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Flisol 2016 fidelis - Curitiba - PR - Brazil

Semelhante a Flisol 2016 fidelis - Curitiba - PR - Brazil (20)

Último

Último (6)

Flisol 2016 fidelis - Curitiba - PR - Brazil