Palestra garimpando com pentaho data mining latinoware

Marcos Vinicius Fidelis
Marcos Vinicius FidelisProfessor na UTFPR, Analista de Informática na UEPG e Escotista. Atuação: Grails, JasperReports, Pentaho; BD, SAD e BI. em Universidade Tecnológica Federal do Paraná
12ª Conferencia Latino-americana de Software Livre
Garimpando com Pentaho Data Mining
Palestrante:
Marcos Vinicius Fidelis
12ª Conferencia Latino-americana de Software Livre
Palestrante
● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná
(UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área
Acadêmica da Universidade Estadual de Ponta Grossa (UEPG).
● É graduado em Processamento de Dados e Especialista em Análise e
Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em
Desenvolvimento de Sistemas Computacionais pela PUC-PR.
● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre
outros projetos, liderou a implantação dos Frameworks Grails e JasperReports.
● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco
de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão,
Mineração de Dados e Gerenciamento de Sistemas de Informação.
● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org.
● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e
PentahoDay.
Introdução
● Em um PDV ou em um sítio de vendas, uma grande quantidade de
dados está sendo coletada e armazenada a cada minuto:
– Web data, e-commerce
– Dados de faturamento
– Transações de cartões de crédito ou bancários
– Reservas de produtos
– Computadores tem se tornado baratos e mais poderosos
● Estas pequenas entradas de dados podem ser muito importantes
– (investigação de crimes, retorno de produtos, etc)
● A pressão competitiva no mundo dos negócios é muito grande
– Fornecer serviços melhores e customizados para uma clientela (ex: CRM)
Source : www.go-gulf.com
Date post : May 26, 2015
Questões atuais
“Somente persistir os dados já não é mais
suficiente para encontrar oportunidades de
negócio. Atualmente, é cada vez mais necessário
que se tire um proveito maior dos dados.”
“Estamos nos afogando em dados, mas sedentos
por informação!”
“Torture os dados até confessarem!”
●
Tendências que nos levam a um cenário de alta disponibilidade
dados
– Instituições financeiras, telecomunicações, transações em empresas.
– Dados científicos: astronomia, biologia, etc.
– Dados na Web, Dados em textos, comércio eletrônico, …
– IoT
●
Capacidades de coletar/armazenar superaram nossas habilidades
de analisar/extrair conhecimento dos dados:
– É necessária a aplicação de técnicas/ferramentas que transformem, de maneira
inteligente e automática, os dados disponíveis em informações úteis, que
representem conhecimento.
Questões atuais
Padrões são a parte chave da
Inteligência
● Evolução: os animais mais
capazes de encontrar e usar
padrões são aqueles com
maiores chances de sobreviver.
● Pessoas tem uma habilidade e
o desejo de encontrar padrões
● As empresas não oferecem
mais espaço para pessoas
intuitivas.
● A ciência ajuda a separar
padrões válidos de inválidos.
Estudo de Caso: e-commerce
mau sucedido (KDD Cup 2000)
● Claro que a aplicação de mineração de dados não é garantia de sucesso e
durante a bolha da internet de 1999-2000, temos visto muitos exemplos.
● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de
compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ )
● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $
12 em uma compra média no sítio
● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes
● Uma análise muito interessante e esclarecedora foi feito por dezenas de
participantes da Copa. O gasto de tempo total foi de milhares de horas, o que
teria sido equivalente a milhões de dólares em honorários de consultoria.
● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares
de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los.
Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.
Estudo de Caso: e-commerce
bem sucedido
● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para
música, eletrônicos e outros produtos.
● Amazon.com tem um grupo de mineração de dados ativo, que se foca na
personalização. Por que personalização? Considere uma pessoa que compra um
livro (produto) na Amazon.com.
● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é
susceptível de comprar.
● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado
em livros comprados.
● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento
e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy ,
também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e
técnicas práticas com implementações de Java" , por Witten e Eibe .
● Programas de Recomendação são muito bem sucedido e programas mais
avançados estão sendo desenvolvidos.
História
● 1900 - Estatística
● 1960s - Data Mining = bad activity, data “dredging”
● 1990 - “Data Mining” é bom (Fayyad, 1996)
● 2003 - “Data Mining” peaks
● 2006 - Google Analytics
● 2007 - Business/Data/Predictive Analytics
● 2012 - Big Data
● 2013 - Data Science
● 2015 - ??
O que é Data Mining
● Extração de informações interessantes (não
triviais, implícitas, previamente desconhecidas
e potencialmente úteis) ou padrões de dados
em grandes bancos de dados.
● Nomes alternativos
– Knowledge Discorery in Databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business inteligence, etc.
Entendendo melhor...
● O que não é DM
– Pesquisar um número
de telefone em uma
lista
– Consultar um serviço
de busca web por
informações sobre
“amazon”
● O que é DM
– Certos nomes são mais
frequentes em certas
áreas
– Agrupar documentos
similares retornados
através de um serviço
de busca de acordo com
seu contexto (amazon
florest, amazon.com)
Como funciona o Data Mining (DM)?
Como funciona o Knowledge Database
Discovery(KDD)?
Descoberta de Conhecimento em Banco de Dados
Processo de KDD
Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em
dados novos e possuir o mesmo grau de confiança. Estes
padrões são considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento
de um problema ou um procedimento de tomada de decisão
Necessidade é a a mãe das invenções
● Problema de Explosão de Dados
– Ferramentas de coleta de dados automatizadas e
avançadas tecnologias de banco de dados levaram a
quantidades imensas de dados armazenados em bancos
de dados, DW e outros repositórios de informações.
● Solução = Data Mining
– Extração de conhecimento interessante de grandes
banco de dados
– Regras, regularidades, padrões, restrições.
Outras definições para DM
É um processo de análise de
dados a partir de várias
perspectivas com o objetivos
de sumarizá-los através de
informações úteis.
É um processo para
descobrir inteligência em
armazéns de dados, que
está escondida em
relatórios e consultas.
A inteligência é obtida a partir de padrões e
relacionamentos encontrados nos dados:
● Fatores internos: preços, localização do
negócio, competências pessoais
● Fatores externos: indicadores
econômicos, concorrência, dados
demográficos
Mineração de dados é o processo de
explorar grandes quantidades de dados à
procura de padrões consistentes, como
regras de associação ou sequências
temporais, para detectar relacionamentos
sistemáticos entre variáveis, detectando
assim novos subconjuntos de dados.
O que é Pentaho
● Pentaho é uma suíte de aplicativos de código aberto
para inteligência empresarial (BI – Businnes Intelligence
ou BA – Businnes Analytics como estão chamando
atualmente), desenvolvido em Java.
● A solução cobre as àreas de ETL (Extraction,
Transformation and Load), reporting, OLAP e
mineração de dados (data-mining).
● Desenvolvido desde 2004 pela Pentaho Corporation o
software foi considerado uma das melhores aplicações
para inteligência empresarial em 2008 pela InfoWorld.
Módulos Pentaho
Componentes do Pentaho
● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para
extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar
diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente.
● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta
de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o
BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados,
independentemente do seu tamanho.
● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad-
hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV.
●
Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a
mineração de dados.
● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de
indicadores de performance.
● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para
aprimorar a performance de suas consultas OLAP (Mondrian)
● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do
Mondrian.
● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios.
● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais
relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e
assim estender as capacidades da ferramenta.
Palestra garimpando com pentaho data mining latinoware
Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais eficaz você
pode ser
● Buscando padrões úteis em dados de vendas, políticas
públicas, medicina, seguros, esportes e etc.
● Analisar os dados de sensores, IoT.
Problemas adequados para DM
●
Requerem decisões baseadas em conhecimento;
●
Ambiente dinâmico (dados novos);
●
Existem métodos sub-ótimos;
●
Há dados acessíveis, relevantes e em quantidade
suficiente;
●
Proporcionam recompensas elevadas pelas decisões
corretas;
●
Privacidade é um assunto importante.
Principais técnicas de
Mineração de Dados
● Métodos Preditivos
– Classificação
– Regressão
– Detecção de desvios
● Métodos Descritivos
– Agrupamento
– Associação
– Descoberta de
Padrões Sequenciais
Pentaho Data Mining (PDM)
● Explorer: testar
classificadores/filtros
● Experimenter:
Comparação de
desempenho
● KnowledgeFlow:
Interface gráfica
● SimpleCli: Interface de
linha de comando
História
● 1992 – submissão do projeto ao governo de NZ
(Ian Witten)
● 1993 – aprovado pelo governo
● 1994 – Primeira versão (principalmente em C)
● 1996 – Primeira versão pública – WEKA 2.1
● 1997 – Convertido para Java
● 1998 – WEKA 3 (completamente Java)
● 2006 – O projeto foi incorporado ao Pentaho
O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como Artificial
Immune Systems, Ant Colony e Genetic Algorithms
Onde buscar dados para mineração de dados?
Machine Learning Repository
dados.gov.br
data.rio
Exemplo de Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
●
@relation <relation-name>
● @attribute <attribute-name> <datatype>
– numeric
– <nominal-specification>
– string
– date [<date-format>]
– Ex: @ATTRIBUTE timestamp DATE "yyyy-
MM-dd HH:mm:ss"
● Sparse ARFF files
– @data
– 0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
– @data
– {1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}
Como trabalhar com a alta
dimensionalidade dos dados?
● Seleção de Atributos
– Realizada no pré-processamento dos dados
– Usada para investigar quais atributos (subconjuntos
deles) são mais preditivos
– 2 etapas:
● Um método de busca
● Um método de avaliação
– Flexibilidade: (quase) qualquer combinação de
busca/avaliação
Limitações
● Algoritmos tradicionais precisam ter todos os
dados na memória
● Solução
– Incremental schemes
– Stream algorithms
– MOA (Massive Online Analysis)
● http://moa.cs.waikato.ac.nz/
ETL utilizando PDI – dados para o
PDM
Agrupamento (Clustering)
Encontrar grupos naturais de exemplos
(dados não rotulados)
Classificação
Ponto de classe desconhecida
que se deseja prever
Dado um conjunto de pontos das classes conhecidas: (V)erde e
(A)zul. Qual é a classe para o novo ponto (D)esconhecido?
Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo
(Classificador) para classificar novos casos.
Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural,
etc.
Construindo um modelo
(classificador)
Dataset de exemplos classificados para
construir um modelo que classifica novos
exemplos
Weka – Explorer
Visualização Gráfica
Avaliando cada atributo
Classificador ZeroR
O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para
Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
Classificador OneR
● É uma árvore de
decisão de um nível,
ou seja, regras que
utilizam um atributo
particular (1993)
Classificador Bayes
● Oposto do OneR: utiliza todos os atributos e
regras Bayes para estimar a probabilidade de
uma classe para uma instância
● Naive Bayes tem um desempenho muito bom
● Pode ser prejudicado por muitos atributos
redundantes
Classificador J48 (C4.5)
Árvore de Decisão
Classificadores: Árvores de
decisão
if X > 5 then blue
else if Y > 3 then
blue
else if X > 2 then
green
else blue
Classificadores: Redes
Neurais
Podem selecionar regiões mais complexas
Podem ser mais precisas
Podem se ajustar aos dados - encontrar padrões em dados com ruído
Outras abordagens para
classificadores
● Rules
● Genetic Algorithms
● Ensemble
● E muitos outros
Output source code
Como avaliar classificadores?
● Acurácia
● Custo/benefício total – quando diferentes erros
envolvem diferentes custos
● Curvas de Lift e ROC
● Erro em predições numéricas
A questão é estimar quanto confiável são os
resultados previstos?
Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado
Experimenter
Experimenter
Mudando o jeito de gerenciar o
negócio
● Uma fase do negócio é o BI
utilizando ETL e ferramentas
analíticas para suporte a
decisão.
●
Outra fase é utilizar o BI antes
de acontecer os problemas,
prever problemas, e/ou utilizar
os sistemas de apoio a decisão
baseados em aprendizagem de
máquina junto aos sistemas
transacionais.
Linha 1 Linha 2 Linha 3 Linha 4
0
2
4
6
8
10
12
Coluna 1
Coluna 2
Coluna 3
Big Data
● 2a Revolução Industrial
● Executar velhas atividades melhor
● Criar novos negócios e atividades
Executar melhor velhas atividades
● Áreas de aplicação
– marketing direto / modelagem Cliente
– previsão
– recomendações
– Detecção de fraude
– Segurança / Inteligência
● Melhorias são reais, mas são limitadas pela
aleatoriedade humana
● Concorrência irá nivelar empresas
Aspectos negativos
● Como toda a tecnologia, cabe ao usuário, utilizá-la
de uma forma positiva ou negativa
● DM pode ser usado negativamente nas áreas:
– Social
– Ética
– Legal
● Problema principal: privacidade
– Informações estão sendo armazenadas sem o
consentimento do consumidor
● Analytics on-demand, analytics in the cloud.
● BI (Business Intelligence), Database and
OLAP software
● Bioinformatics and Pharmaceutical solutions
● CRM (Customer Relationship Management)
● Data Providers, Data Cleansing (Cleaning)
Tools
● eCommerce solutions
● Education, using predictive analytics and
data mining to improve learning.
● Email analysis, response, and marketing
● Fraud Detection solutions
● Healthcare Analytics solutions
● Human Resources and Staff Analytics
solutions
● Knowledge Management and News
● Marketing solutions, including real-time,
email, web, and affiliate marketing
Em que área trabalhar?
● Music Discovery and Music Data Mining.
● Personalization solutions
● Privacy software and solutions
● Real-Time Analytics and Decisioning solutions
● Retail solutions
● Risk Analysis and Credit Scoring
● Security and Intelligence solutions.
● Sports and Entertainment
● Stock and Investment Analysis and Prediction
● Survey creation and analysis
● Telecom
● Travel sites and solutions
● Twitter Analytics sites and solutions.
● Web Advertising
● Web Mining, Web Content Mining
Como aprender Data Mining
● Linguagens: Aprenda R, Python e SQL
● Ferramentas: aprenda como usar ferramentas de visualização e de
mineração de dados
● Literatura: leia textos introdutórios para compreender os
fundamentos
● Educação: assista webminars, faça cursos, e considere uma
certificação ou graduação em ciência de dados
● Dados: verifique recursos de dados disponíveis e encontre algo lá
● Competições: participe de competições de mineração de dados
● Interaja com outros cientistas de dados, através de redes sociais,
grupos e conferências
Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third
Edition (The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd
Cursos
12ª Conferencia Latino-americana de Software Livre
Você não está sozinho!
Esta é a comunidade Pentaho no Brasil.
http://www.pentahobrasil.com.br
https://www.facebook.com/pentahobrasil
Dúvidas?
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
mvfidelis@gmail.com
Tópico
12ª Conferencia Latino-americana de Software Livre
Texto do tópico ou assunto
1 de 64

Recomendados

Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -... por
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
542 visualizações51 slides
Pentaho Weka latinoware por
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinowareMarcos Vinicius Fidelis
1.2K visualizações51 slides
Flisol 2016 fidelis - Curitiba - PR - Brazil por
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
535 visualizações34 slides
Data Science - A arte de estudar e analisar dados por
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
1.3K visualizações19 slides
Data mining por
Data miningData mining
Data miningWelton Dias
618 visualizações38 slides
Business Intelligence - Data Warehouse por
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data WarehouseRudson Kiyoshi Souza Carvalho
1.6K visualizações59 slides

Mais conteúdo relacionado

Mais procurados

Data warehouse & Data mining por
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
8.9K visualizações31 slides
Data warehouse & data mining por
Data warehouse & data miningData warehouse & data mining
Data warehouse & data miningJerônimo Medina Madruga
10.5K visualizações73 slides
Apresentação data mining por
Apresentação data miningApresentação data mining
Apresentação data miningNilton Rodrigues Pereira
2.7K visualizações22 slides
Big data e mineração de dados por
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
2K visualizações39 slides
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare por
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
4K visualizações47 slides
Big Data x Data Mining - Hadoop por
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopF.Davi Camilo Ribeiro
575 visualizações47 slides

Mais procurados(20)

Data warehouse & Data mining por Cassius Busemeyer
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
Cassius Busemeyer8.9K visualizações
Big data e mineração de dados por Elton Meira
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
Elton Meira2K visualizações
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare por pccdias
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
pccdias4K visualizações
Big Data x Data Mining - Hadoop por F.Davi Camilo Ribeiro
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
F.Davi Camilo Ribeiro575 visualizações
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados por Eduardo de Lucena Falcão
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Eduardo de Lucena Falcão3.2K visualizações
OS CINCO Vs DO BIG DATA por Leonardo Dias
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Leonardo Dias6.7K visualizações
Exploracao datawarehouse mineracao_de_dados_ou_olap por KlaytonAlves
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
KlaytonAlves421 visualizações
Data Mining por Jaziel Silva
Data Mining Data Mining
Data Mining
Jaziel Silva4.4K visualizações
Governança de Dados e Big Data por Carlos Barbieri
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
Carlos Barbieri3.7K visualizações
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica... por Leandro de Castro
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
Leandro de Castro5.8K visualizações
KDD e Data Mining por Thiago Oliveira
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
Thiago Oliveira15.6K visualizações
TDC2017 - Misturando dados com Pentaho para insights mais significativos por Ambiente Livre
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Ambiente Livre1.4K visualizações
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre por Ambiente Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre1.2K visualizações
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba por Marcio Junior Vieira
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira2K visualizações
Pentaho, Hadoop , Big Data e Data Lakes por Ambiente Livre
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
Ambiente Livre757 visualizações
Técnicas de data mining por Félix Winter Vier
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
Félix Winter Vier4.3K visualizações
Cientista de Dados – Dominando o Big Data com Software Livre por Ambiente Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre2.2K visualizações
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho por Ambiente Livre
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Ambiente Livre3.5K visualizações

Similar a Palestra garimpando com pentaho data mining latinoware

Big Data e Data Science - Tecnologia e Mercado por
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
2K visualizações31 slides
Business Intelligence por
Business IntelligenceBusiness Intelligence
Business IntelligenceMauricio Uriona Maldonado PhD
1.6K visualizações40 slides
Weka pentaho day2014-fidelis por
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelisMarcos Vinicius Fidelis
1.2K visualizações53 slides
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola por
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
718 visualizações77 slides
Sistemas de Apoio à Decisão por
Sistemas de Apoio à DecisãoSistemas de Apoio à Decisão
Sistemas de Apoio à DecisãoRogério Fernandes da Costa
1.3K visualizações16 slides
Big Data: Desafios e Oportunidades por
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
185 visualizações49 slides

Similar a Palestra garimpando com pentaho data mining latinoware(20)

Big Data e Data Science - Tecnologia e Mercado por Hélio Silva
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
Hélio Silva2K visualizações
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola por alexculpado
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
alexculpado718 visualizações
Big Data: Desafios e Oportunidades por Gabriel Prado
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
Gabriel Prado185 visualizações
Virtualização de dados para Advanced Analytics e Machine Learning por Denodo
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
Denodo 354 visualizações
aula1 - Bigdata.pdf por Cyberboy11
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
Cyberboy115 visualizações
Como utilizar Bid Data na minha empres por José Bringel Filho
Como utilizar Bid Data na minha empresComo utilizar Bid Data na minha empres
Como utilizar Bid Data na minha empres
José Bringel Filho77 visualizações
Gestão Estratégica da Informação.pdf por joeljose321235
Gestão Estratégica da Informação.pdfGestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdf
joeljose32123518 visualizações
SAD - Sistemas de Apoio a Decisoes por Alexandre Mendes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a Decisoes
Alexandre Mendes34.6K visualizações
Tomada decisão por Ecoplas
Tomada decisãoTomada decisão
Tomada decisão
Ecoplas3.6K visualizações
Big Data Analytics - Data Science - Aplicação e Tecnologia por Hélio Silva
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
Hélio Silva2K visualizações
Data mining por Samira Carneiro
Data miningData mining
Data mining
Samira Carneiro1.4K visualizações
Entendo Business Intelligence por Douglas Scheibler
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
Douglas Scheibler13.5K visualizações
Pentaho Hadoop Big Data e Data Lakes por Ambiente Livre
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
Ambiente Livre2.2K visualizações
Futurecom - Big data por Felipe Ferraz
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
Felipe Ferraz61 visualizações
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho por Ambiente Livre
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Ambiente Livre1.4K visualizações

Último

[TIC Provedores 2022] Apresentação de Lançamento por
[TIC Provedores 2022] Apresentação de Lançamento[TIC Provedores 2022] Apresentação de Lançamento
[TIC Provedores 2022] Apresentação de LançamentoPedro Zambarda de Araújo
80 visualizações28 slides
certificado excel.pdf por
certificado excel.pdfcertificado excel.pdf
certificado excel.pdfjuniorcarvalho136
5 visualizações1 slide
DevFest2023-Pragmatismo da Internet das Coisas por
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das CoisasWalter Coan
36 visualizações40 slides
Criando testes integrados de APIs com PHP por
Criando testes integrados de APIs com PHPCriando testes integrados de APIs com PHP
Criando testes integrados de APIs com PHPFlávio Lisboa
16 visualizações33 slides
Conheça agora o UiPath Autopilot™ para o Studio.pdf por
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdfBrunaCavalcanti29
14 visualizações8 slides
Shift left DevOps Experience por
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps ExperienceWalter Coan
5 visualizações19 slides

Último(11)

[TIC Provedores 2022] Apresentação de Lançamento por Pedro Zambarda de Araújo
[TIC Provedores 2022] Apresentação de Lançamento[TIC Provedores 2022] Apresentação de Lançamento
[TIC Provedores 2022] Apresentação de Lançamento
Pedro Zambarda de Araújo80 visualizações
certificado excel.pdf por juniorcarvalho136
certificado excel.pdfcertificado excel.pdf
certificado excel.pdf
juniorcarvalho1365 visualizações
DevFest2023-Pragmatismo da Internet das Coisas por Walter Coan
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das Coisas
Walter Coan36 visualizações
Criando testes integrados de APIs com PHP por Flávio Lisboa
Criando testes integrados de APIs com PHPCriando testes integrados de APIs com PHP
Criando testes integrados de APIs com PHP
Flávio Lisboa16 visualizações
Conheça agora o UiPath Autopilot™ para o Studio.pdf por BrunaCavalcanti29
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdf
BrunaCavalcanti2914 visualizações
Shift left DevOps Experience por Walter Coan
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps Experience
Walter Coan5 visualizações
TechConnection 2023 Floripa Azure Container Apps por Walter Coan
TechConnection 2023 Floripa Azure Container AppsTechConnection 2023 Floripa Azure Container Apps
TechConnection 2023 Floripa Azure Container Apps
Walter Coan6 visualizações
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL por Faga1939
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASILA INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL
Faga19395 visualizações
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por AcademicaDlaUnicesum
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
AcademicaDlaUnicesum6 visualizações
ProxySQL no MySQL: Apenas um load balancer? por Roberto Garcia de Bem
ProxySQL no MySQL: Apenas um load balancer?ProxySQL no MySQL: Apenas um load balancer?
ProxySQL no MySQL: Apenas um load balancer?
Roberto Garcia de Bem6 visualizações
VIRTUS 1.6 MSI.pdf por FbioVieira85
VIRTUS 1.6 MSI.pdfVIRTUS 1.6 MSI.pdf
VIRTUS 1.6 MSI.pdf
FbioVieira855 visualizações

Palestra garimpando com pentaho data mining latinoware

  • 1. 12ª Conferencia Latino-americana de Software Livre Garimpando com Pentaho Data Mining Palestrante: Marcos Vinicius Fidelis
  • 2. 12ª Conferencia Latino-americana de Software Livre Palestrante ● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná (UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área Acadêmica da Universidade Estadual de Ponta Grossa (UEPG). ● É graduado em Processamento de Dados e Especialista em Análise e Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em Desenvolvimento de Sistemas Computacionais pela PUC-PR. ● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre outros projetos, liderou a implantação dos Frameworks Grails e JasperReports. ● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão, Mineração de Dados e Gerenciamento de Sistemas de Informação. ● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org. ● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e PentahoDay.
  • 3. Introdução ● Em um PDV ou em um sítio de vendas, uma grande quantidade de dados está sendo coletada e armazenada a cada minuto: – Web data, e-commerce – Dados de faturamento – Transações de cartões de crédito ou bancários – Reservas de produtos – Computadores tem se tornado baratos e mais poderosos ● Estas pequenas entradas de dados podem ser muito importantes – (investigação de crimes, retorno de produtos, etc) ● A pressão competitiva no mundo dos negócios é muito grande – Fornecer serviços melhores e customizados para uma clientela (ex: CRM)
  • 4. Source : www.go-gulf.com Date post : May 26, 2015
  • 5. Questões atuais “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados.” “Estamos nos afogando em dados, mas sedentos por informação!” “Torture os dados até confessarem!”
  • 6. ● Tendências que nos levam a um cenário de alta disponibilidade dados – Instituições financeiras, telecomunicações, transações em empresas. – Dados científicos: astronomia, biologia, etc. – Dados na Web, Dados em textos, comércio eletrônico, … – IoT ● Capacidades de coletar/armazenar superaram nossas habilidades de analisar/extrair conhecimento dos dados: – É necessária a aplicação de técnicas/ferramentas que transformem, de maneira inteligente e automática, os dados disponíveis em informações úteis, que representem conhecimento. Questões atuais
  • 7. Padrões são a parte chave da Inteligência ● Evolução: os animais mais capazes de encontrar e usar padrões são aqueles com maiores chances de sobreviver. ● Pessoas tem uma habilidade e o desejo de encontrar padrões ● As empresas não oferecem mais espaço para pessoas intuitivas. ● A ciência ajuda a separar padrões válidos de inválidos.
  • 8. Estudo de Caso: e-commerce mau sucedido (KDD Cup 2000) ● Claro que a aplicação de mineração de dados não é garantia de sucesso e durante a bolha da internet de 1999-2000, temos visto muitos exemplos. ● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ ) ● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $ 12 em uma compra média no sítio ● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes ● Uma análise muito interessante e esclarecedora foi feito por dezenas de participantes da Copa. O gasto de tempo total foi de milhares de horas, o que teria sido equivalente a milhões de dólares em honorários de consultoria. ● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los. Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.
  • 9. Estudo de Caso: e-commerce bem sucedido ● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para música, eletrônicos e outros produtos. ● Amazon.com tem um grupo de mineração de dados ativo, que se foca na personalização. Por que personalização? Considere uma pessoa que compra um livro (produto) na Amazon.com. ● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é susceptível de comprar. ● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado em livros comprados. ● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy , também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e técnicas práticas com implementações de Java" , por Witten e Eibe . ● Programas de Recomendação são muito bem sucedido e programas mais avançados estão sendo desenvolvidos.
  • 10. História ● 1900 - Estatística ● 1960s - Data Mining = bad activity, data “dredging” ● 1990 - “Data Mining” é bom (Fayyad, 1996) ● 2003 - “Data Mining” peaks ● 2006 - Google Analytics ● 2007 - Business/Data/Predictive Analytics ● 2012 - Big Data ● 2013 - Data Science ● 2015 - ??
  • 11. O que é Data Mining ● Extração de informações interessantes (não triviais, implícitas, previamente desconhecidas e potencialmente úteis) ou padrões de dados em grandes bancos de dados. ● Nomes alternativos – Knowledge Discorery in Databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business inteligence, etc.
  • 12. Entendendo melhor... ● O que não é DM – Pesquisar um número de telefone em uma lista – Consultar um serviço de busca web por informações sobre “amazon” ● O que é DM – Certos nomes são mais frequentes em certas áreas – Agrupar documentos similares retornados através de um serviço de busca de acordo com seu contexto (amazon florest, amazon.com)
  • 13. Como funciona o Data Mining (DM)? Como funciona o Knowledge Database Discovery(KDD)? Descoberta de Conhecimento em Banco de Dados
  • 15. Knowledge Database Discovery ● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados) ● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo ● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão
  • 16. Necessidade é a a mãe das invenções ● Problema de Explosão de Dados – Ferramentas de coleta de dados automatizadas e avançadas tecnologias de banco de dados levaram a quantidades imensas de dados armazenados em bancos de dados, DW e outros repositórios de informações. ● Solução = Data Mining – Extração de conhecimento interessante de grandes banco de dados – Regras, regularidades, padrões, restrições.
  • 17. Outras definições para DM É um processo de análise de dados a partir de várias perspectivas com o objetivos de sumarizá-los através de informações úteis. É um processo para descobrir inteligência em armazéns de dados, que está escondida em relatórios e consultas. A inteligência é obtida a partir de padrões e relacionamentos encontrados nos dados: ● Fatores internos: preços, localização do negócio, competências pessoais ● Fatores externos: indicadores econômicos, concorrência, dados demográficos Mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.
  • 18. O que é Pentaho ● Pentaho é uma suíte de aplicativos de código aberto para inteligência empresarial (BI – Businnes Intelligence ou BA – Businnes Analytics como estão chamando atualmente), desenvolvido em Java. ● A solução cobre as àreas de ETL (Extraction, Transformation and Load), reporting, OLAP e mineração de dados (data-mining). ● Desenvolvido desde 2004 pela Pentaho Corporation o software foi considerado uma das melhores aplicações para inteligência empresarial em 2008 pela InfoWorld.
  • 20. Componentes do Pentaho ● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente. ● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados, independentemente do seu tamanho. ● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad- hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV. ● Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a mineração de dados. ● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de indicadores de performance. ● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para aprimorar a performance de suas consultas OLAP (Mondrian) ● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do Mondrian. ● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios. ● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e assim estender as capacidades da ferramenta.
  • 22. Onde utilizar DM? ● Quanto mais direcionados os anúncios, mais eficaz você pode ser ● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc. ● Analisar os dados de sensores, IoT.
  • 23. Problemas adequados para DM ● Requerem decisões baseadas em conhecimento; ● Ambiente dinâmico (dados novos); ● Existem métodos sub-ótimos; ● Há dados acessíveis, relevantes e em quantidade suficiente; ● Proporcionam recompensas elevadas pelas decisões corretas; ● Privacidade é um assunto importante.
  • 24. Principais técnicas de Mineração de Dados ● Métodos Preditivos – Classificação – Regressão – Detecção de desvios ● Métodos Descritivos – Agrupamento – Associação – Descoberta de Padrões Sequenciais
  • 25. Pentaho Data Mining (PDM) ● Explorer: testar classificadores/filtros ● Experimenter: Comparação de desempenho ● KnowledgeFlow: Interface gráfica ● SimpleCli: Interface de linha de comando
  • 26. História ● 1992 – submissão do projeto ao governo de NZ (Ian Witten) ● 1993 – aprovado pelo governo ● 1994 – Primeira versão (principalmente em C) ● 1996 – Primeira versão pública – WEKA 2.1 ● 1997 – Convertido para Java ● 1998 – WEKA 3 (completamente Java) ● 2006 – O projeto foi incorporado ao Pentaho
  • 27. O que tenho disponível? ● 100+ algoritmos de classificação ● 75 para pré-processamento de dados ● 25 para apoiar o processo de Seleção de Atributos ● 20 para agrupamento, regras de associação, etc ● E muitas outras contribuições como Artificial Immune Systems, Ant Colony e Genetic Algorithms
  • 28. Onde buscar dados para mineração de dados?
  • 32. Exemplo de Arquivo ARFF % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa ● @relation <relation-name> ● @attribute <attribute-name> <datatype> – numeric – <nominal-specification> – string – date [<date-format>] – Ex: @ATTRIBUTE timestamp DATE "yyyy- MM-dd HH:mm:ss" ● Sparse ARFF files – @data – 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" – @data – {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
  • 33. Como trabalhar com a alta dimensionalidade dos dados? ● Seleção de Atributos – Realizada no pré-processamento dos dados – Usada para investigar quais atributos (subconjuntos deles) são mais preditivos – 2 etapas: ● Um método de busca ● Um método de avaliação – Flexibilidade: (quase) qualquer combinação de busca/avaliação
  • 34. Limitações ● Algoritmos tradicionais precisam ter todos os dados na memória ● Solução – Incremental schemes – Stream algorithms – MOA (Massive Online Analysis) ● http://moa.cs.waikato.ac.nz/
  • 35. ETL utilizando PDI – dados para o PDM
  • 36. Agrupamento (Clustering) Encontrar grupos naturais de exemplos (dados não rotulados)
  • 37. Classificação Ponto de classe desconhecida que se deseja prever Dado um conjunto de pontos das classes conhecidas: (V)erde e (A)zul. Qual é a classe para o novo ponto (D)esconhecido? Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo (Classificador) para classificar novos casos. Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural, etc.
  • 38. Construindo um modelo (classificador) Dataset de exemplos classificados para construir um modelo que classifica novos exemplos
  • 42. Classificador ZeroR O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
  • 43. Classificador OneR ● É uma árvore de decisão de um nível, ou seja, regras que utilizam um atributo particular (1993)
  • 44. Classificador Bayes ● Oposto do OneR: utiliza todos os atributos e regras Bayes para estimar a probabilidade de uma classe para uma instância ● Naive Bayes tem um desempenho muito bom ● Pode ser prejudicado por muitos atributos redundantes
  • 46. Classificadores: Árvores de decisão if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue
  • 47. Classificadores: Redes Neurais Podem selecionar regiões mais complexas Podem ser mais precisas Podem se ajustar aos dados - encontrar padrões em dados com ruído
  • 48. Outras abordagens para classificadores ● Rules ● Genetic Algorithms ● Ensemble ● E muitos outros
  • 50. Como avaliar classificadores? ● Acurácia ● Custo/benefício total – quando diferentes erros envolvem diferentes custos ● Curvas de Lift e ROC ● Erro em predições numéricas A questão é estimar quanto confiável são os resultados previstos?
  • 51. Experimenter ● permite a comparação de diferentes estratégias de aprendizagem. ● Para problemas de classificação e regressão ● Resultados escritos em um arquivo ou base de dados ● Opções de avaliação: cross-validation, curva de aprendizagem, hold-out ● Pode ser executado com diferentes configurações de parâmetros ● Teste de significância acoplado
  • 54. Mudando o jeito de gerenciar o negócio ● Uma fase do negócio é o BI utilizando ETL e ferramentas analíticas para suporte a decisão. ● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais. Linha 1 Linha 2 Linha 3 Linha 4 0 2 4 6 8 10 12 Coluna 1 Coluna 2 Coluna 3
  • 55. Big Data ● 2a Revolução Industrial ● Executar velhas atividades melhor ● Criar novos negócios e atividades
  • 56. Executar melhor velhas atividades ● Áreas de aplicação – marketing direto / modelagem Cliente – previsão – recomendações – Detecção de fraude – Segurança / Inteligência ● Melhorias são reais, mas são limitadas pela aleatoriedade humana ● Concorrência irá nivelar empresas
  • 57. Aspectos negativos ● Como toda a tecnologia, cabe ao usuário, utilizá-la de uma forma positiva ou negativa ● DM pode ser usado negativamente nas áreas: – Social – Ética – Legal ● Problema principal: privacidade – Informações estão sendo armazenadas sem o consentimento do consumidor
  • 58. ● Analytics on-demand, analytics in the cloud. ● BI (Business Intelligence), Database and OLAP software ● Bioinformatics and Pharmaceutical solutions ● CRM (Customer Relationship Management) ● Data Providers, Data Cleansing (Cleaning) Tools ● eCommerce solutions ● Education, using predictive analytics and data mining to improve learning. ● Email analysis, response, and marketing ● Fraud Detection solutions ● Healthcare Analytics solutions ● Human Resources and Staff Analytics solutions ● Knowledge Management and News ● Marketing solutions, including real-time, email, web, and affiliate marketing Em que área trabalhar? ● Music Discovery and Music Data Mining. ● Personalization solutions ● Privacy software and solutions ● Real-Time Analytics and Decisioning solutions ● Retail solutions ● Risk Analysis and Credit Scoring ● Security and Intelligence solutions. ● Sports and Entertainment ● Stock and Investment Analysis and Prediction ● Survey creation and analysis ● Telecom ● Travel sites and solutions ● Twitter Analytics sites and solutions. ● Web Advertising ● Web Mining, Web Content Mining
  • 59. Como aprender Data Mining ● Linguagens: Aprenda R, Python e SQL ● Ferramentas: aprenda como usar ferramentas de visualização e de mineração de dados ● Literatura: leia textos introdutórios para compreender os fundamentos ● Educação: assista webminars, faça cursos, e considere uma certificação ou graduação em ciência de dados ● Dados: verifique recursos de dados disponíveis e encontre algo lá ● Competições: participe de competições de mineração de dados ● Interaja com outros cientistas de dados, através de redes sociais, grupos e conferências
  • 60. Onde conseguir mais informações? ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) ● KDnuggets – news, software, jobs, courses,… – www.KDnuggets.com ● ACM SIGKDD – data mining association – www.acm.org/sigkdd
  • 62. 12ª Conferencia Latino-americana de Software Livre Você não está sozinho! Esta é a comunidade Pentaho no Brasil. http://www.pentahobrasil.com.br https://www.facebook.com/pentahobrasil
  • 63. Dúvidas? Obrigado a todos! Prof. Marcos Vinicius Fidelis mvfidelis@gmail.com
  • 64. Tópico 12ª Conferencia Latino-americana de Software Livre Texto do tópico ou assunto