Palestra garimpando com pentaho data mining latinoware
Denunciar
Compartilhar
Marcos Vinicius FidelisProfessor na UTFPR, Analista de Informática na UEPG e Escotista. Atuação: Grails, JasperReports, Pentaho; BD, SAD e BI. em Universidade Tecnológica Federal do Paraná
Seguir
•2 gostaram•544 visualizações
1 de 64
Palestra garimpando com pentaho data mining latinoware
Marcos Vinicius FidelisProfessor na UTFPR, Analista de Informática na UEPG e Escotista. Atuação: Grails, JasperReports, Pentaho; BD, SAD e BI. em Universidade Tecnológica Federal do Paraná
2. 12ª Conferencia Latino-americana de Software Livre
Palestrante
● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná
(UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área
Acadêmica da Universidade Estadual de Ponta Grossa (UEPG).
● É graduado em Processamento de Dados e Especialista em Análise e
Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em
Desenvolvimento de Sistemas Computacionais pela PUC-PR.
● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre
outros projetos, liderou a implantação dos Frameworks Grails e JasperReports.
● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco
de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão,
Mineração de Dados e Gerenciamento de Sistemas de Informação.
● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org.
● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e
PentahoDay.
3. Introdução
● Em um PDV ou em um sítio de vendas, uma grande quantidade de
dados está sendo coletada e armazenada a cada minuto:
– Web data, e-commerce
– Dados de faturamento
– Transações de cartões de crédito ou bancários
– Reservas de produtos
– Computadores tem se tornado baratos e mais poderosos
● Estas pequenas entradas de dados podem ser muito importantes
– (investigação de crimes, retorno de produtos, etc)
● A pressão competitiva no mundo dos negócios é muito grande
– Fornecer serviços melhores e customizados para uma clientela (ex: CRM)
5. Questões atuais
“Somente persistir os dados já não é mais
suficiente para encontrar oportunidades de
negócio. Atualmente, é cada vez mais necessário
que se tire um proveito maior dos dados.”
“Estamos nos afogando em dados, mas sedentos
por informação!”
“Torture os dados até confessarem!”
6. ●
Tendências que nos levam a um cenário de alta disponibilidade
dados
– Instituições financeiras, telecomunicações, transações em empresas.
– Dados científicos: astronomia, biologia, etc.
– Dados na Web, Dados em textos, comércio eletrônico, …
– IoT
●
Capacidades de coletar/armazenar superaram nossas habilidades
de analisar/extrair conhecimento dos dados:
– É necessária a aplicação de técnicas/ferramentas que transformem, de maneira
inteligente e automática, os dados disponíveis em informações úteis, que
representem conhecimento.
Questões atuais
7. Padrões são a parte chave da
Inteligência
● Evolução: os animais mais
capazes de encontrar e usar
padrões são aqueles com
maiores chances de sobreviver.
● Pessoas tem uma habilidade e
o desejo de encontrar padrões
● As empresas não oferecem
mais espaço para pessoas
intuitivas.
● A ciência ajuda a separar
padrões válidos de inválidos.
8. Estudo de Caso: e-commerce
mau sucedido (KDD Cup 2000)
● Claro que a aplicação de mineração de dados não é garantia de sucesso e
durante a bolha da internet de 1999-2000, temos visto muitos exemplos.
● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de
compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ )
● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $
12 em uma compra média no sítio
● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes
● Uma análise muito interessante e esclarecedora foi feito por dezenas de
participantes da Copa. O gasto de tempo total foi de milhares de horas, o que
teria sido equivalente a milhões de dólares em honorários de consultoria.
● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares
de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los.
Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.
9. Estudo de Caso: e-commerce
bem sucedido
● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para
música, eletrônicos e outros produtos.
● Amazon.com tem um grupo de mineração de dados ativo, que se foca na
personalização. Por que personalização? Considere uma pessoa que compra um
livro (produto) na Amazon.com.
● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é
susceptível de comprar.
● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado
em livros comprados.
● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento
e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy ,
também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e
técnicas práticas com implementações de Java" , por Witten e Eibe .
● Programas de Recomendação são muito bem sucedido e programas mais
avançados estão sendo desenvolvidos.
10. História
● 1900 - Estatística
● 1960s - Data Mining = bad activity, data “dredging”
● 1990 - “Data Mining” é bom (Fayyad, 1996)
● 2003 - “Data Mining” peaks
● 2006 - Google Analytics
● 2007 - Business/Data/Predictive Analytics
● 2012 - Big Data
● 2013 - Data Science
● 2015 - ??
11. O que é Data Mining
● Extração de informações interessantes (não
triviais, implícitas, previamente desconhecidas
e potencialmente úteis) ou padrões de dados
em grandes bancos de dados.
● Nomes alternativos
– Knowledge Discorery in Databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business inteligence, etc.
12. Entendendo melhor...
● O que não é DM
– Pesquisar um número
de telefone em uma
lista
– Consultar um serviço
de busca web por
informações sobre
“amazon”
● O que é DM
– Certos nomes são mais
frequentes em certas
áreas
– Agrupar documentos
similares retornados
através de um serviço
de busca de acordo com
seu contexto (amazon
florest, amazon.com)
13. Como funciona o Data Mining (DM)?
Como funciona o Knowledge Database
Discovery(KDD)?
Descoberta de Conhecimento em Banco de Dados
15. Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em
dados novos e possuir o mesmo grau de confiança. Estes
padrões são considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento
de um problema ou um procedimento de tomada de decisão
16. Necessidade é a a mãe das invenções
● Problema de Explosão de Dados
– Ferramentas de coleta de dados automatizadas e
avançadas tecnologias de banco de dados levaram a
quantidades imensas de dados armazenados em bancos
de dados, DW e outros repositórios de informações.
● Solução = Data Mining
– Extração de conhecimento interessante de grandes
banco de dados
– Regras, regularidades, padrões, restrições.
17. Outras definições para DM
É um processo de análise de
dados a partir de várias
perspectivas com o objetivos
de sumarizá-los através de
informações úteis.
É um processo para
descobrir inteligência em
armazéns de dados, que
está escondida em
relatórios e consultas.
A inteligência é obtida a partir de padrões e
relacionamentos encontrados nos dados:
● Fatores internos: preços, localização do
negócio, competências pessoais
● Fatores externos: indicadores
econômicos, concorrência, dados
demográficos
Mineração de dados é o processo de
explorar grandes quantidades de dados à
procura de padrões consistentes, como
regras de associação ou sequências
temporais, para detectar relacionamentos
sistemáticos entre variáveis, detectando
assim novos subconjuntos de dados.
18. O que é Pentaho
● Pentaho é uma suíte de aplicativos de código aberto
para inteligência empresarial (BI – Businnes Intelligence
ou BA – Businnes Analytics como estão chamando
atualmente), desenvolvido em Java.
● A solução cobre as àreas de ETL (Extraction,
Transformation and Load), reporting, OLAP e
mineração de dados (data-mining).
● Desenvolvido desde 2004 pela Pentaho Corporation o
software foi considerado uma das melhores aplicações
para inteligência empresarial em 2008 pela InfoWorld.
20. Componentes do Pentaho
● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para
extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar
diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente.
● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta
de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o
BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados,
independentemente do seu tamanho.
● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad-
hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV.
●
Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a
mineração de dados.
● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de
indicadores de performance.
● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para
aprimorar a performance de suas consultas OLAP (Mondrian)
● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do
Mondrian.
● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios.
● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais
relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e
assim estender as capacidades da ferramenta.
22. Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais eficaz você
pode ser
● Buscando padrões úteis em dados de vendas, políticas
públicas, medicina, seguros, esportes e etc.
● Analisar os dados de sensores, IoT.
23. Problemas adequados para DM
●
Requerem decisões baseadas em conhecimento;
●
Ambiente dinâmico (dados novos);
●
Existem métodos sub-ótimos;
●
Há dados acessíveis, relevantes e em quantidade
suficiente;
●
Proporcionam recompensas elevadas pelas decisões
corretas;
●
Privacidade é um assunto importante.
24. Principais técnicas de
Mineração de Dados
● Métodos Preditivos
– Classificação
– Regressão
– Detecção de desvios
● Métodos Descritivos
– Agrupamento
– Associação
– Descoberta de
Padrões Sequenciais
25. Pentaho Data Mining (PDM)
● Explorer: testar
classificadores/filtros
● Experimenter:
Comparação de
desempenho
● KnowledgeFlow:
Interface gráfica
● SimpleCli: Interface de
linha de comando
26. História
● 1992 – submissão do projeto ao governo de NZ
(Ian Witten)
● 1993 – aprovado pelo governo
● 1994 – Primeira versão (principalmente em C)
● 1996 – Primeira versão pública – WEKA 2.1
● 1997 – Convertido para Java
● 1998 – WEKA 3 (completamente Java)
● 2006 – O projeto foi incorporado ao Pentaho
27. O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como Artificial
Immune Systems, Ant Colony e Genetic Algorithms
33. Como trabalhar com a alta
dimensionalidade dos dados?
● Seleção de Atributos
– Realizada no pré-processamento dos dados
– Usada para investigar quais atributos (subconjuntos
deles) são mais preditivos
– 2 etapas:
● Um método de busca
● Um método de avaliação
– Flexibilidade: (quase) qualquer combinação de
busca/avaliação
34. Limitações
● Algoritmos tradicionais precisam ter todos os
dados na memória
● Solução
– Incremental schemes
– Stream algorithms
– MOA (Massive Online Analysis)
● http://moa.cs.waikato.ac.nz/
37. Classificação
Ponto de classe desconhecida
que se deseja prever
Dado um conjunto de pontos das classes conhecidas: (V)erde e
(A)zul. Qual é a classe para o novo ponto (D)esconhecido?
Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo
(Classificador) para classificar novos casos.
Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural,
etc.
42. Classificador ZeroR
O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para
Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
43. Classificador OneR
● É uma árvore de
decisão de um nível,
ou seja, regras que
utilizam um atributo
particular (1993)
44. Classificador Bayes
● Oposto do OneR: utiliza todos os atributos e
regras Bayes para estimar a probabilidade de
uma classe para uma instância
● Naive Bayes tem um desempenho muito bom
● Pode ser prejudicado por muitos atributos
redundantes
50. Como avaliar classificadores?
● Acurácia
● Custo/benefício total – quando diferentes erros
envolvem diferentes custos
● Curvas de Lift e ROC
● Erro em predições numéricas
A questão é estimar quanto confiável são os
resultados previstos?
51. Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado
54. Mudando o jeito de gerenciar o
negócio
● Uma fase do negócio é o BI
utilizando ETL e ferramentas
analíticas para suporte a
decisão.
●
Outra fase é utilizar o BI antes
de acontecer os problemas,
prever problemas, e/ou utilizar
os sistemas de apoio a decisão
baseados em aprendizagem de
máquina junto aos sistemas
transacionais.
Linha 1 Linha 2 Linha 3 Linha 4
0
2
4
6
8
10
12
Coluna 1
Coluna 2
Coluna 3
55. Big Data
● 2a Revolução Industrial
● Executar velhas atividades melhor
● Criar novos negócios e atividades
56. Executar melhor velhas atividades
● Áreas de aplicação
– marketing direto / modelagem Cliente
– previsão
– recomendações
– Detecção de fraude
– Segurança / Inteligência
● Melhorias são reais, mas são limitadas pela
aleatoriedade humana
● Concorrência irá nivelar empresas
57. Aspectos negativos
● Como toda a tecnologia, cabe ao usuário, utilizá-la
de uma forma positiva ou negativa
● DM pode ser usado negativamente nas áreas:
– Social
– Ética
– Legal
● Problema principal: privacidade
– Informações estão sendo armazenadas sem o
consentimento do consumidor
58. ● Analytics on-demand, analytics in the cloud.
● BI (Business Intelligence), Database and
OLAP software
● Bioinformatics and Pharmaceutical solutions
● CRM (Customer Relationship Management)
● Data Providers, Data Cleansing (Cleaning)
Tools
● eCommerce solutions
● Education, using predictive analytics and
data mining to improve learning.
● Email analysis, response, and marketing
● Fraud Detection solutions
● Healthcare Analytics solutions
● Human Resources and Staff Analytics
solutions
● Knowledge Management and News
● Marketing solutions, including real-time,
email, web, and affiliate marketing
Em que área trabalhar?
● Music Discovery and Music Data Mining.
● Personalization solutions
● Privacy software and solutions
● Real-Time Analytics and Decisioning solutions
● Retail solutions
● Risk Analysis and Credit Scoring
● Security and Intelligence solutions.
● Sports and Entertainment
● Stock and Investment Analysis and Prediction
● Survey creation and analysis
● Telecom
● Travel sites and solutions
● Twitter Analytics sites and solutions.
● Web Advertising
● Web Mining, Web Content Mining
59. Como aprender Data Mining
● Linguagens: Aprenda R, Python e SQL
● Ferramentas: aprenda como usar ferramentas de visualização e de
mineração de dados
● Literatura: leia textos introdutórios para compreender os
fundamentos
● Educação: assista webminars, faça cursos, e considere uma
certificação ou graduação em ciência de dados
● Dados: verifique recursos de dados disponíveis e encontre algo lá
● Competições: participe de competições de mineração de dados
● Interaja com outros cientistas de dados, através de redes sociais,
grupos e conferências
60. Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third
Edition (The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd
62. 12ª Conferencia Latino-americana de Software Livre
Você não está sozinho!
Esta é a comunidade Pentaho no Brasil.
http://www.pentahobrasil.com.br
https://www.facebook.com/pentahobrasil