12ª Conferencia Latino-americana de Software Livre
Garimpando com Pentaho Data Mining
Palestrante:
Marcos Vinicius Fidelis
12ª Conferencia Latino-americana de Software Livre
Palestrante
● Marcos Fidelis é Professor na Universidade Tecnológica Fe...
Introdução
● Em um PDV ou em um sítio de vendas, uma grande quantidade de
dados está sendo coletada e armazenada a cada mi...
Source : www.go-gulf.com
Date post : May 26, 2015
Questões atuais
“Somente persistir os dados já não é mais
suficiente para encontrar oportunidades de
negócio. Atualmente, ...
●
Tendências que nos levam a um cenário de alta disponibilidade
dados
– Instituições financeiras, telecomunicações, transa...
Padrões são a parte chave da
Inteligência
● Evolução: os animais mais
capazes de encontrar e usar
padrões são aqueles com
...
Estudo de Caso: e-commerce
mau sucedido (KDD Cup 2000)
● Claro que a aplicação de mineração de dados não é garantia de suc...
Estudo de Caso: e-commerce
bem sucedido
● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para
...
História
● 1900 - Estatística
● 1960s - Data Mining = bad activity, data “dredging”
● 1990 - “Data Mining” é bom (Fayyad, ...
O que é Data Mining
● Extração de informações interessantes (não
triviais, implícitas, previamente desconhecidas
e potenci...
Entendendo melhor...
● O que não é DM
– Pesquisar um número
de telefone em uma
lista
– Consultar um serviço
de busca web p...
Como funciona o Data Mining (DM)?
Como funciona o Knowledge Database
Discovery(KDD)?
Descoberta de Conhecimento em Banco d...
Processo de KDD
Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os...
Necessidade é a a mãe das invenções
● Problema de Explosão de Dados
– Ferramentas de coleta de dados automatizadas e
avanç...
Outras definições para DM
É um processo de análise de
dados a partir de várias
perspectivas com o objetivos
de sumarizá-lo...
O que é Pentaho
● Pentaho é uma suíte de aplicativos de código aberto
para inteligência empresarial (BI – Businnes Intelli...
Módulos Pentaho
Componentes do Pentaho
● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para
ex...
Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais eficaz você
pode ser
● Buscando padrões úteis em dados de v...
Problemas adequados para DM
●
Requerem decisões baseadas em conhecimento;
●
Ambiente dinâmico (dados novos);
●
Existem mét...
Principais técnicas de
Mineração de Dados
● Métodos Preditivos
– Classificação
– Regressão
– Detecção de desvios
● Métodos...
Pentaho Data Mining (PDM)
● Explorer: testar
classificadores/filtros
● Experimenter:
Comparação de
desempenho
● KnowledgeF...
História
● 1992 – submissão do projeto ao governo de NZ
(Ian Witten)
● 1993 – aprovado pelo governo
● 1994 – Primeira vers...
O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o process...
Onde buscar dados para mineração de dados?
Machine Learning Repository
dados.gov.br
data.rio
Exemplo de Arquivo ARFF
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael M...
Como trabalhar com a alta
dimensionalidade dos dados?
● Seleção de Atributos
– Realizada no pré-processamento dos dados
– ...
Limitações
● Algoritmos tradicionais precisam ter todos os
dados na memória
● Solução
– Incremental schemes
– Stream algor...
ETL utilizando PDI – dados para o
PDM
Agrupamento (Clustering)
Encontrar grupos naturais de exemplos
(dados não rotulados)
Classificação
Ponto de classe desconhecida
que se deseja prever
Dado um conjunto de pontos das classes conhecidas: (V)erde...
Construindo um modelo
(classificador)
Dataset de exemplos classificados para
construir um modelo que classifica novos
exem...
Weka – Explorer
Visualização Gráfica
Avaliando cada atributo
Classificador ZeroR
O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para
Atributo...
Classificador OneR
● É uma árvore de
decisão de um nível,
ou seja, regras que
utilizam um atributo
particular (1993)
Classificador Bayes
● Oposto do OneR: utiliza todos os atributos e
regras Bayes para estimar a probabilidade de
uma classe...
Classificador J48 (C4.5)
Árvore de Decisão
Classificadores: Árvores de
decisão
if X > 5 then blue
else if Y > 3 then
blue
else if X > 2 then
green
else blue
Classificadores: Redes
Neurais
Podem selecionar regiões mais complexas
Podem ser mais precisas
Podem se ajustar aos dados ...
Outras abordagens para
classificadores
● Rules
● Genetic Algorithms
● Ensemble
● E muitos outros
Output source code
Como avaliar classificadores?
● Acurácia
● Custo/benefício total – quando diferentes erros
envolvem diferentes custos
● Cu...
Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regress...
Experimenter
Experimenter
Mudando o jeito de gerenciar o
negócio
● Uma fase do negócio é o BI
utilizando ETL e ferramentas
analíticas para suporte a...
Big Data
● 2a Revolução Industrial
● Executar velhas atividades melhor
● Criar novos negócios e atividades
Executar melhor velhas atividades
● Áreas de aplicação
– marketing direto / modelagem Cliente
– previsão
– recomendações
–...
Aspectos negativos
● Como toda a tecnologia, cabe ao usuário, utilizá-la
de uma forma positiva ou negativa
● DM pode ser u...
● Analytics on-demand, analytics in the cloud.
● BI (Business Intelligence), Database and
OLAP software
● Bioinformatics a...
Como aprender Data Mining
● Linguagens: Aprenda R, Python e SQL
● Ferramentas: aprenda como usar ferramentas de visualizaç...
Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - ...
Cursos
12ª Conferencia Latino-americana de Software Livre
Você não está sozinho!
Esta é a comunidade Pentaho no Brasil.
http://ww...
Dúvidas?
Obrigado a todos!
Prof. Marcos Vinicius Fidelis
mvfidelis@gmail.com
Tópico
12ª Conferencia Latino-americana de Software Livre
Texto do tópico ou assunto
Palestra garimpando com pentaho data mining latinoware
Próximos SlideShares
Carregando em…5
×

Palestra garimpando com pentaho data mining latinoware

274 visualizações

Publicada em

Palestra Latinoware 2015 Data Mining

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
274
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
9
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Palestra garimpando com pentaho data mining latinoware

  1. 1. 12ª Conferencia Latino-americana de Software Livre Garimpando com Pentaho Data Mining Palestrante: Marcos Vinicius Fidelis
  2. 2. 12ª Conferencia Latino-americana de Software Livre Palestrante ● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná (UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área Acadêmica da Universidade Estadual de Ponta Grossa (UEPG). ● É graduado em Processamento de Dados e Especialista em Análise e Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em Desenvolvimento de Sistemas Computacionais pela PUC-PR. ● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre outros projetos, liderou a implantação dos Frameworks Grails e JasperReports. ● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão, Mineração de Dados e Gerenciamento de Sistemas de Informação. ● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org. ● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e PentahoDay.
  3. 3. Introdução ● Em um PDV ou em um sítio de vendas, uma grande quantidade de dados está sendo coletada e armazenada a cada minuto: – Web data, e-commerce – Dados de faturamento – Transações de cartões de crédito ou bancários – Reservas de produtos – Computadores tem se tornado baratos e mais poderosos ● Estas pequenas entradas de dados podem ser muito importantes – (investigação de crimes, retorno de produtos, etc) ● A pressão competitiva no mundo dos negócios é muito grande – Fornecer serviços melhores e customizados para uma clientela (ex: CRM)
  4. 4. Source : www.go-gulf.com Date post : May 26, 2015
  5. 5. Questões atuais “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados.” “Estamos nos afogando em dados, mas sedentos por informação!” “Torture os dados até confessarem!”
  6. 6. ● Tendências que nos levam a um cenário de alta disponibilidade dados – Instituições financeiras, telecomunicações, transações em empresas. – Dados científicos: astronomia, biologia, etc. – Dados na Web, Dados em textos, comércio eletrônico, … – IoT ● Capacidades de coletar/armazenar superaram nossas habilidades de analisar/extrair conhecimento dos dados: – É necessária a aplicação de técnicas/ferramentas que transformem, de maneira inteligente e automática, os dados disponíveis em informações úteis, que representem conhecimento. Questões atuais
  7. 7. Padrões são a parte chave da Inteligência ● Evolução: os animais mais capazes de encontrar e usar padrões são aqueles com maiores chances de sobreviver. ● Pessoas tem uma habilidade e o desejo de encontrar padrões ● As empresas não oferecem mais espaço para pessoas intuitivas. ● A ciência ajuda a separar padrões válidos de inválidos.
  8. 8. Estudo de Caso: e-commerce mau sucedido (KDD Cup 2000) ● Claro que a aplicação de mineração de dados não é garantia de sucesso e durante a bolha da internet de 1999-2000, temos visto muitos exemplos. ● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ ) ● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $ 12 em uma compra média no sítio ● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes ● Uma análise muito interessante e esclarecedora foi feito por dezenas de participantes da Copa. O gasto de tempo total foi de milhares de horas, o que teria sido equivalente a milhões de dólares em honorários de consultoria. ● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los. Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.
  9. 9. Estudo de Caso: e-commerce bem sucedido ● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para música, eletrônicos e outros produtos. ● Amazon.com tem um grupo de mineração de dados ativo, que se foca na personalização. Por que personalização? Considere uma pessoa que compra um livro (produto) na Amazon.com. ● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é susceptível de comprar. ● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado em livros comprados. ● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy , também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e técnicas práticas com implementações de Java" , por Witten e Eibe . ● Programas de Recomendação são muito bem sucedido e programas mais avançados estão sendo desenvolvidos.
  10. 10. História ● 1900 - Estatística ● 1960s - Data Mining = bad activity, data “dredging” ● 1990 - “Data Mining” é bom (Fayyad, 1996) ● 2003 - “Data Mining” peaks ● 2006 - Google Analytics ● 2007 - Business/Data/Predictive Analytics ● 2012 - Big Data ● 2013 - Data Science ● 2015 - ??
  11. 11. O que é Data Mining ● Extração de informações interessantes (não triviais, implícitas, previamente desconhecidas e potencialmente úteis) ou padrões de dados em grandes bancos de dados. ● Nomes alternativos – Knowledge Discorery in Databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business inteligence, etc.
  12. 12. Entendendo melhor... ● O que não é DM – Pesquisar um número de telefone em uma lista – Consultar um serviço de busca web por informações sobre “amazon” ● O que é DM – Certos nomes são mais frequentes em certas áreas – Agrupar documentos similares retornados através de um serviço de busca de acordo com seu contexto (amazon florest, amazon.com)
  13. 13. Como funciona o Data Mining (DM)? Como funciona o Knowledge Database Discovery(KDD)? Descoberta de Conhecimento em Banco de Dados
  14. 14. Processo de KDD
  15. 15. Knowledge Database Discovery ● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados) ● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo ● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão
  16. 16. Necessidade é a a mãe das invenções ● Problema de Explosão de Dados – Ferramentas de coleta de dados automatizadas e avançadas tecnologias de banco de dados levaram a quantidades imensas de dados armazenados em bancos de dados, DW e outros repositórios de informações. ● Solução = Data Mining – Extração de conhecimento interessante de grandes banco de dados – Regras, regularidades, padrões, restrições.
  17. 17. Outras definições para DM É um processo de análise de dados a partir de várias perspectivas com o objetivos de sumarizá-los através de informações úteis. É um processo para descobrir inteligência em armazéns de dados, que está escondida em relatórios e consultas. A inteligência é obtida a partir de padrões e relacionamentos encontrados nos dados: ● Fatores internos: preços, localização do negócio, competências pessoais ● Fatores externos: indicadores econômicos, concorrência, dados demográficos Mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.
  18. 18. O que é Pentaho ● Pentaho é uma suíte de aplicativos de código aberto para inteligência empresarial (BI – Businnes Intelligence ou BA – Businnes Analytics como estão chamando atualmente), desenvolvido em Java. ● A solução cobre as àreas de ETL (Extraction, Transformation and Load), reporting, OLAP e mineração de dados (data-mining). ● Desenvolvido desde 2004 pela Pentaho Corporation o software foi considerado uma das melhores aplicações para inteligência empresarial em 2008 pela InfoWorld.
  19. 19. Módulos Pentaho
  20. 20. Componentes do Pentaho ● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente. ● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados, independentemente do seu tamanho. ● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad- hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV. ● Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a mineração de dados. ● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de indicadores de performance. ● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para aprimorar a performance de suas consultas OLAP (Mondrian) ● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do Mondrian. ● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios. ● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e assim estender as capacidades da ferramenta.
  21. 21. Onde utilizar DM? ● Quanto mais direcionados os anúncios, mais eficaz você pode ser ● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc. ● Analisar os dados de sensores, IoT.
  22. 22. Problemas adequados para DM ● Requerem decisões baseadas em conhecimento; ● Ambiente dinâmico (dados novos); ● Existem métodos sub-ótimos; ● Há dados acessíveis, relevantes e em quantidade suficiente; ● Proporcionam recompensas elevadas pelas decisões corretas; ● Privacidade é um assunto importante.
  23. 23. Principais técnicas de Mineração de Dados ● Métodos Preditivos – Classificação – Regressão – Detecção de desvios ● Métodos Descritivos – Agrupamento – Associação – Descoberta de Padrões Sequenciais
  24. 24. Pentaho Data Mining (PDM) ● Explorer: testar classificadores/filtros ● Experimenter: Comparação de desempenho ● KnowledgeFlow: Interface gráfica ● SimpleCli: Interface de linha de comando
  25. 25. História ● 1992 – submissão do projeto ao governo de NZ (Ian Witten) ● 1993 – aprovado pelo governo ● 1994 – Primeira versão (principalmente em C) ● 1996 – Primeira versão pública – WEKA 2.1 ● 1997 – Convertido para Java ● 1998 – WEKA 3 (completamente Java) ● 2006 – O projeto foi incorporado ao Pentaho
  26. 26. O que tenho disponível? ● 100+ algoritmos de classificação ● 75 para pré-processamento de dados ● 25 para apoiar o processo de Seleção de Atributos ● 20 para agrupamento, regras de associação, etc ● E muitas outras contribuições como Artificial Immune Systems, Ant Colony e Genetic Algorithms
  27. 27. Onde buscar dados para mineração de dados?
  28. 28. Machine Learning Repository
  29. 29. dados.gov.br
  30. 30. data.rio
  31. 31. Exemplo de Arquivo ARFF % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa ● @relation <relation-name> ● @attribute <attribute-name> <datatype> – numeric – <nominal-specification> – string – date [<date-format>] – Ex: @ATTRIBUTE timestamp DATE "yyyy- MM-dd HH:mm:ss" ● Sparse ARFF files – @data – 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" – @data – {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
  32. 32. Como trabalhar com a alta dimensionalidade dos dados? ● Seleção de Atributos – Realizada no pré-processamento dos dados – Usada para investigar quais atributos (subconjuntos deles) são mais preditivos – 2 etapas: ● Um método de busca ● Um método de avaliação – Flexibilidade: (quase) qualquer combinação de busca/avaliação
  33. 33. Limitações ● Algoritmos tradicionais precisam ter todos os dados na memória ● Solução – Incremental schemes – Stream algorithms – MOA (Massive Online Analysis) ● http://moa.cs.waikato.ac.nz/
  34. 34. ETL utilizando PDI – dados para o PDM
  35. 35. Agrupamento (Clustering) Encontrar grupos naturais de exemplos (dados não rotulados)
  36. 36. Classificação Ponto de classe desconhecida que se deseja prever Dado um conjunto de pontos das classes conhecidas: (V)erde e (A)zul. Qual é a classe para o novo ponto (D)esconhecido? Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo (Classificador) para classificar novos casos. Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural, etc.
  37. 37. Construindo um modelo (classificador) Dataset de exemplos classificados para construir um modelo que classifica novos exemplos
  38. 38. Weka – Explorer
  39. 39. Visualização Gráfica
  40. 40. Avaliando cada atributo
  41. 41. Classificador ZeroR O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
  42. 42. Classificador OneR ● É uma árvore de decisão de um nível, ou seja, regras que utilizam um atributo particular (1993)
  43. 43. Classificador Bayes ● Oposto do OneR: utiliza todos os atributos e regras Bayes para estimar a probabilidade de uma classe para uma instância ● Naive Bayes tem um desempenho muito bom ● Pode ser prejudicado por muitos atributos redundantes
  44. 44. Classificador J48 (C4.5) Árvore de Decisão
  45. 45. Classificadores: Árvores de decisão if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue
  46. 46. Classificadores: Redes Neurais Podem selecionar regiões mais complexas Podem ser mais precisas Podem se ajustar aos dados - encontrar padrões em dados com ruído
  47. 47. Outras abordagens para classificadores ● Rules ● Genetic Algorithms ● Ensemble ● E muitos outros
  48. 48. Output source code
  49. 49. Como avaliar classificadores? ● Acurácia ● Custo/benefício total – quando diferentes erros envolvem diferentes custos ● Curvas de Lift e ROC ● Erro em predições numéricas A questão é estimar quanto confiável são os resultados previstos?
  50. 50. Experimenter ● permite a comparação de diferentes estratégias de aprendizagem. ● Para problemas de classificação e regressão ● Resultados escritos em um arquivo ou base de dados ● Opções de avaliação: cross-validation, curva de aprendizagem, hold-out ● Pode ser executado com diferentes configurações de parâmetros ● Teste de significância acoplado
  51. 51. Experimenter
  52. 52. Experimenter
  53. 53. Mudando o jeito de gerenciar o negócio ● Uma fase do negócio é o BI utilizando ETL e ferramentas analíticas para suporte a decisão. ● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais. Linha 1 Linha 2 Linha 3 Linha 4 0 2 4 6 8 10 12 Coluna 1 Coluna 2 Coluna 3
  54. 54. Big Data ● 2a Revolução Industrial ● Executar velhas atividades melhor ● Criar novos negócios e atividades
  55. 55. Executar melhor velhas atividades ● Áreas de aplicação – marketing direto / modelagem Cliente – previsão – recomendações – Detecção de fraude – Segurança / Inteligência ● Melhorias são reais, mas são limitadas pela aleatoriedade humana ● Concorrência irá nivelar empresas
  56. 56. Aspectos negativos ● Como toda a tecnologia, cabe ao usuário, utilizá-la de uma forma positiva ou negativa ● DM pode ser usado negativamente nas áreas: – Social – Ética – Legal ● Problema principal: privacidade – Informações estão sendo armazenadas sem o consentimento do consumidor
  57. 57. ● Analytics on-demand, analytics in the cloud. ● BI (Business Intelligence), Database and OLAP software ● Bioinformatics and Pharmaceutical solutions ● CRM (Customer Relationship Management) ● Data Providers, Data Cleansing (Cleaning) Tools ● eCommerce solutions ● Education, using predictive analytics and data mining to improve learning. ● Email analysis, response, and marketing ● Fraud Detection solutions ● Healthcare Analytics solutions ● Human Resources and Staff Analytics solutions ● Knowledge Management and News ● Marketing solutions, including real-time, email, web, and affiliate marketing Em que área trabalhar? ● Music Discovery and Music Data Mining. ● Personalization solutions ● Privacy software and solutions ● Real-Time Analytics and Decisioning solutions ● Retail solutions ● Risk Analysis and Credit Scoring ● Security and Intelligence solutions. ● Sports and Entertainment ● Stock and Investment Analysis and Prediction ● Survey creation and analysis ● Telecom ● Travel sites and solutions ● Twitter Analytics sites and solutions. ● Web Advertising ● Web Mining, Web Content Mining
  58. 58. Como aprender Data Mining ● Linguagens: Aprenda R, Python e SQL ● Ferramentas: aprenda como usar ferramentas de visualização e de mineração de dados ● Literatura: leia textos introdutórios para compreender os fundamentos ● Educação: assista webminars, faça cursos, e considere uma certificação ou graduação em ciência de dados ● Dados: verifique recursos de dados disponíveis e encontre algo lá ● Competições: participe de competições de mineração de dados ● Interaja com outros cientistas de dados, através de redes sociais, grupos e conferências
  59. 59. Onde conseguir mais informações? ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) ● KDnuggets – news, software, jobs, courses,… – www.KDnuggets.com ● ACM SIGKDD – data mining association – www.acm.org/sigkdd
  60. 60. Cursos
  61. 61. 12ª Conferencia Latino-americana de Software Livre Você não está sozinho! Esta é a comunidade Pentaho no Brasil. http://www.pentahobrasil.com.br https://www.facebook.com/pentahobrasil
  62. 62. Dúvidas? Obrigado a todos! Prof. Marcos Vinicius Fidelis mvfidelis@gmail.com
  63. 63. Tópico 12ª Conferencia Latino-americana de Software Livre Texto do tópico ou assunto

×