SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
BIG DATA x DATA
MININGAna Carolina, Davi e Samuel
Maio/2018
Objetivos
● Introdução
● Conceito
● Funcionamento
● Exemplos
● Diferenças
● Hadoop
● Bibliografia
Big Data
◇ Refere-se a um conjunto de dados armazenados
◇ O principal valor do big data não vem dos dados em
sua forma bruta, mas do processamento e da
análise desses dados, e dos insights, produtos e
serviços que surgem dessa análise
Big Data
Conceito
Big Data
Importância
A importância do big data não gira em torno da quantidade de
dados disponíveis para você, mas do que você faz com esses
dados. Você pode obter dados de várias fontes e analisá-los
para encontrar respostas que permitem 1) reduzir custos; 2)
economizar tempo; 3) desenvolver novos produtos e otimizar
ofertas; 4) tomar decisões mais inteligentes.
Big Data
Importância
Quando você combina big data com analytics de alta potência,
você pode realizar tarefas corporativas como:
◇ Determinar as raízes de falhas, problemas e defeitos quase
em tempo real;
◇ Gerar cupons nos pontos de vendas, a partir dos hábitos de
compra dos clientes;
◇ Recalcular carteiras de riscos completas em minutos;
◇ Detectar comportamentos fraudulentos antes que eles
afetem sua organização.
Big Data
Funcionamento
◇ Armazenamento e gerenciamento
◇ Análise
◇ Decisão
Big Data
Mercado
Big Data afeta organizações em quase todas as
indústrias.
◇ Bancos
◇ Governo
◇ Educação
◇ Saúde
◇ Varejo
Big Data
Mercado
Big Data afeta organizações em quase todas as
indústrias.
◇ Bancos
◇ Governo
◇ Educação
◇ Saúde
◇ Varejo
Data Mining
O que é?
Consiste em uma funcionalidade que agrega e organiza
dados, encontrando neles padrões, associações,
mudanças e anomalias relevantes.
Fayyad
Data Mining
Visão Geral
◇ Enorme quantidade de informações
◇ Extração de conhecimento
◇ Técnicas tradicionais
◇ Estatística
◇ Inteligência Artificial
◇ Máquina de estado
◇ Banco de Dados
◇ Processo dinâmico e evolutivo
Data Mining
Informações X Conhecimento útil
Descoberta de Conhecimento em Bancos de Dados
(Knowledge Discovery in Databases) - KDD
Processo, não trivial, de extração de informações implícitas, previamente
desconhecidas e potencialmente úteis, a partir dos dados armazenados em
um banco de dados.
Data Mining
Descoberta de Conhecimento em Bancos de
Dados - KDD
Fases do KDD
1. Seleção de dados
2. Pré-processamento
3. Transformação
4. Mineração
5. Análise e assimilação de resultados
Data Mining
Seleção de dados
◇ Escolha da base a ser minerada
◇ Concentrar todas as bases de dados
Data Mining
Pré-processamento
◇ Eliminar ruídos, tuplas vazias, valores ilegítimos
◇ Eliminação de campos
Data Mining
Transformação
◇ Limitações a serem impostas a base de dados
(Formatação)
◇ Cálculos e adição de novos campos
Data Mining
Mineração
◇ Elaborar um modelo para representar um conjunto de
dados através de um algoritmo
◇ Procurando por padrões, relacionamentos entre dados,
anomalias e regras, com objetivo de encontrar
informações ocultas, que possam ser relevantes à
tomada de decisão e/ou avaliação de resultados.
◇ Tipo de informação que se quer obter
Data Mining
Mineração
◇ Associação
■ encontrar padrões
◇ Clusterização
■ dividir os dados em grupos
◇ Classificação
■ busca prever uma classe de um novo dado automaticamente
◇ Regressão
Data Mining
Interpretação ou Pós-processamento
◇ Identifica, entre os padrões extraídos
Data Mining
Fases do KDD
Data Mining
Na prática
● Foi selecionado uma amostra de 268.788 registros identificando o
faturamento das vendas realizadas no período de 04 de Fevereiro de
2011 a 11 de Abril 2011
● Núcleo DM. Desenvolvido em Delphi, este software trabalha com o
algoritmo de Classificação C4.5
Data Mining
Na prática
LINHAPROD: Brinquedos, Eletrodomésticos, Máquinas, Móveis e Decoração, Multimídia, Telefonia Convencional, Telefonia Móvel,
Bazar.
Data Mining
Na prática
Data Mining
Na prática
Data Mining
Na prática
Data Mining
Acordo de não divulgação
(Non-Disclosure Agreement) - NDA
É um contrato legal entre ao menos duas partes que destacam materiais ou
conhecimentos confidenciais que as partes desejam compartilhar para
determinado propósito, mas cujo uso generalizado desejam restringir.
Data Mining
Aplicações - Científica ou Comercial
◇ Walmart
◇ TAM linhas Aréas
◇ IBGE
◇ NASA
Data Mining
Exemplo - Criminalista
Legenda
● Tipo de roubo
● Ano
● Q: Quantidade
● R: Representatividade
● P: Propensão
Data Mining
Ferramenta de mineração WEKA
O Weka procede à análise computacional e estatística dos dados fornecidos
recorrendo a técnicas de mineração de dados tentando, indutivamente, a partir
dos padrões encontrados gerar hipóteses para soluções e no extremos inclusive
teorias sobre os dados em questão.
Data Mining
Resumindo
“Data Mining é a exploração e análise, de forma automática ou semi-automática,
de grandes bases de dados com objetivo de descobrir padrões e regras. O
objetivo do processo de mineração é fornecer as corporações informações que as
possibilitem montar melhores estratégias de marketing, vendas, suporte,
melhorando assim os seus negócios”.
Michael Berrye Gordon Linoff
Livro: Data Mining Techniques: For Marketing, Sales, and Customer Support
Big Data x Data Mining
Como as escalas e os tipos de dados são diferentes, os períodos
de análise e os resultados também se diferem. Enquanto a Data
Mining se refere a um processo mais pontual, que gera relatórios
apontando para questões específicas, o Big Data é uma análise
feita de forma contínua por períodos maiores.
Data Mining Big Data
Tipos de Dados Dados estruturados em planilhas,
banco de dados relacionais e
dimensionais, etc.
Dados estruturados,
semiestruturados e não estruturados
em bancos de dados NoSQL ou
TripleStores
Foco Identificar padrões de
comportamento dos dados, criando
novos indicadores de análise para o
BI
Extração do conhecimento de
grandes massas de dados com fontes
e tipos variados
Comercialização Valor do projeto, envolvendo o
custo da produção do relatório
Custo de implantação, integração do
sistema e/ou comissionamento sobre
o resultado do faturamento.
Volume de
dados
Baixo, trabalho por amostragem
(pequenas parcelas) de dados com
alto custo de processamento
Alto, com estruturas distribuídas e
grande demanda de processamento.
Big Data x Data Mining
HADOOP
Hadoop
Hadoop é um framework para computação distribuída, ou
seja, criado para comportar o processamento de grandes
quantidades de dados (petabytes) com alta velocidade.
Hadoop
Desempenho
◇ Arquitetura em Cluster
◇ Escalabilidade Horizontal
Hadoop
Ecossistema
◇ HDFS - Hadoop distributed file system
◇ MapReduce
Hadoop
HDFS
◇ Namenode: Gerencia todos os arquivos e diretórios.
Namenodes possuem o mapeamento entre arquivos e os
blocos nos quais estes estão armazenados.
◇ Datanode: Armazena os dados em forma de blocos.
Datanodes se reportam a namenodes sobre os arquivos
que possuem armazenados para que o namenode esteja
ciente e os dados possam ser processados.
Hadoop
“MapReduce é um modelo de programação para processamento de
dados.”
Tom White
Livro: Hadoop - The definitive Guide
Hadoop
MapReduce
Hadoop
MapReduce
◇ Job Tracker: tarefas de Map-Reduce são submetidas ao Job Tracker.
Ele precisa falar com o Namenode para conseguir os dados. O Job
Tracker submete a tarefa para os nós task trackers. Esses task tracker
precisam se reportar ao Job Tracker em intervalos regulares,
especificando que estão “vivos” e efetuando suas tarefas. Se o task
tracker não se reportar a eles, então o nó é considerado “morto” e seu
trabalho é redesignado para outro task tracker.
◇ Task Tracker: o Task Tracker aceita as tarefas do Job Tracker. Essas
tarefas são tanto de map, reduce ou ambas (shuffle). O Task Tracker
cria um processo JVM separado para cada tarefa a fim de se certificar
de que uma falha no processo não resulte em uma falha de Task
Tracker.
Hadoop
1. Map
2. Shuffle
3. Reduce
Fases do MapReduce
Hadoop
Bibliografia
◇ https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html
◇ https://pt.wikipedia.org/wiki/Acordo_de_não_divulgação
◇ http://fp2.com.br/blog/index.php/2012/um-visao-geral-sobre-fases-kdd/
◇ https://www.devmedia.com.br/aspectos-teoricos-da-mineracao-de-dados-
e-aplicacao-das-regras-de-classificacao-para-apoiar-o-comercio/25429
◇ https://www.youtube.com/watch?v=47nS90XO5to
◇ http://www.monitis.com/blog/big-data-and-hadoop-whats-it-all-about/
◇ http://hadoop.apache.org/
Obrigado!
Dúvidas?

Mais conteúdo relacionado

Mais procurados

Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosEduardo de Lucena Falcão
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligenceDavid Willian
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosMarcos Pessoa
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelCarlos Barbieri
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Data warehousing
Data warehousingData warehousing
Data warehousingacistec
 

Mais procurados (20)

Data Mining
Data Mining Data Mining
Data Mining
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentos
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
Mineração
MineraçãoMineração
Mineração
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 

Semelhante a BIG DATA x DATA MINING

Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de DadosRenata Nunes
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )Marco Garcia
 
Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)m4rkSpinelli
 

Semelhante a BIG DATA x DATA MINING (20)

Big Data
Big DataBig Data
Big Data
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Business Analytics
Business AnalyticsBusiness Analytics
Business Analytics
 
Data mining
Data miningData mining
Data mining
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
GUBI: Agile Analytics [pt-br]
GUBI: Agile Analytics [pt-br]GUBI: Agile Analytics [pt-br]
GUBI: Agile Analytics [pt-br]
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Big data
Big dataBig data
Big data
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
Data mesh-pt
Data mesh-ptData mesh-pt
Data mesh-pt
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )
 
Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)
 

BIG DATA x DATA MINING

  • 1. BIG DATA x DATA MININGAna Carolina, Davi e Samuel Maio/2018
  • 2. Objetivos ● Introdução ● Conceito ● Funcionamento ● Exemplos ● Diferenças ● Hadoop ● Bibliografia
  • 3. Big Data ◇ Refere-se a um conjunto de dados armazenados ◇ O principal valor do big data não vem dos dados em sua forma bruta, mas do processamento e da análise desses dados, e dos insights, produtos e serviços que surgem dessa análise
  • 4.
  • 6. Big Data Importância A importância do big data não gira em torno da quantidade de dados disponíveis para você, mas do que você faz com esses dados. Você pode obter dados de várias fontes e analisá-los para encontrar respostas que permitem 1) reduzir custos; 2) economizar tempo; 3) desenvolver novos produtos e otimizar ofertas; 4) tomar decisões mais inteligentes.
  • 7. Big Data Importância Quando você combina big data com analytics de alta potência, você pode realizar tarefas corporativas como: ◇ Determinar as raízes de falhas, problemas e defeitos quase em tempo real; ◇ Gerar cupons nos pontos de vendas, a partir dos hábitos de compra dos clientes; ◇ Recalcular carteiras de riscos completas em minutos; ◇ Detectar comportamentos fraudulentos antes que eles afetem sua organização.
  • 8. Big Data Funcionamento ◇ Armazenamento e gerenciamento ◇ Análise ◇ Decisão
  • 9. Big Data Mercado Big Data afeta organizações em quase todas as indústrias. ◇ Bancos ◇ Governo ◇ Educação ◇ Saúde ◇ Varejo
  • 10. Big Data Mercado Big Data afeta organizações em quase todas as indústrias. ◇ Bancos ◇ Governo ◇ Educação ◇ Saúde ◇ Varejo
  • 11.
  • 12. Data Mining O que é? Consiste em uma funcionalidade que agrega e organiza dados, encontrando neles padrões, associações, mudanças e anomalias relevantes. Fayyad
  • 13. Data Mining Visão Geral ◇ Enorme quantidade de informações ◇ Extração de conhecimento ◇ Técnicas tradicionais ◇ Estatística ◇ Inteligência Artificial ◇ Máquina de estado ◇ Banco de Dados ◇ Processo dinâmico e evolutivo
  • 14. Data Mining Informações X Conhecimento útil Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases) - KDD Processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.
  • 15. Data Mining Descoberta de Conhecimento em Bancos de Dados - KDD Fases do KDD 1. Seleção de dados 2. Pré-processamento 3. Transformação 4. Mineração 5. Análise e assimilação de resultados
  • 16. Data Mining Seleção de dados ◇ Escolha da base a ser minerada ◇ Concentrar todas as bases de dados
  • 17. Data Mining Pré-processamento ◇ Eliminar ruídos, tuplas vazias, valores ilegítimos ◇ Eliminação de campos
  • 18. Data Mining Transformação ◇ Limitações a serem impostas a base de dados (Formatação) ◇ Cálculos e adição de novos campos
  • 19. Data Mining Mineração ◇ Elaborar um modelo para representar um conjunto de dados através de um algoritmo ◇ Procurando por padrões, relacionamentos entre dados, anomalias e regras, com objetivo de encontrar informações ocultas, que possam ser relevantes à tomada de decisão e/ou avaliação de resultados. ◇ Tipo de informação que se quer obter
  • 20. Data Mining Mineração ◇ Associação ■ encontrar padrões ◇ Clusterização ■ dividir os dados em grupos ◇ Classificação ■ busca prever uma classe de um novo dado automaticamente ◇ Regressão
  • 21. Data Mining Interpretação ou Pós-processamento ◇ Identifica, entre os padrões extraídos
  • 23. Data Mining Na prática ● Foi selecionado uma amostra de 268.788 registros identificando o faturamento das vendas realizadas no período de 04 de Fevereiro de 2011 a 11 de Abril 2011 ● Núcleo DM. Desenvolvido em Delphi, este software trabalha com o algoritmo de Classificação C4.5
  • 24. Data Mining Na prática LINHAPROD: Brinquedos, Eletrodomésticos, Máquinas, Móveis e Decoração, Multimídia, Telefonia Convencional, Telefonia Móvel, Bazar.
  • 28. Data Mining Acordo de não divulgação (Non-Disclosure Agreement) - NDA É um contrato legal entre ao menos duas partes que destacam materiais ou conhecimentos confidenciais que as partes desejam compartilhar para determinado propósito, mas cujo uso generalizado desejam restringir.
  • 29. Data Mining Aplicações - Científica ou Comercial ◇ Walmart ◇ TAM linhas Aréas ◇ IBGE ◇ NASA
  • 30. Data Mining Exemplo - Criminalista Legenda ● Tipo de roubo ● Ano ● Q: Quantidade ● R: Representatividade ● P: Propensão
  • 31. Data Mining Ferramenta de mineração WEKA O Weka procede à análise computacional e estatística dos dados fornecidos recorrendo a técnicas de mineração de dados tentando, indutivamente, a partir dos padrões encontrados gerar hipóteses para soluções e no extremos inclusive teorias sobre os dados em questão.
  • 32.
  • 33. Data Mining Resumindo “Data Mining é a exploração e análise, de forma automática ou semi-automática, de grandes bases de dados com objetivo de descobrir padrões e regras. O objetivo do processo de mineração é fornecer as corporações informações que as possibilitem montar melhores estratégias de marketing, vendas, suporte, melhorando assim os seus negócios”. Michael Berrye Gordon Linoff Livro: Data Mining Techniques: For Marketing, Sales, and Customer Support
  • 34. Big Data x Data Mining Como as escalas e os tipos de dados são diferentes, os períodos de análise e os resultados também se diferem. Enquanto a Data Mining se refere a um processo mais pontual, que gera relatórios apontando para questões específicas, o Big Data é uma análise feita de forma contínua por períodos maiores.
  • 35. Data Mining Big Data Tipos de Dados Dados estruturados em planilhas, banco de dados relacionais e dimensionais, etc. Dados estruturados, semiestruturados e não estruturados em bancos de dados NoSQL ou TripleStores Foco Identificar padrões de comportamento dos dados, criando novos indicadores de análise para o BI Extração do conhecimento de grandes massas de dados com fontes e tipos variados Comercialização Valor do projeto, envolvendo o custo da produção do relatório Custo de implantação, integração do sistema e/ou comissionamento sobre o resultado do faturamento. Volume de dados Baixo, trabalho por amostragem (pequenas parcelas) de dados com alto custo de processamento Alto, com estruturas distribuídas e grande demanda de processamento. Big Data x Data Mining
  • 37. Hadoop Hadoop é um framework para computação distribuída, ou seja, criado para comportar o processamento de grandes quantidades de dados (petabytes) com alta velocidade.
  • 38. Hadoop Desempenho ◇ Arquitetura em Cluster ◇ Escalabilidade Horizontal
  • 39. Hadoop Ecossistema ◇ HDFS - Hadoop distributed file system ◇ MapReduce
  • 40. Hadoop HDFS ◇ Namenode: Gerencia todos os arquivos e diretórios. Namenodes possuem o mapeamento entre arquivos e os blocos nos quais estes estão armazenados. ◇ Datanode: Armazena os dados em forma de blocos. Datanodes se reportam a namenodes sobre os arquivos que possuem armazenados para que o namenode esteja ciente e os dados possam ser processados.
  • 42. “MapReduce é um modelo de programação para processamento de dados.” Tom White Livro: Hadoop - The definitive Guide Hadoop MapReduce
  • 43. Hadoop MapReduce ◇ Job Tracker: tarefas de Map-Reduce são submetidas ao Job Tracker. Ele precisa falar com o Namenode para conseguir os dados. O Job Tracker submete a tarefa para os nós task trackers. Esses task tracker precisam se reportar ao Job Tracker em intervalos regulares, especificando que estão “vivos” e efetuando suas tarefas. Se o task tracker não se reportar a eles, então o nó é considerado “morto” e seu trabalho é redesignado para outro task tracker. ◇ Task Tracker: o Task Tracker aceita as tarefas do Job Tracker. Essas tarefas são tanto de map, reduce ou ambas (shuffle). O Task Tracker cria um processo JVM separado para cada tarefa a fim de se certificar de que uma falha no processo não resulte em uma falha de Task Tracker.
  • 44. Hadoop 1. Map 2. Shuffle 3. Reduce Fases do MapReduce
  • 46. Bibliografia ◇ https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html ◇ https://pt.wikipedia.org/wiki/Acordo_de_não_divulgação ◇ http://fp2.com.br/blog/index.php/2012/um-visao-geral-sobre-fases-kdd/ ◇ https://www.devmedia.com.br/aspectos-teoricos-da-mineracao-de-dados- e-aplicacao-das-regras-de-classificacao-para-apoiar-o-comercio/25429 ◇ https://www.youtube.com/watch?v=47nS90XO5to ◇ http://www.monitis.com/blog/big-data-and-hadoop-whats-it-all-about/ ◇ http://hadoop.apache.org/