BIG DATA x DATA MINING

BIG DATA x DATA
MININGAna Carolina, Davi e Samuel
Maio/2018

Objetivos
● Introdução
● Conceito
● Funcionamento
● Exemplos
● Diferenças
● Hadoop
● Bibliografia

Big Data
◇ Refere-se a um conjunto de dados armazenados
◇ O principal valor do big data não vem dos dados em
sua forma bruta, mas do processamento e da
análise desses dados, e dos insights, produtos e
serviços que surgem dessa análise

Big Data
Importância
A importância do big data não gira em torno da quantidade de
dados disponíveis para você, mas do que você faz com esses
dados. Você pode obter dados de várias fontes e analisá-los
para encontrar respostas que permitem 1) reduzir custos; 2)
economizar tempo; 3) desenvolver novos produtos e otimizar
ofertas; 4) tomar decisões mais inteligentes.

Big Data
Importância
Quando você combina big data com analytics de alta potência,
você pode realizar tarefas corporativas como:
◇ Determinar as raízes de falhas, problemas e defeitos quase
em tempo real;
◇ Gerar cupons nos pontos de vendas, a partir dos hábitos de
compra dos clientes;
◇ Recalcular carteiras de riscos completas em minutos;
◇ Detectar comportamentos fraudulentos antes que eles
afetem sua organização.

Big Data
Funcionamento
◇ Armazenamento e gerenciamento
◇ Análise
◇ Decisão

Big Data
Mercado
Big Data afeta organizações em quase todas as
indústrias.
◇ Bancos
◇ Governo
◇ Educação
◇ Saúde
◇ Varejo

Data Mining
O que é?
Consiste em uma funcionalidade que agrega e organiza
dados, encontrando neles padrões, associações,
mudanças e anomalias relevantes.
Fayyad

Data Mining
Visão Geral
◇ Enorme quantidade de informações
◇ Extração de conhecimento
◇ Técnicas tradicionais
◇ Estatística
◇ Inteligência Artificial
◇ Máquina de estado
◇ Banco de Dados
◇ Processo dinâmico e evolutivo

Data Mining
Informações X Conhecimento útil
Descoberta de Conhecimento em Bancos de Dados
(Knowledge Discovery in Databases) - KDD
Processo, não trivial, de extração de informações implícitas, previamente
desconhecidas e potencialmente úteis, a partir dos dados armazenados em
um banco de dados.

Data Mining
Descoberta de Conhecimento em Bancos de
Dados - KDD
Fases do KDD
1. Seleção de dados
2. Pré-processamento
3. Transformação
4. Mineração
5. Análise e assimilação de resultados

Data Mining
Seleção de dados
◇ Escolha da base a ser minerada
◇ Concentrar todas as bases de dados

Data Mining
Pré-processamento
◇ Eliminar ruídos, tuplas vazias, valores ilegítimos
◇ Eliminação de campos

Data Mining
Transformação
◇ Limitações a serem impostas a base de dados
(Formatação)
◇ Cálculos e adição de novos campos

Data Mining
Mineração
◇ Elaborar um modelo para representar um conjunto de
dados através de um algoritmo
◇ Procurando por padrões, relacionamentos entre dados,
anomalias e regras, com objetivo de encontrar
informações ocultas, que possam ser relevantes à
tomada de decisão e/ou avaliação de resultados.
◇ Tipo de informação que se quer obter

Data Mining
Mineração
◇ Associação
￭ encontrar padrões
◇ Clusterização
￭ dividir os dados em grupos
◇ Classiﬁcação
￭ busca prever uma classe de um novo dado automaticamente
◇ Regressão

Data Mining
Interpretação ou Pós-processamento
◇ Identifica, entre os padrões extraídos

Data Mining
Na prática
● Foi selecionado uma amostra de 268.788 registros identificando o
faturamento das vendas realizadas no período de 04 de Fevereiro de
2011 a 11 de Abril 2011
● Núcleo DM. Desenvolvido em Delphi, este software trabalha com o
algoritmo de Classificação C4.5

Data Mining
Na prática
LINHAPROD: Brinquedos, Eletrodomésticos, Máquinas, Móveis e Decoração, Multimídia, Telefonia Convencional, Telefonia Móvel,
Bazar.

Data Mining
Acordo de não divulgação
(Non-Disclosure Agreement) - NDA
É um contrato legal entre ao menos duas partes que destacam materiais ou
conhecimentos confidenciais que as partes desejam compartilhar para
determinado propósito, mas cujo uso generalizado desejam restringir.

Data Mining
Aplicações - Científica ou Comercial
◇ Walmart
◇ TAM linhas Aréas
◇ IBGE
◇ NASA

Data Mining
Exemplo - Criminalista
Legenda
● Tipo de roubo
● Ano
● Q: Quantidade
● R: Representatividade
● P: Propensão

Data Mining
Ferramenta de mineração WEKA
O Weka procede à análise computacional e estatística dos dados fornecidos
recorrendo a técnicas de mineração de dados tentando, indutivamente, a partir
dos padrões encontrados gerar hipóteses para soluções e no extremos inclusive
teorias sobre os dados em questão.

Data Mining
Resumindo
“Data Mining é a exploração e análise, de forma automática ou semi-automática,
de grandes bases de dados com objetivo de descobrir padrões e regras. O
objetivo do processo de mineração é fornecer as corporações informações que as
possibilitem montar melhores estratégias de marketing, vendas, suporte,
melhorando assim os seus negócios”.
Michael Berrye Gordon Linoff
Livro: Data Mining Techniques: For Marketing, Sales, and Customer Support

Big Data x Data Mining
Como as escalas e os tipos de dados são diferentes, os períodos
de análise e os resultados também se diferem. Enquanto a Data
Mining se refere a um processo mais pontual, que gera relatórios
apontando para questões específicas, o Big Data é uma análise
feita de forma contínua por períodos maiores.

Data Mining Big Data
Tipos de Dados Dados estruturados em planilhas,
banco de dados relacionais e
dimensionais, etc.
Dados estruturados,
semiestruturados e não estruturados
em bancos de dados NoSQL ou
TripleStores
Foco Identificar padrões de
comportamento dos dados, criando
novos indicadores de análise para o
BI
Extração do conhecimento de
grandes massas de dados com fontes
e tipos variados
Comercialização Valor do projeto, envolvendo o
custo da produção do relatório
Custo de implantação, integração do
sistema e/ou comissionamento sobre
o resultado do faturamento.
Volume de
dados
Baixo, trabalho por amostragem
(pequenas parcelas) de dados com
alto custo de processamento
Alto, com estruturas distribuídas e
grande demanda de processamento.
Big Data x Data Mining

Hadoop
Hadoop é um framework para computação distribuída, ou
seja, criado para comportar o processamento de grandes
quantidades de dados (petabytes) com alta velocidade.

Hadoop
Desempenho
◇ Arquitetura em Cluster
◇ Escalabilidade Horizontal

Hadoop
Ecossistema
◇ HDFS - Hadoop distributed file system
◇ MapReduce

Hadoop
HDFS
◇ Namenode: Gerencia todos os arquivos e diretórios.
Namenodes possuem o mapeamento entre arquivos e os
blocos nos quais estes estão armazenados.
◇ Datanode: Armazena os dados em forma de blocos.
Datanodes se reportam a namenodes sobre os arquivos
que possuem armazenados para que o namenode esteja
ciente e os dados possam ser processados.

“MapReduce é um modelo de programação para processamento de
dados.”
Tom White
Livro: Hadoop - The definitive Guide
Hadoop
MapReduce

Hadoop
MapReduce
◇ Job Tracker: tarefas de Map-Reduce são submetidas ao Job Tracker.
Ele precisa falar com o Namenode para conseguir os dados. O Job
Tracker submete a tarefa para os nós task trackers. Esses task tracker
precisam se reportar ao Job Tracker em intervalos regulares,
especificando que estão “vivos” e efetuando suas tarefas. Se o task
tracker não se reportar a eles, então o nó é considerado “morto” e seu
trabalho é redesignado para outro task tracker.
◇ Task Tracker: o Task Tracker aceita as tarefas do Job Tracker. Essas
tarefas são tanto de map, reduce ou ambas (shuffle). O Task Tracker
cria um processo JVM separado para cada tarefa a fim de se certificar
de que uma falha no processo não resulte em uma falha de Task
Tracker.

Hadoop
1. Map
2. Shuffle
3. Reduce
Fases do MapReduce

Bibliografia
◇ https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html
◇ https://pt.wikipedia.org/wiki/Acordo_de_não_divulgação
◇ http://fp2.com.br/blog/index.php/2012/um-visao-geral-sobre-fases-kdd/
◇ https://www.devmedia.com.br/aspectos-teoricos-da-mineracao-de-dados-
e-aplicacao-das-regras-de-classificacao-para-apoiar-o-comercio/25429
◇ https://www.youtube.com/watch?v=47nS90XO5to
◇ http://www.monitis.com/blog/big-data-and-hadoop-whats-it-all-about/
◇ http://hadoop.apache.org/

BIG DATA x DATA MINING

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a BIG DATA x DATA MINING

Semelhante a BIG DATA x DATA MINING (20)

BIG DATA x DATA MINING