Apresentação de trabalho para a disciplina de Inteligencia Computacional.
Instituto Federal de Educação, Ciência e Tecnologia do Ceará
IFCE - Curso de Engenharia da Computação.
3. Big Data
◇ Refere-se a um conjunto de dados armazenados
◇ O principal valor do big data não vem dos dados em
sua forma bruta, mas do processamento e da
análise desses dados, e dos insights, produtos e
serviços que surgem dessa análise
6. Big Data
Importância
A importância do big data não gira em torno da quantidade de
dados disponíveis para você, mas do que você faz com esses
dados. Você pode obter dados de várias fontes e analisá-los
para encontrar respostas que permitem 1) reduzir custos; 2)
economizar tempo; 3) desenvolver novos produtos e otimizar
ofertas; 4) tomar decisões mais inteligentes.
7. Big Data
Importância
Quando você combina big data com analytics de alta potência,
você pode realizar tarefas corporativas como:
◇ Determinar as raízes de falhas, problemas e defeitos quase
em tempo real;
◇ Gerar cupons nos pontos de vendas, a partir dos hábitos de
compra dos clientes;
◇ Recalcular carteiras de riscos completas em minutos;
◇ Detectar comportamentos fraudulentos antes que eles
afetem sua organização.
9. Big Data
Mercado
Big Data afeta organizações em quase todas as
indústrias.
◇ Bancos
◇ Governo
◇ Educação
◇ Saúde
◇ Varejo
10. Big Data
Mercado
Big Data afeta organizações em quase todas as
indústrias.
◇ Bancos
◇ Governo
◇ Educação
◇ Saúde
◇ Varejo
11.
12. Data Mining
O que é?
Consiste em uma funcionalidade que agrega e organiza
dados, encontrando neles padrões, associações,
mudanças e anomalias relevantes.
Fayyad
13. Data Mining
Visão Geral
◇ Enorme quantidade de informações
◇ Extração de conhecimento
◇ Técnicas tradicionais
◇ Estatística
◇ Inteligência Artificial
◇ Máquina de estado
◇ Banco de Dados
◇ Processo dinâmico e evolutivo
14. Data Mining
Informações X Conhecimento útil
Descoberta de Conhecimento em Bancos de Dados
(Knowledge Discovery in Databases) - KDD
Processo, não trivial, de extração de informações implícitas, previamente
desconhecidas e potencialmente úteis, a partir dos dados armazenados em
um banco de dados.
15. Data Mining
Descoberta de Conhecimento em Bancos de
Dados - KDD
Fases do KDD
1. Seleção de dados
2. Pré-processamento
3. Transformação
4. Mineração
5. Análise e assimilação de resultados
16. Data Mining
Seleção de dados
◇ Escolha da base a ser minerada
◇ Concentrar todas as bases de dados
19. Data Mining
Mineração
◇ Elaborar um modelo para representar um conjunto de
dados através de um algoritmo
◇ Procurando por padrões, relacionamentos entre dados,
anomalias e regras, com objetivo de encontrar
informações ocultas, que possam ser relevantes à
tomada de decisão e/ou avaliação de resultados.
◇ Tipo de informação que se quer obter
20. Data Mining
Mineração
◇ Associação
■ encontrar padrões
◇ Clusterização
■ dividir os dados em grupos
◇ Classificação
■ busca prever uma classe de um novo dado automaticamente
◇ Regressão
23. Data Mining
Na prática
● Foi selecionado uma amostra de 268.788 registros identificando o
faturamento das vendas realizadas no período de 04 de Fevereiro de
2011 a 11 de Abril 2011
● Núcleo DM. Desenvolvido em Delphi, este software trabalha com o
algoritmo de Classificação C4.5
24. Data Mining
Na prática
LINHAPROD: Brinquedos, Eletrodomésticos, Máquinas, Móveis e Decoração, Multimídia, Telefonia Convencional, Telefonia Móvel,
Bazar.
28. Data Mining
Acordo de não divulgação
(Non-Disclosure Agreement) - NDA
É um contrato legal entre ao menos duas partes que destacam materiais ou
conhecimentos confidenciais que as partes desejam compartilhar para
determinado propósito, mas cujo uso generalizado desejam restringir.
30. Data Mining
Exemplo - Criminalista
Legenda
● Tipo de roubo
● Ano
● Q: Quantidade
● R: Representatividade
● P: Propensão
31. Data Mining
Ferramenta de mineração WEKA
O Weka procede à análise computacional e estatística dos dados fornecidos
recorrendo a técnicas de mineração de dados tentando, indutivamente, a partir
dos padrões encontrados gerar hipóteses para soluções e no extremos inclusive
teorias sobre os dados em questão.
32.
33. Data Mining
Resumindo
“Data Mining é a exploração e análise, de forma automática ou semi-automática,
de grandes bases de dados com objetivo de descobrir padrões e regras. O
objetivo do processo de mineração é fornecer as corporações informações que as
possibilitem montar melhores estratégias de marketing, vendas, suporte,
melhorando assim os seus negócios”.
Michael Berrye Gordon Linoff
Livro: Data Mining Techniques: For Marketing, Sales, and Customer Support
34. Big Data x Data Mining
Como as escalas e os tipos de dados são diferentes, os períodos
de análise e os resultados também se diferem. Enquanto a Data
Mining se refere a um processo mais pontual, que gera relatórios
apontando para questões específicas, o Big Data é uma análise
feita de forma contínua por períodos maiores.
35. Data Mining Big Data
Tipos de Dados Dados estruturados em planilhas,
banco de dados relacionais e
dimensionais, etc.
Dados estruturados,
semiestruturados e não estruturados
em bancos de dados NoSQL ou
TripleStores
Foco Identificar padrões de
comportamento dos dados, criando
novos indicadores de análise para o
BI
Extração do conhecimento de
grandes massas de dados com fontes
e tipos variados
Comercialização Valor do projeto, envolvendo o
custo da produção do relatório
Custo de implantação, integração do
sistema e/ou comissionamento sobre
o resultado do faturamento.
Volume de
dados
Baixo, trabalho por amostragem
(pequenas parcelas) de dados com
alto custo de processamento
Alto, com estruturas distribuídas e
grande demanda de processamento.
Big Data x Data Mining
37. Hadoop
Hadoop é um framework para computação distribuída, ou
seja, criado para comportar o processamento de grandes
quantidades de dados (petabytes) com alta velocidade.
40. Hadoop
HDFS
◇ Namenode: Gerencia todos os arquivos e diretórios.
Namenodes possuem o mapeamento entre arquivos e os
blocos nos quais estes estão armazenados.
◇ Datanode: Armazena os dados em forma de blocos.
Datanodes se reportam a namenodes sobre os arquivos
que possuem armazenados para que o namenode esteja
ciente e os dados possam ser processados.
42. “MapReduce é um modelo de programação para processamento de
dados.”
Tom White
Livro: Hadoop - The definitive Guide
Hadoop
MapReduce
43. Hadoop
MapReduce
◇ Job Tracker: tarefas de Map-Reduce são submetidas ao Job Tracker.
Ele precisa falar com o Namenode para conseguir os dados. O Job
Tracker submete a tarefa para os nós task trackers. Esses task tracker
precisam se reportar ao Job Tracker em intervalos regulares,
especificando que estão “vivos” e efetuando suas tarefas. Se o task
tracker não se reportar a eles, então o nó é considerado “morto” e seu
trabalho é redesignado para outro task tracker.
◇ Task Tracker: o Task Tracker aceita as tarefas do Job Tracker. Essas
tarefas são tanto de map, reduce ou ambas (shuffle). O Task Tracker
cria um processo JVM separado para cada tarefa a fim de se certificar
de que uma falha no processo não resulte em uma falha de Task
Tracker.