SlideShare uma empresa Scribd logo
Big Data e Mineração de Dados 
Prof. S. Elton Meira
BIG DATA 
Parte 1 -
Parte 1 - Big Data: Sumário 
•O fenômeno e as histórias que a mídiaapresenta 
•O que é Big Data. 
•Big Data: a infraestrutura
Big Data na Mídia 
•Ultimamente há diversas histórias sobreBig Data: 
You Tube: http://youtu.be/LsMt5jp1a9k
Big Data na Mídia 
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/ 
http://youtu.be/XH1wQEgROg4
Big Data na Mídia 
http://www.fivethirtyeight.com/ 
http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
Big Data na Mídia 
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
Os 3Vs do Big Data 
•Big Data é qualquer fonte de dados que possui no mínimo três características comuns: 
–Volume extremamente elevado; 
–Velocidade extremamente elevada; 
–Variedade extremamente elevada.
Os 3Vs do Big Data 
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados... 
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg 
http://monetate.com/infographic/the- retailers-guide-to-big- data/#axzz2HaZVK816
Volume maior de dados... 
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados... 
•A quantidade dados aumentou muito nos últimos anos: 
http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
O que gera tanta quantidade de dados? 
•Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana 
•Humanos: através de sua interação com as máquinas e computadores
Variedade dos dados: 
•Dados com comprimento e tipo definidos. 
•Exemplos: números, datas, strings, etc 
Dados estruturados 
•Dados sem um formato específico. 
•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc 
Dados não estruturados 
•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos. 
•Exemplos: JSON, EDI, XML 
Dados semiestruturados
Velocidade dos dados 
•A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.
Componentes Tecnológicos do Big Data 
Interfaces e alimentadores de/para internet 
Infraestrutura física redundante 
Infraestrutura de segurança 
Dispositivos (computadores, notebooks, tablets, smarphones) 
Banco de dados Operacional (estruturado, não estruturado e semiestruturado) 
“Organização” de banco de dados e ferramentas 
Datawarehouses e Data Marts analiticos 
Relatórios e visualização 
Aplicações Big Data 
Ferramentas analíticas 
Interfaces e alimentadores de/para aplicações
Infraestrutura física 
•Requisitos: 
–Desempenho: um parâmetro importante é a latência e o tempo de resposta. 
–Disponibilidade: uptime, tempo médio entre falhas. 
–Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio. 
–Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas. 
–Custo: quer pagar quanto??
Infraestrutura física 
•Computação em nuvem pode ser uma boa alternativa 
–Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.
Infraestrutura física 
•Modelos de computação em nuvem 
–Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos. 
–Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.
Infraestrutura física 
•Modelos de computação em nuvem 
–Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais. 
–Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.
Infraestrutura física 
•Exemplos de nuvens:
Componentes Tecnológicos do Big Data 
Interfaces e alimentadores de/para internet 
Infraestrutura física redundante 
Infraestrutura de segurança 
Dispositivos (computadores, notebooks, tablets, smarphones) 
Banco de dados operacional (estruturado, não estruturado e semiestruturado) 
“Organização” de banco de dados e ferramentas 
Datawarehouses e Data Marts analiticos 
Relatórios e visualização 
Aplicações Big Data 
Ferramentas analíticas 
Interfaces e alimentadores de/para aplicações
Infraestrutura de segurança 
•A segurança envolve diversos aspectos: 
–Acesso aos dados 
–Acesso aos aplicativos 
–Criptografia de dados 
–Detecção de ameaças
Bancos de dados operacionais 
•Bancos de dados relacionais 
•Bancos de dados Not Only SQL (NoSQL)
Bancos de dados operacionais 
•Bancos de dados relacionais 
–Dados estruturados 
–ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs. 
–Escaláveis 
–Modelos próprios de dados e queries 
–Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Banco de dados chave-valor (key-value) 
–Banco de dados de documentos
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Banco de dados de grafos: 
–Banco de dados espaciais
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Banco de dados em colunas: 
HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.
Organização de banco de dados e ferramentas 
•Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes. 
•Tecnologias envolvidas: 
–Sistemas de arquivos distribuídos. 
–Serviços de serialização para persistência de dados e chamadas remota de procedimentos 
–Serviços de coordenação: para possibilitar aplicações distribuídas.
Organização de banco de dados e ferramentas 
•A tecnologia mais conhecida desta parte do framework é o MapReduce 
•MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.
Organização de banco de dados e ferramentas 
•Umprograma de MapReduce compreende: 
–um map () procedimento que realiza a filtrageme ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e 
–Reduce () procedimento que executa umaoperação de resumo (como a contagem donúmero de alunos em cada fila, produzindofreqüências nome).
Organização de banco de dados e ferramentas 
•MapReduce:
Organização de banco de dados e ferramentas 
•Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
Organização de banco de dados e ferramentas 
•Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity. 
•Hadoop MapReduce foi obtido a partir doGoogle e do sistema de arquivo do Google(GFS).
Mineração de dados 
•Mineração de dados envolve aexploração e análise de grandequantidade de dados com o objetivode encontrar padrões
Mineração de dados 
•Mineração de dados utiliza técnicas estatísticas e de inteligência artificial. 
•O objetivo da mineração de dados pode ser feita para: 
–Classificar elementos de um conjunto de dados. 
–Prever valores de variáveis aleatórias.
Mineração de dados 
•Mineração de dados utiliza técnicasestatísticas e de inteligência artificial. 
•O objetivo da mineração de dadospode ser feita para: 
–Classificar elementos de um conjunto dedados. 
–Prever valores de variáveis aleatórias.
Mineração de dados 
•Exemplos de algoritmos utilizados namineração de dados: 
–Árvores de classificação 
–Regressão logística 
–Redes neurais 
–Técnicas de agrupamento (clustering)

Mais conteúdo relacionado

Mais procurados

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Ambiente Livre
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Fabrício Barth
 
Data Mining
Data Mining Data Mining
Data Mining
Jaziel Silva
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
Hélio Silva
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
Nilton Rodrigues Pereira
 
Data mining
Data miningData mining
Data mining
Welton Dias
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
Ambiente Livre
 
Data mining
Data miningData mining
Data mining
Ricardo Vasconcelos
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
AntonioEE256
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Marcos Luiz Lins Filho
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
Marcos Vinicius Fidelis
 
Big data
Big dataBig data
Big data
Tiago Marques
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Marcos Vinicius Fidelis
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
Leandro Couto
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
Jerônimo Medina Madruga
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
Thiago Oliveira
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
José Renato Pequeno
 
Big Data
Big DataBig Data
Big Data
Elvis Fusco
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
Dayane Cristine Leite
 
Apostila sobre Big Data
Apostila sobre Big DataApostila sobre Big Data
Apostila sobre Big Data
Fernando Palma
 

Mais procurados (20)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Data Mining
Data Mining Data Mining
Data Mining
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Data mining
Data miningData mining
Data mining
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Data mining
Data miningData mining
Data mining
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Big data
Big dataBig data
Big data
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data
Big DataBig Data
Big Data
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Apostila sobre Big Data
Apostila sobre Big DataApostila sobre Big Data
Apostila sobre Big Data
 

Semelhante a Big data e mineração de dados

Big Data
Big DataBig Data
Big Data
Sandro Servino
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
ssuser7a84f91
 
Big Data
Big DataBig Data
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
sparsi
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Leonardo Dias
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
Eduardo Hahn
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
SandroPolizelLaurent
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Marco Garcia
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
Fernando farias
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
Caio Candido
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
jcaroso
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
Amazon Web Services LATAM
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
Alessandro Binhara
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
Luiz Henrique Garetti Rosário
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
Roberto Oliveira
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
Edvaldo Castro
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
Alexandre Nicolau .·.
 
Material Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukMaterial Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos Alexandruk
Hebert Alquimim
 

Semelhante a Big data e mineração de dados (20)

Big Data
Big DataBig Data
Big Data
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
 
Big Data
Big DataBig Data
Big Data
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Material Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukMaterial Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos Alexandruk
 

Big data e mineração de dados

  • 1. Big Data e Mineração de Dados Prof. S. Elton Meira
  • 3. Parte 1 - Big Data: Sumário •O fenômeno e as histórias que a mídiaapresenta •O que é Big Data. •Big Data: a infraestrutura
  • 4. Big Data na Mídia •Ultimamente há diversas histórias sobreBig Data: You Tube: http://youtu.be/LsMt5jp1a9k
  • 5. Big Data na Mídia http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/ http://youtu.be/XH1wQEgROg4
  • 6. Big Data na Mídia http://www.fivethirtyeight.com/ http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
  • 7. Big Data na Mídia http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
  • 8. Os 3Vs do Big Data •Big Data é qualquer fonte de dados que possui no mínimo três características comuns: –Volume extremamente elevado; –Velocidade extremamente elevada; –Variedade extremamente elevada.
  • 9. Os 3Vs do Big Data Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
  • 10. Volume maior de dados... Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg http://monetate.com/infographic/the- retailers-guide-to-big- data/#axzz2HaZVK816
  • 11. Volume maior de dados... Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
  • 12. Volume maior de dados... •A quantidade dados aumentou muito nos últimos anos: http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
  • 13. O que gera tanta quantidade de dados? •Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana •Humanos: através de sua interação com as máquinas e computadores
  • 14. Variedade dos dados: •Dados com comprimento e tipo definidos. •Exemplos: números, datas, strings, etc Dados estruturados •Dados sem um formato específico. •Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc Dados não estruturados •Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos. •Exemplos: JSON, EDI, XML Dados semiestruturados
  • 15. Velocidade dos dados •A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.
  • 16. Componentes Tecnológicos do Big Data Interfaces e alimentadores de/para internet Infraestrutura física redundante Infraestrutura de segurança Dispositivos (computadores, notebooks, tablets, smarphones) Banco de dados Operacional (estruturado, não estruturado e semiestruturado) “Organização” de banco de dados e ferramentas Datawarehouses e Data Marts analiticos Relatórios e visualização Aplicações Big Data Ferramentas analíticas Interfaces e alimentadores de/para aplicações
  • 17. Infraestrutura física •Requisitos: –Desempenho: um parâmetro importante é a latência e o tempo de resposta. –Disponibilidade: uptime, tempo médio entre falhas. –Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio. –Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas. –Custo: quer pagar quanto??
  • 18. Infraestrutura física •Computação em nuvem pode ser uma boa alternativa –Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.
  • 19. Infraestrutura física •Modelos de computação em nuvem –Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos. –Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.
  • 20. Infraestrutura física •Modelos de computação em nuvem –Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais. –Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.
  • 22. Componentes Tecnológicos do Big Data Interfaces e alimentadores de/para internet Infraestrutura física redundante Infraestrutura de segurança Dispositivos (computadores, notebooks, tablets, smarphones) Banco de dados operacional (estruturado, não estruturado e semiestruturado) “Organização” de banco de dados e ferramentas Datawarehouses e Data Marts analiticos Relatórios e visualização Aplicações Big Data Ferramentas analíticas Interfaces e alimentadores de/para aplicações
  • 23. Infraestrutura de segurança •A segurança envolve diversos aspectos: –Acesso aos dados –Acesso aos aplicativos –Criptografia de dados –Detecção de ameaças
  • 24. Bancos de dados operacionais •Bancos de dados relacionais •Bancos de dados Not Only SQL (NoSQL)
  • 25. Bancos de dados operacionais •Bancos de dados relacionais –Dados estruturados –ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
  • 26. Bancos de dados operacionais •Bancos de dados Not Only SQL (NoSQL) –Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs. –Escaláveis –Modelos próprios de dados e queries –Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
  • 27. Bancos de dados operacionais •Bancos de dados Not Only SQL (NoSQL) –Banco de dados chave-valor (key-value) –Banco de dados de documentos
  • 28. Bancos de dados operacionais •Bancos de dados Not Only SQL (NoSQL) –Banco de dados de grafos: –Banco de dados espaciais
  • 29. Bancos de dados operacionais •Bancos de dados Not Only SQL (NoSQL) –Banco de dados em colunas: HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.
  • 30. Organização de banco de dados e ferramentas •Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes. •Tecnologias envolvidas: –Sistemas de arquivos distribuídos. –Serviços de serialização para persistência de dados e chamadas remota de procedimentos –Serviços de coordenação: para possibilitar aplicações distribuídas.
  • 31. Organização de banco de dados e ferramentas •A tecnologia mais conhecida desta parte do framework é o MapReduce •MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.
  • 32. Organização de banco de dados e ferramentas •Umprograma de MapReduce compreende: –um map () procedimento que realiza a filtrageme ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e –Reduce () procedimento que executa umaoperação de resumo (como a contagem donúmero de alunos em cada fila, produzindofreqüências nome).
  • 33. Organização de banco de dados e ferramentas •MapReduce:
  • 34. Organização de banco de dados e ferramentas •Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
  • 35. Organização de banco de dados e ferramentas •Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity. •Hadoop MapReduce foi obtido a partir doGoogle e do sistema de arquivo do Google(GFS).
  • 36. Mineração de dados •Mineração de dados envolve aexploração e análise de grandequantidade de dados com o objetivode encontrar padrões
  • 37. Mineração de dados •Mineração de dados utiliza técnicas estatísticas e de inteligência artificial. •O objetivo da mineração de dados pode ser feita para: –Classificar elementos de um conjunto de dados. –Prever valores de variáveis aleatórias.
  • 38. Mineração de dados •Mineração de dados utiliza técnicasestatísticas e de inteligência artificial. •O objetivo da mineração de dadospode ser feita para: –Classificar elementos de um conjunto dedados. –Prever valores de variáveis aleatórias.
  • 39. Mineração de dados •Exemplos de algoritmos utilizados namineração de dados: –Árvores de classificação –Regressão logística –Redes neurais –Técnicas de agrupamento (clustering)