Big Data e Mineração de Dados 
Prof. S. Elton Meira
BIG DATA 
Parte 1 -
Parte 1 - Big Data: Sumário 
•O fenômeno e as histórias que a mídiaapresenta 
•O que é Big Data. 
•Big Data: a infraestrutura
Big Data na Mídia 
•Ultimamente há diversas histórias sobreBig Data: 
You Tube: http://youtu.be/LsMt5jp1a9k
Big Data na Mídia 
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/ 
http://youtu.be/XH1wQEgROg4
Big Data na Mídia 
http://www.fivethirtyeight.com/ 
http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
Big Data na Mídia 
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
Os 3Vs do Big Data 
•Big Data é qualquer fonte de dados que possui no mínimo três características comuns: 
–Volume extremamente elevado; 
–Velocidade extremamente elevada; 
–Variedade extremamente elevada.
Os 3Vs do Big Data 
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados... 
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg 
http://monetate.com/infographic/the- retailers-guide-to-big- data/#axzz2HaZVK816
Volume maior de dados... 
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados... 
•A quantidade dados aumentou muito nos últimos anos: 
http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
O que gera tanta quantidade de dados? 
•Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana 
•Humanos: através de sua interação com as máquinas e computadores
Variedade dos dados: 
•Dados com comprimento e tipo definidos. 
•Exemplos: números, datas, strings, etc 
Dados estruturados 
•Dados sem um formato específico. 
•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc 
Dados não estruturados 
•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos. 
•Exemplos: JSON, EDI, XML 
Dados semiestruturados
Velocidade dos dados 
•A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.
Componentes Tecnológicos do Big Data 
Interfaces e alimentadores de/para internet 
Infraestrutura física redundante 
Infraestrutura de segurança 
Dispositivos (computadores, notebooks, tablets, smarphones) 
Banco de dados Operacional (estruturado, não estruturado e semiestruturado) 
“Organização” de banco de dados e ferramentas 
Datawarehouses e Data Marts analiticos 
Relatórios e visualização 
Aplicações Big Data 
Ferramentas analíticas 
Interfaces e alimentadores de/para aplicações
Infraestrutura física 
•Requisitos: 
–Desempenho: um parâmetro importante é a latência e o tempo de resposta. 
–Disponibilidade: uptime, tempo médio entre falhas. 
–Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio. 
–Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas. 
–Custo: quer pagar quanto??
Infraestrutura física 
•Computação em nuvem pode ser uma boa alternativa 
–Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.
Infraestrutura física 
•Modelos de computação em nuvem 
–Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos. 
–Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.
Infraestrutura física 
•Modelos de computação em nuvem 
–Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais. 
–Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.
Infraestrutura física 
•Exemplos de nuvens:
Componentes Tecnológicos do Big Data 
Interfaces e alimentadores de/para internet 
Infraestrutura física redundante 
Infraestrutura de segurança 
Dispositivos (computadores, notebooks, tablets, smarphones) 
Banco de dados operacional (estruturado, não estruturado e semiestruturado) 
“Organização” de banco de dados e ferramentas 
Datawarehouses e Data Marts analiticos 
Relatórios e visualização 
Aplicações Big Data 
Ferramentas analíticas 
Interfaces e alimentadores de/para aplicações
Infraestrutura de segurança 
•A segurança envolve diversos aspectos: 
–Acesso aos dados 
–Acesso aos aplicativos 
–Criptografia de dados 
–Detecção de ameaças
Bancos de dados operacionais 
•Bancos de dados relacionais 
•Bancos de dados Not Only SQL (NoSQL)
Bancos de dados operacionais 
•Bancos de dados relacionais 
–Dados estruturados 
–ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs. 
–Escaláveis 
–Modelos próprios de dados e queries 
–Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Banco de dados chave-valor (key-value) 
–Banco de dados de documentos
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Banco de dados de grafos: 
–Banco de dados espaciais
Bancos de dados operacionais 
•Bancos de dados Not Only SQL (NoSQL) 
–Banco de dados em colunas: 
HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.
Organização de banco de dados e ferramentas 
•Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes. 
•Tecnologias envolvidas: 
–Sistemas de arquivos distribuídos. 
–Serviços de serialização para persistência de dados e chamadas remota de procedimentos 
–Serviços de coordenação: para possibilitar aplicações distribuídas.
Organização de banco de dados e ferramentas 
•A tecnologia mais conhecida desta parte do framework é o MapReduce 
•MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.
Organização de banco de dados e ferramentas 
•Umprograma de MapReduce compreende: 
–um map () procedimento que realiza a filtrageme ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e 
–Reduce () procedimento que executa umaoperação de resumo (como a contagem donúmero de alunos em cada fila, produzindofreqüências nome).
Organização de banco de dados e ferramentas 
•MapReduce:
Organização de banco de dados e ferramentas 
•Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
Organização de banco de dados e ferramentas 
•Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity. 
•Hadoop MapReduce foi obtido a partir doGoogle e do sistema de arquivo do Google(GFS).
Mineração de dados 
•Mineração de dados envolve aexploração e análise de grandequantidade de dados com o objetivode encontrar padrões
Mineração de dados 
•Mineração de dados utiliza técnicas estatísticas e de inteligência artificial. 
•O objetivo da mineração de dados pode ser feita para: 
–Classificar elementos de um conjunto de dados. 
–Prever valores de variáveis aleatórias.
Mineração de dados 
•Mineração de dados utiliza técnicasestatísticas e de inteligência artificial. 
•O objetivo da mineração de dadospode ser feita para: 
–Classificar elementos de um conjunto dedados. 
–Prever valores de variáveis aleatórias.
Mineração de dados 
•Exemplos de algoritmos utilizados namineração de dados: 
–Árvores de classificação 
–Regressão logística 
–Redes neurais 
–Técnicas de agrupamento (clustering)

Big data e mineração de dados

  • 1.
    Big Data eMineração de Dados Prof. S. Elton Meira
  • 2.
  • 3.
    Parte 1 -Big Data: Sumário •O fenômeno e as histórias que a mídiaapresenta •O que é Big Data. •Big Data: a infraestrutura
  • 4.
    Big Data naMídia •Ultimamente há diversas histórias sobreBig Data: You Tube: http://youtu.be/LsMt5jp1a9k
  • 5.
    Big Data naMídia http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/ http://youtu.be/XH1wQEgROg4
  • 6.
    Big Data naMídia http://www.fivethirtyeight.com/ http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
  • 7.
    Big Data naMídia http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
  • 8.
    Os 3Vs doBig Data •Big Data é qualquer fonte de dados que possui no mínimo três características comuns: –Volume extremamente elevado; –Velocidade extremamente elevada; –Variedade extremamente elevada.
  • 9.
    Os 3Vs doBig Data Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
  • 10.
    Volume maior dedados... Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg http://monetate.com/infographic/the- retailers-guide-to-big- data/#axzz2HaZVK816
  • 11.
    Volume maior dedados... Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
  • 12.
    Volume maior dedados... •A quantidade dados aumentou muito nos últimos anos: http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
  • 13.
    O que geratanta quantidade de dados? •Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana •Humanos: através de sua interação com as máquinas e computadores
  • 14.
    Variedade dos dados: •Dados com comprimento e tipo definidos. •Exemplos: números, datas, strings, etc Dados estruturados •Dados sem um formato específico. •Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc Dados não estruturados •Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos. •Exemplos: JSON, EDI, XML Dados semiestruturados
  • 15.
    Velocidade dos dados •A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.
  • 16.
    Componentes Tecnológicos doBig Data Interfaces e alimentadores de/para internet Infraestrutura física redundante Infraestrutura de segurança Dispositivos (computadores, notebooks, tablets, smarphones) Banco de dados Operacional (estruturado, não estruturado e semiestruturado) “Organização” de banco de dados e ferramentas Datawarehouses e Data Marts analiticos Relatórios e visualização Aplicações Big Data Ferramentas analíticas Interfaces e alimentadores de/para aplicações
  • 17.
    Infraestrutura física •Requisitos: –Desempenho: um parâmetro importante é a latência e o tempo de resposta. –Disponibilidade: uptime, tempo médio entre falhas. –Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio. –Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas. –Custo: quer pagar quanto??
  • 18.
    Infraestrutura física •Computaçãoem nuvem pode ser uma boa alternativa –Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.
  • 19.
    Infraestrutura física •Modelosde computação em nuvem –Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos. –Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.
  • 20.
    Infraestrutura física •Modelosde computação em nuvem –Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais. –Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.
  • 21.
  • 22.
    Componentes Tecnológicos doBig Data Interfaces e alimentadores de/para internet Infraestrutura física redundante Infraestrutura de segurança Dispositivos (computadores, notebooks, tablets, smarphones) Banco de dados operacional (estruturado, não estruturado e semiestruturado) “Organização” de banco de dados e ferramentas Datawarehouses e Data Marts analiticos Relatórios e visualização Aplicações Big Data Ferramentas analíticas Interfaces e alimentadores de/para aplicações
  • 23.
    Infraestrutura de segurança •A segurança envolve diversos aspectos: –Acesso aos dados –Acesso aos aplicativos –Criptografia de dados –Detecção de ameaças
  • 24.
    Bancos de dadosoperacionais •Bancos de dados relacionais •Bancos de dados Not Only SQL (NoSQL)
  • 25.
    Bancos de dadosoperacionais •Bancos de dados relacionais –Dados estruturados –ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
  • 26.
    Bancos de dadosoperacionais •Bancos de dados Not Only SQL (NoSQL) –Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs. –Escaláveis –Modelos próprios de dados e queries –Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
  • 27.
    Bancos de dadosoperacionais •Bancos de dados Not Only SQL (NoSQL) –Banco de dados chave-valor (key-value) –Banco de dados de documentos
  • 28.
    Bancos de dadosoperacionais •Bancos de dados Not Only SQL (NoSQL) –Banco de dados de grafos: –Banco de dados espaciais
  • 29.
    Bancos de dadosoperacionais •Bancos de dados Not Only SQL (NoSQL) –Banco de dados em colunas: HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.
  • 30.
    Organização de bancode dados e ferramentas •Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes. •Tecnologias envolvidas: –Sistemas de arquivos distribuídos. –Serviços de serialização para persistência de dados e chamadas remota de procedimentos –Serviços de coordenação: para possibilitar aplicações distribuídas.
  • 31.
    Organização de bancode dados e ferramentas •A tecnologia mais conhecida desta parte do framework é o MapReduce •MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.
  • 32.
    Organização de bancode dados e ferramentas •Umprograma de MapReduce compreende: –um map () procedimento que realiza a filtrageme ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e –Reduce () procedimento que executa umaoperação de resumo (como a contagem donúmero de alunos em cada fila, produzindofreqüências nome).
  • 33.
    Organização de bancode dados e ferramentas •MapReduce:
  • 34.
    Organização de bancode dados e ferramentas •Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
  • 35.
    Organização de bancode dados e ferramentas •Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity. •Hadoop MapReduce foi obtido a partir doGoogle e do sistema de arquivo do Google(GFS).
  • 36.
    Mineração de dados •Mineração de dados envolve aexploração e análise de grandequantidade de dados com o objetivode encontrar padrões
  • 37.
    Mineração de dados •Mineração de dados utiliza técnicas estatísticas e de inteligência artificial. •O objetivo da mineração de dados pode ser feita para: –Classificar elementos de um conjunto de dados. –Prever valores de variáveis aleatórias.
  • 38.
    Mineração de dados •Mineração de dados utiliza técnicasestatísticas e de inteligência artificial. •O objetivo da mineração de dadospode ser feita para: –Classificar elementos de um conjunto dedados. –Prever valores de variáveis aleatórias.
  • 39.
    Mineração de dados •Exemplos de algoritmos utilizados namineração de dados: –Árvores de classificação –Regressão logística –Redes neurais –Técnicas de agrupamento (clustering)