Big Data e Mineração de
Dados
Prof. Paulo Cesar de Carvalho Dias
Paulo.dias@uniseb.com.br
Sumário Geral
• Parte 1 - Big Data e Mineração de
dados
• Parte 2 - Pós-Graduação em Banco
de Dados e Mineração de Dados
U...
BIG DATA
Parte 1 -
Parte 1 - Big Data: Sumário
• O fenômeno e as histórias que a mídia
apresenta
• O que é Big Data.
• Big Data: a infraestru...
Big Data na Mídia
• Ultimamente há diversas histórias sobre
Big Data:
You Tube: http://youtu.be/LsMt5jp1a9k
Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-befor...
Big Data na Mídia
http://www.fivethirtyeight.com/
http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/wh...
Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-befor...
Os 3Vs do Big Data
• Big Data é qualquer fonte de dados
que possui no mínimo três
características comuns:
– Volume extrema...
Os 3Vs do Big Data
Fonte: ibm
http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados...
Fonte: ibm
http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
http://monetate....
Volume maior de dados...
Fonte: ibm
http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados...
• A quantidade dados aumentou muito
nos últimos anos:
http://monetate.com/infographic/the-retaile...
O que gera tanta
quantidade de dados?
• Computadores e dispositivos: informações
geradas por máquinas sem a intervenção
hu...
Variedade dos dados:
•Dados com comprimento e tipo
definidos.
•Exemplos: números, datas, strings,
etc
Dados
estruturados
•...
Velocidade dos dados
• A revolução das tecnologias de
comunicação aumentou muito a
velocidade de transmissão de dados.
Componentes Tecnológicos
do Big Data
Interfacesealimentadoresde/parainternet
Infraestrutura física redundante
Infraestrutu...
Infraestrutura física
• Requisitos:
– Desempenho: um parâmetro importante é a
latência e o tempo de resposta.
– Disponibil...
Infraestrutura física
• Computação em nuvem pode ser uma boa
alternativa
– Definição de computação em nuvem: é um
método d...
Infraestrutura física
• Modelos de computação em nuvem
– Infrastructure as a Service (IaaS): fornecimento
de serviços comp...
Infraestrutura física
• Modelos de computação em nuvem
– Software as a Service (SaaS): aplicações criadas
e hospedadas por...
Infraestrutura física
• Exemplos de nuvens:
Componentes Tecnológicos
do Big Data
Interfacesealimentadoresde/parainternet
Infraestrutura física redundante
Infraestrutu...
Infraestrutura de segurança
• A segurança envolve diversos
aspectos:
– Acesso aos dados
– Acesso aos aplicativos
– Criptog...
Infraestrutura de segurança
• A segurança envolve diversos
aspectos:
– Acesso aos dados
– Acesso aos aplicativos
– Criptog...
Bancos de dados
operacionais
• Bancos de dados relacionais
• Bancos de dados Not Only SQL
(NoSQL)
Bancos de dados
operacionais
• Bancos de dados relacionais
– Dados estruturados
– ACID (Atomicidade, Consistência,
Isolame...
Bancos de dados
operacionais
• Bancos de dados Not Only SQL
(NoSQL)
– Não são baseados no modelo tradicional
de tabelas e ...
Bancos de dados
operacionais
• Bancos de dados Not Only SQL
(NoSQL)
– Banco de dados chave-valor (key-value)
– Banco de da...
Bancos de dados
operacionais
• Bancos de dados Not Only SQL
(NoSQL)
– Banco de dados de grafos:
– Banco de dados espaciais
Bancos de dados
operacionais
• Bancos de dados Not Only SQL
(NoSQL)
– Banco de dados em colunas:
HBase é um banco de dados...
Organização de banco de
dados e ferramentas
• Esta parte da infraestrutura captura,
valida e monta vários elementos de
big...
Organização de banco de
dados e ferramentas
• A tecnologia mais conhecida desta
parte do framework é o MapReduce
• MapRedu...
Organização de banco de
dados e ferramentas
• Um programa de MapReduce
compreende:
– um map () procedimento que realiza a ...
Organização de banco de
dados e ferramentas
• MapReduce:
Organização de banco de
dados e ferramentas
• Apache Hadoop é um framework de
software open-source que suporta
aplicações ...
Organização de banco de
dados e ferramentas
• Ele suporta a execução de aplicações em
grandes aglomerados de hardware
comm...
Mineração de dados
• Mineração de dados envolve a
exploração e análise de grande
quantidade de dados com o objetivo
de enc...
Mineração de dados
• Mineração de dados utiliza técnicas
estatísticas e de inteligência artificial.
• O objetivo da minera...
Mineração de dados
• Mineração de dados utiliza técnicas
estatísticas e de inteligência artificial.
• O objetivo da minera...
Mineração de dados
• Exemplos de algoritmos utilizados na
mineração de dados:
– Árvores de classificação
– Regressão logís...
PÓS-GRADUAÇÃO EM BANCO
DE DADOS E MINERAÇÃO DE
DADOS UNISEB
Parte 2 -
Introdução
• Justificativa do curso:
– Grande número de empresas de software
na região;
– Crescimento do setor e grande de...
Objetivo do curso
• Geral:
– O UNISEB COC formará especialistas na
área de Banco de Dados e Mineração
de Dados com domínio...
Metodologia:
• Aulas Teóricas:
– Serão expositivo-dialogadas e utiliza-se das
técnicas de dinâmicas de grupo, estudo dirig...
Pós-Graduação em Banco de
Dados e Mineração de Dados
• Contato comercial: 3603-9803
EXEMPLO DE APLICAÇÃO
(PROF. REGINALDO)
Parte 3 -
Próximos SlideShares
Carregando em…5
×

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

3.332 visualizações

Publicada em

Big Data: Palestra apresentada dia 05 de setembro de 2013 no Centro Univ. UniSEB em Ribeirão Preto

Publicada em: Educação
0 comentários
5 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
3.332
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2.294
Ações
Compartilhamentos
0
Downloads
120
Comentários
0
Gostaram
5
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

  1. 1. Big Data e Mineração de Dados Prof. Paulo Cesar de Carvalho Dias Paulo.dias@uniseb.com.br
  2. 2. Sumário Geral • Parte 1 - Big Data e Mineração de dados • Parte 2 - Pós-Graduação em Banco de Dados e Mineração de Dados UniSEB • Parte 4 - Exemplo de aplicação (Prof. Reginaldo)
  3. 3. BIG DATA Parte 1 -
  4. 4. Parte 1 - Big Data: Sumário • O fenômeno e as histórias que a mídia apresenta • O que é Big Data. • Big Data: a infraestrutura
  5. 5. Big Data na Mídia • Ultimamente há diversas histórias sobre Big Data: You Tube: http://youtu.be/LsMt5jp1a9k
  6. 6. Big Data na Mídia http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/ http://youtu.be/XH1wQEgROg4
  7. 7. Big Data na Mídia http://www.fivethirtyeight.com/ http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
  8. 8. Big Data na Mídia http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
  9. 9. Os 3Vs do Big Data • Big Data é qualquer fonte de dados que possui no mínimo três características comuns: – Volume extremamente elevado; – Velocidade extremamente elevada; – Variedade extremamente elevada.
  10. 10. Os 3Vs do Big Data Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
  11. 11. Volume maior de dados... Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg http://monetate.com/infographic/the- retailers-guide-to-big- data/#axzz2HaZVK816
  12. 12. Volume maior de dados... Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
  13. 13. Volume maior de dados... • A quantidade dados aumentou muito nos últimos anos: http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
  14. 14. O que gera tanta quantidade de dados? • Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana • Humanos: através de sua interação com as máquinas e computadores
  15. 15. Variedade dos dados: •Dados com comprimento e tipo definidos. •Exemplos: números, datas, strings, etc Dados estruturados •Dados sem um formato específico. •Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc Dados não estruturados •Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos. •Exemplos: JSON, EDI, XML Dados semiestruturados
  16. 16. Velocidade dos dados • A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.
  17. 17. Componentes Tecnológicos do Big Data Interfacesealimentadoresde/parainternet Infraestrutura física redundante Infraestrutura de segurança Dispositivos (computadores, notebooks, tablets, smarphones) Banco de dados Operacional (estruturado, não estruturado e semiestruturado) “Organização” de banco de dados e ferramentas Datawarehouses e Data Marts analiticos Relatórios e visualização Aplicações Big Data Ferramentas analíticas Interfacesealimentadoresde/paraaplicações
  18. 18. Infraestrutura física • Requisitos: – Desempenho: um parâmetro importante é a latência e o tempo de resposta. – Disponibilidade: uptime, tempo médio entre falhas. – Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio. – Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas. – Custo: quer pagar quanto??
  19. 19. Infraestrutura física • Computação em nuvem pode ser uma boa alternativa – Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.
  20. 20. Infraestrutura física • Modelos de computação em nuvem – Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos. – Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.
  21. 21. Infraestrutura física • Modelos de computação em nuvem – Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais. – Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.
  22. 22. Infraestrutura física • Exemplos de nuvens:
  23. 23. Componentes Tecnológicos do Big Data Interfacesealimentadoresde/parainternet Infraestrutura física redundante Infraestrutura de segurança Dispositivos (computadores, notebooks, tablets, smarphones) Banco de dados operacional (estruturado, não estruturado e semiestruturado) “Organização” de banco de dados e ferramentas Datawarehouses e Data Marts analiticos Relatórios e visualização Aplicações Big Data Ferramentas analíticas Interfacesealimentadoresde/paraaplicações
  24. 24. Infraestrutura de segurança • A segurança envolve diversos aspectos: – Acesso aos dados – Acesso aos aplicativos – Criptografia de dados – Detecção de ameaças
  25. 25. Infraestrutura de segurança • A segurança envolve diversos aspectos: – Acesso aos dados – Acesso aos aplicativos – Criptografia de dados – Detecção de ameaças
  26. 26. Bancos de dados operacionais • Bancos de dados relacionais • Bancos de dados Not Only SQL (NoSQL)
  27. 27. Bancos de dados operacionais • Bancos de dados relacionais – Dados estruturados – ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
  28. 28. Bancos de dados operacionais • Bancos de dados Not Only SQL (NoSQL) – Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs. – Escaláveis – Modelos próprios de dados e queries – Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
  29. 29. Bancos de dados operacionais • Bancos de dados Not Only SQL (NoSQL) – Banco de dados chave-valor (key-value) – Banco de dados de documentos
  30. 30. Bancos de dados operacionais • Bancos de dados Not Only SQL (NoSQL) – Banco de dados de grafos: – Banco de dados espaciais
  31. 31. Bancos de dados operacionais • Bancos de dados Not Only SQL (NoSQL) – Banco de dados em colunas: HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.
  32. 32. Organização de banco de dados e ferramentas • Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes. • Tecnologias envolvidas: – Sistemas de arquivos distribuídos. – Serviços de serialização para persistência de dados e chamadas remota de procedimentos – Serviços de coordenação: para possibilitar aplicações distribuídas.
  33. 33. Organização de banco de dados e ferramentas • A tecnologia mais conhecida desta parte do framework é o MapReduce • MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.
  34. 34. Organização de banco de dados e ferramentas • Um programa de MapReduce compreende: – um map () procedimento que realiza a filtragem e ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e – Reduce () procedimento que executa uma operação de resumo (como a contagem do número de alunos em cada fila, produzindo freqüências nome).
  35. 35. Organização de banco de dados e ferramentas • MapReduce:
  36. 36. Organização de banco de dados e ferramentas • Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
  37. 37. Organização de banco de dados e ferramentas • Ele suporta a execução de aplicações em grandes aglomerados de hardware commodity. • Hadoop MapReduce foi obtido a partir do Google e do sistema de arquivo do Google (GFS).
  38. 38. Mineração de dados • Mineração de dados envolve a exploração e análise de grande quantidade de dados com o objetivo de encontrar padrões
  39. 39. Mineração de dados • Mineração de dados utiliza técnicas estatísticas e de inteligência artificial. • O objetivo da mineração de dados pode ser feita para: – Classificar elementos de um conjunto de dados. – Prever valores de variáveis aleatórias.
  40. 40. Mineração de dados • Mineração de dados utiliza técnicas estatísticas e de inteligência artificial. • O objetivo da mineração de dados pode ser feita para: – Classificar elementos de um conjunto de dados. – Prever valores de variáveis aleatórias.
  41. 41. Mineração de dados • Exemplos de algoritmos utilizados na mineração de dados: – Árvores de classificação – Regressão logística – Redes neurais – Técnicas de agrupamento (clustering)
  42. 42. PÓS-GRADUAÇÃO EM BANCO DE DADOS E MINERAÇÃO DE DADOS UNISEB Parte 2 -
  43. 43. Introdução • Justificativa do curso: – Grande número de empresas de software na região; – Crescimento do setor e grande demanda por profissionais qualificados na área de TI; – Aumento da concorrência entre as empresas que necessitam de profissionais cada vez mais capacitados e atualizados 43
  44. 44. Objetivo do curso • Geral: – O UNISEB COC formará especialistas na área de Banco de Dados e Mineração de Dados com domínio da técnica e capacidade de identificar problemas, oportunidades e propor soluções inovadoras para o armazenamento, disponibilização e mineração de dados de empresas de pequeno, médio e grande porte. 44
  45. 45. Metodologia: • Aulas Teóricas: – Serão expositivo-dialogadas e utiliza-se das técnicas de dinâmicas de grupo, estudo dirigido e seminários, sempre articulando os saberes teóricos aos saberes práticos dos atores envolvidos no processo. – Para apoio do curso existe um ambiente virtual em que algumas informações e material bibliográfico são disponibilizados, além da possibilidade do agendamento de chat. • Aulas Práticas: – Aulas práticas serão desenvolvidas em sala de aula e laboratório de informática. 45
  46. 46. Pós-Graduação em Banco de Dados e Mineração de Dados • Contato comercial: 3603-9803
  47. 47. EXEMPLO DE APLICAÇÃO (PROF. REGINALDO) Parte 3 -

×