SlideShare uma empresa Scribd logo
1 de 30
CETAX - All Rights Reserved
Data Science -
Módulo :
Big Data e Hadoop
CETAX - All Rights Reserved
• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX
CETAX - All Rights Reserved
MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR
CETAX - All Rights Reserved
A PALAVRA DO MOMENTO
CETAX - All Rights Reserved
• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?
CETAX - All Rights Reserved
• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES
CETAX - All Rights Reserved
• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO
CETAX - All Rights Reserved
3 Vs – DETALHES
CETAX - All Rights Reserved
• VOLUME
• VELOCIDADE
• VARIEDADE
• VIRTUDE
• VALOR
5 Vs – UMA DEFINIÇÃO
CETAX - All Rights Reserved
• VAST - VASTO, AMPLO
• VOLUME - ALTO VOLUME
• VIGOROSITY - VIGOR
• VERIFIED - VERIFICADOS
• VEXINGLY - “ATORMENTADOR”
• VARIABLE - VARIAVEIS
• VERBOSE - “ELOQUENTE”
• VALUABLE - VALIOSOS
• VISUALIZED - VISUALIZADOS
• VELOCITY - VELOCIDADE
10 Vs – É NECESSÁRIO?
CETAX - All Rights Reserved
• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES
CETAX - All Rights Reserved
• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?
CETAX - All Rights Reserved
CETAX - All Rights Reserved
CETAX - All Rights Reserved
• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA
CETAX - All Rights Reserved
UMA APOSTA? HADOOP!
CETAX - All Rights Reserved
Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node
CETAX - All Rights Reserved
• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS
CETAX - All Rights Reserved
CIÊNCIA DE DADOS
CETAX - All Rights Reserved
REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
CETAX - All Rights Reserved
• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS
CETAX - All Rights Reserved
• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
CETAX - All Rights Reserved
• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES
CETAX - All Rights Reserved
• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS
CETAX - All Rights Reserved
• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR
CETAX - All Rights Reserved
• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR
CETAX - All Rights Reserved
• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO

Mais conteúdo relacionado

Mais procurados

Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Apresentação de Business Intelligence
Apresentação de Business IntelligenceApresentação de Business Intelligence
Apresentação de Business IntelligenceJuliana Maria Lopes
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 

Mais procurados (10)

Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
datawarehouse2
datawarehouse2datawarehouse2
datawarehouse2
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Apresentação de Business Intelligence
Apresentação de Business IntelligenceApresentação de Business Intelligence
Apresentação de Business Intelligence
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 

Semelhante a Big Data e Hadoop: introdução ao ecossistema de soluções para grandes volumes de dados

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Conceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenterConceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenterFabio Leandro
 
Conceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenterConceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenterFabio Leandro
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dadosEdvaldo Castro
 
Flavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e NegóciosFlavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e NegóciosZabbix BR
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosPolis Consulting
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasHumberto Moura
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfssuser7a84f91
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 

Semelhante a Big Data e Hadoop: introdução ao ecossistema de soluções para grandes volumes de dados (20)

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Conceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenterConceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenter
 
Conceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenterConceitos e dicas para profissionais de datacenter
Conceitos e dicas para profissionais de datacenter
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Automação de bibliotecas
Automação de bibliotecasAutomação de bibliotecas
Automação de bibliotecas
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
 
Flavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e NegóciosFlavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e Negócios
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
Big Data
Big DataBig Data
Big Data
 
O profissional e Carreiras de TI
O profissional e Carreiras de TIO profissional e Carreiras de TI
O profissional e Carreiras de TI
 
Big Data
Big DataBig Data
Big Data
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dados
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as Tecnologias
 
Conceitos DW
Conceitos DWConceitos DW
Conceitos DW
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
BIG DATA na UFSM
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
 

Mais de Marco Garcia

Cases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaCases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaMarco Garcia
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
 
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosCASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosMarco Garcia
 
Using Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessUsing Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessMarco Garcia
 
Integração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxIntegração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxMarco Garcia
 
Construindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataConstruindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataMarco Garcia
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataMarco Garcia
 
Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Marco Garcia
 
Palestra Business Intelligence
Palestra Business IntelligencePalestra Business Intelligence
Palestra Business IntelligenceMarco Garcia
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)Marco Garcia
 
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosCurso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosMarco Garcia
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data WarehouseMarco Garcia
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - PalestraMarco Garcia
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem DimensionalMarco Garcia
 

Mais de Marco Garcia (14)

Cases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaCases Big Data Aplicados a logística
Cases Big Data Aplicados a logística
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado Financeiro
 
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosCASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
 
Using Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessUsing Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing Business
 
Integração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxIntegração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia Cetax
 
Construindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataConstruindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigData
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 
Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é
 
Palestra Business Intelligence
Palestra Business IntelligencePalestra Business Intelligence
Palestra Business Intelligence
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosCurso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data Warehouse
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - Palestra
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem Dimensional
 

Big Data e Hadoop: introdução ao ecossistema de soluções para grandes volumes de dados

  • 1. CETAX - All Rights Reserved Data Science - Módulo : Big Data e Hadoop
  • 2. CETAX - All Rights Reserved • A Cetax é uma empresa de consultoria e treinamento especializada em sistemas de Business Intelligence e Data Warehouse. • Existe desde 2000 trabalhando exclusivamente com BI e DW. • Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil • Outros cursos são ministrados em parcerias com outras empresas do mercado ou mesmo profissionais que possuem experiência diferenciada • Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics) APRESENTAÇÃO CETAX
  • 3. CETAX - All Rights Reserved MARCO ANTONIO GARCIA • 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business Intelligence e Data Warehouse. • MBA pela FGV, Formado pela FATEC em Processamento de Dados. • Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo. • Vivência profissional em diversos projetos, passando por Bancos e Financeiras, Construção, Serviços, Varejo, Marketing e outros. APRESENTAÇÃO - INSTRUTOR
  • 4. CETAX - All Rights Reserved A PALAVRA DO MOMENTO
  • 5. CETAX - All Rights Reserved • Muitas definições podem cercar o assunto : – Alto Volume. – Alta Velocidade. – Diversas Fontes. • Uma combinação de tudo isso e muito mais. • Assim como BI, é um termo “guarda-chuva”. BIG DATA = GRANDES DADOS?
  • 6. CETAX - All Rights Reserved • Além dos sistemas utilizados em empresas de todos os portes, temos milhares de outros dispositivos que geram dados diariamente : – Em 2010 existiam 5 bilhões de celulares no mundo. – Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros examinar em tempo real. – Em pouco tempo teremos muito mais equipamentos ligados a internet gerando informações para análise “internet das coisas” MUITOS DADOS GRANDES
  • 7. CETAX - All Rights Reserved • Volume – o volume crescente de dados em todas as áreas e empresas, Mb -> Gb -> Tb -> Pb • Velocidade – o tempo necessário para disponibilizar os dados para análise é cada vez menor • Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados não estruturados ou semi estruturados. 3 Vs – UMA DEFINIÇÃO
  • 8. CETAX - All Rights Reserved 3 Vs – DETALHES
  • 9. CETAX - All Rights Reserved • VOLUME • VELOCIDADE • VARIEDADE • VIRTUDE • VALOR 5 Vs – UMA DEFINIÇÃO
  • 10. CETAX - All Rights Reserved • VAST - VASTO, AMPLO • VOLUME - ALTO VOLUME • VIGOROSITY - VIGOR • VERIFIED - VERIFICADOS • VEXINGLY - “ATORMENTADOR” • VARIABLE - VARIAVEIS • VERBOSE - “ELOQUENTE” • VALUABLE - VALIOSOS • VISUALIZED - VISUALIZADOS • VELOCITY - VELOCIDADE 10 Vs – É NECESSÁRIO?
  • 11. CETAX - All Rights Reserved • Big Data representa um conjunto de dados que não pode mais ser zacilmente gerenciado ou analisado com as ferramentas atuais de dados, métodos ou arquitetura disponível até então. BIG DATA – DEFINIÇÃO SIMPLES
  • 12. CETAX - All Rights Reserved • E então ? • Quais softwares serão utilizados ? • Quais devo aprender ? E ENTÃO?
  • 13. CETAX - All Rights Reserved
  • 14. CETAX - All Rights Reserved
  • 15. CETAX - All Rights Reserved • Web log • Click stream • Sensor data • Email • Call center voice logs • Images/video • Dados RFID • Dados de Localização e Geográficos • Dados adquiridos no mercado FONTES PARA O BIG DATA
  • 16. CETAX - All Rights Reserved UMA APOSTA? HADOOP!
  • 17. CETAX - All Rights Reserved Cluster Hadoop core switch top-of-rack switches Master Nodes – Mantém os Serviços e a Coordenação dos Jobs de dados Worker Nodes – rodam o processamento e armazenamento dos Dados Clientes de Acesso, também chamados de Gateway Node ou Edge Node
  • 18. CETAX - All Rights Reserved • Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto. • Ciência que estuda as informações, seu processo de captura, transformação, geração e análise de dados. • A Ciência de dados envolve diversas disciplinas como : • Computação • Estatística • Matemática • Conhecimento do Negócio CIÊNCIA DE DADOS
  • 19. CETAX - All Rights Reserved CIÊNCIA DE DADOS
  • 20. CETAX - All Rights Reserved REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
  • 21. CETAX - All Rights Reserved • Profissional Multidisciplinar responsável por transformar dados em informações ou produtos de informações dentro de uma corporação. • Deve ser responsável pela formulação dos problemas, escolha de modelos de simulação e estatística e entrega dos produtos de dados. DEFINIÇÃO – CIENTISTA DE DADOS
  • 22. CETAX - All Rights Reserved • Data Scientist – Participa da formulação do problema, hipóteses de resolução e análise de resultados. • Business Analyst – Analisa os dados gerados em relação ao negócio ou empresa avaliada • Data Analyst – responsável por analisar os dados disponibilizados em busca de solução para o problemas enfrentados DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
  • 23. CETAX - All Rights Reserved • Para trabalhar com Big Data acreditamos que o melhor caminho seria conhecer as ferramentas utilizadas • Ter perfil misto : técnico e negócios • Conhecer de Business Inteligence e Data Warehouse • Entender os processos da empresa • Conhecer estatística e matemática QUERO TRABALHAR COM BIG DATA
  • 24. CETAX - All Rights Reserved • Vemos 3 papéis claros: • Cientista ou Analista de Dados • Desenvolvedor • Administrador PAPEIS E FUNÇÕES
  • 25. CETAX - All Rights Reserved • Responsável por atender as demandas das áreas de negócio ou planejamento da empresa. • Participa da formulação dos problemas e respostas. • Nível mais próximo ao negócio • Deve conhecer as ferramentas de consulta e acesso aos dados. • Deveria conhecer estatística ANALISTA DE DADOS
  • 26. CETAX - All Rights Reserved • Responsável por Desenvolver os processos necessários para geração dos dados. • Processos de Captura, Transformação e Carga de Dados. • Deve conhecer tecnicamente as ferramentas envolvidadas • Deve conhecer sobre programação • Será responsável pelo desenvolvimento de novas rotinas e processos. DESENVOLVEDOR
  • 27. CETAX - All Rights Reserved • Responsável por manter os ambientes e ferramentas funcionando da melhor maneira. • Deve conhecer sobre os sistemas operacionais utilizados, principalmente Linux. • Deve conhecer sobre arquitetura de hardware e redes para garantir a melhor performance. • Deve conhecer sobre os processos de Tunning das ferramentas. ADMINISTRADOR
  • 28. CETAX - All Rights Reserved • Programação – as ferramentas ainda são pouco automatizadas na geração de código. • Linux – a maioria dos softwares rodam em Linux, é necessário conhecer comandos básicos para execução de processos. • Modelagem de Dados CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
  • 29. CETAX - All Rights Reserved • Conhecer sobre o negócio ou sobre os processos da empresa. • Conhecer ou ter noções mínimas de estatística e matemática aplicada a dados. CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
  • 30. CETAX - All Rights Reserved • Perguntas ? • Não deixem de acessar nosso site e se cadastrem para as promoções, vagas: www.cetax.com.br MUITO OBRIGADO! FINALIZANDO

Notas do Editor

  1. 2
  2. 3
  3. A tempos não temos uma palavra tão forte no cenário de informática como Big Data ! O termo está sendo falado em todos os tipos de negócios, cursos, etc.
  4. O termo é recente, muitas possibilidades, muitas definições ( algumas ainda vagas ) O mercado está em formação muitas coisas estão ainda acontecendo e muitas ainda estão por vir. O que é certo : Big Data é uma tendência que vai mudar a maneira em que analisamos os dados em qualquer tipo de negócio !
  5. O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês. A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube. Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS. O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
  6. Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações. Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio. Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
  7. http://beyondplm.com/2013/10/14/will-plm-data-size-reach-yottabytes/ Detalhamento sobre os 3 V’s.
  8. Alguns estudiosos acrescentaram mais V’s a definição de big data
  9. Existe até essa definição de 10 V’s do Big Data. Mas seria ela necessária ?
  10. Definição simples e direta, algo que não pode mais ser feito com as ferramentas atuais !
  11. O que temos que fazer ? Quais softwares serão usados ?
  12. Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  13. Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  14. Essa lista é um exemplo de possíveis fontes, mas deveremos ter muito mais fontes. As novas ferramentas permitem conexão e captura de dados em diversas categorias de softwares ou mesmo equipamentos eletrônicos que permita captura de dados. Claro que além dos dados tradicionais que hoje buscamos em outros sistemas, bancos de dados e arquivos de texto.
  15. 16
  16. This is an illustration of a Hadoop cluster. A Hadoop cluster comprises several components; the primary ones being the master and slave nodes. Master nodes manage and coordinate cluster services and tasks. They are master nodes because they have various Hadoop master processes running on them. For example, a master node runs the NameNode process that coordinates Hadoop storage operations. A single master machine can run all of the Hadoop master processes. However for better scalability, and higher availability, is is common to have the various Hadoop master processes spread across multiple master nodes. Slave nodes provide the CPU, memory, and local disk resources to store and process data. They are slave nodes because they have various Hadoop slave processes running on them. For example, a slave node runs a DataNode process that works under the management of the NameNode. The DataNode does the actual work of reading and writing data blocks to storage. A Hadoop cluster is easily scaled up by adding additional slave machines. The Hadoop client machine has only the Hadoop client-side software installed on it. The software is used to access Hadoop tools and applications used to manage the cluster or process data. It is common for Hadoop to be deployed on rack-based servers. Many server rack and blade chassis configurations are possible. In the illustration, each rack of machines has a top-of-the-rack network switch for intra-rack communication. Each top-of-the-rack switch is also connected to a core switch used for inter-rack and cluster-to-client communications.
  17. Data Science ou Ciência de Dados Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto.