SlideShare uma empresa Scribd logo
1 de 62
CETAX - All Rights Reserved
Workshop :
Bigdata e Hadoop e Data Science
CETAX - All Rights Reserved
• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX
CETAX - All Rights Reserved
MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR
CETAX - All Rights Reserved
A PALAVRA DO MOMENTO
CETAX - All Rights Reserved
• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?
CETAX - All Rights Reserved
• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES
CETAX - All Rights Reserved
• Big Data = Big Business
• Todos os negócios de tecnologia serão
beneficiados pelo Big Data
BIG DATA = BIG BUSINESS
CETAX - All Rights Reserved
• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO
CETAX - All Rights Reserved
3 Vs – DETALHES
CETAX - All Rights Reserved
• VOLUME
• VELOCIDADE
• VARIEDADE
• VIRTUDE
• VALOR
5 Vs – UMA DEFINIÇÃO
CETAX - All Rights Reserved
• VAST - VASTO, AMPLO
• VOLUME - ALTO VOLUME
• VIGOROSITY - VIGOR
• VERIFIED - VERIFICADOS
• VEXINGLY - “ATORMENTADOR”
• VARIABLE - VARIAVEIS
• VERBOSE - “ELOQUENTE”
• VALUABLE - VALIOSOS
• VISUALIZED - VISUALIZADOS
• VELOCITY - VELOCIDADE
10 Vs – É NECESSÁRIO?
CETAX - All Rights Reserved
• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES
CETAX - All Rights Reserved
• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?
CETAX - All Rights Reserved
CETAX - All Rights Reserved
CETAX - All Rights Reserved
CETAX - All Rights Reserved
• “Dados são o novo Petróleo”
• No ano de 2012 a
• Como petróleo, precisam ser refinados !
DATA IS THE NEW OIL!
CETAX - All Rights Reserved
• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA
CETAX - All Rights Reserved
CURVA DE ADOÇÃO DO BIG DATA
CETAX - All Rights Reserved
• Serviços de Informação – Imagens de Satélites
• Varejo – Otimização de Preço, Inteligência de Vídeo
• Utilities/Utilidades – Consumo em tempo real
• Propaganda – Content Targeting OnLine
• Seguros – Detecção de Fraudes
• Saúde – Diagnósticos e Detecção.
• Manufatura – Controle de Qualidade, Controle de Máquinas
EXEMPLOS POR SETOR
CETAX - All Rights Reserved
• Machine Learning
• Sentiments
• Text Processing
• Image Processing
• Video Analytics
• Log Parsing
• Collaborative Filtering
• Context Search
• Email & Content
APLICAÇÕES POSSÍVEIS – BIG DATA
CETAX - All Rights Reserved
Categorias Novas Tecnologias
Infra Estrutura Big Data e Data Warehouse Appliances
Tecnologias In-Memory
SSD Storage
Fast Networks
Cloud Computing
Tecnologias Móveis
Softwares In-Memory Databases
Hadoop, Cassandra e NoSQL Databases
Colunar DBMS
ETLs com integração Hadoop – Informatica, Talend, etc.
Algoritimos Python, Scala, R, Mahout
Arquiteturas Pré-
Configuradas
IBM, Teradata, Kognitio, EMC, Cloudera, HortonWorks, Cirro,
Intel, Cisco UCS, Pivotal, Oracle , MapR
INOVAÇÕES SÃO NECESSÁRIAS
CETAX - All Rights Reserved
• Alguma variações de NoSQL Databases :
• XML ( myXMLB, Tamino, Sedna )
• Wide Column (Cassandra, Hbase, Big Table)
• Key/Value (Redis, Memcached comBerkley DB)
• Graph ( neo4j, InfoGrid )
• Document Store ( CouchDB, MongoDB )
NOSQL
CETAX - All Rights Reserved
PANORAMA DE BANCO DE DADOS
CETAX - All Rights Reserved
UMA APOSTA? Hadoop e Open Sources
CETAX - All Rights Reserved
• Criado dentro do Yahoo em 2005.
• O nome Hadoop não é um acrônimo, é o nome do Elefante de
brinquedo do filho de Doug Cutting.
• O Hadoop tem como base um file system para armazenamento
rápido e barato de dados !
• Tem como objetivo o processamento de grandes datasets de dados
com modelos simples de programação
HADOOP SURGE COMO ALTERNATIVA
CETAX - All Rights Reserved
Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node
CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 2 – ENTENDENDO HADOOP
ARMAZENAMENTO E PROCESSAMENTO
CETAX - All Rights Reserved
“I’m still here! This is
my latest heartbeat.”
“I’m here too! And
here is my latest
heartbeat.”
123
“Hey DataNode1,
Replicate block 123 to
DataNode 3.”
NameNode
DataNode 1 DataNode 3 DataNode 4
123 123
DataNode 2
THE NameNodes
CETAX - All Rights Reserved
1. Client sends a request to the
NameNode to add a file to
HDFS.
3. For every block, the client will request the NameNode to provide a new blockid
and a list of destination DataNodes.
4. The client will write the block directly to the first DataNode in the list.
5. The first DataNode pipelines the replication to the next DataNode in the list.
NameNode
DataNode 1 DataNode 2 DataNode 3
2. NameNode gives client a
lease to the file path.
CETAX - All Rights Reserved
Break a large problem into sub-solutions
Map Process
Map Process
Map Process
Map Process
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data Map Process
Reduce
Process
Reduce
Process
Data
Read & ETL
Shuffle & Sort
Aggregation
Data
Data
Data
Data
Data
Data
Data
Data
WHAT IS MAPREDUCE?
CETAX - All Rights Reserved
HDFS
constitution.txt The mappers read the file’s
blocks from HDFS line-by-line
1
We the people, in order to form a...
The lines of text are split
into words and output to
the reducers
2
The shuffle/sort phase
combines pairs with the
same key
3
The reducers add up the
“1’s” and output the word
and its count
4
<We, 1>
<the,1>
<people,1>
<in,1>
<order, 1>
<to,1>
<form,1>
<a,1>
<We, (1,1,1,1)>
<the, (1,1,1,1,1,1,1,...)>
<people,(1,1,1,1,1)>
<form, (1)><We,4>
<the,265>
<people,5>
<form,1>
HDFS
WORDCOUNT IN MAPREDUCE
CETAX - All Rights Reserved
Data is shuffled
across the network
and sorted
Map Phase Shuffle/Sort Reduce Phase
DataNode
Mapper
DataNode
Mapper
DataNode
Mapper
DataNode
Reducer
DataNode
DataNode
Reducer
SELECT word, COUNT(*)
FROM constitution
WHERE….
GROUP BY (word)
ORDER BY
JOIN
DISTINCT
Hive/Pig compile as
Reduce side function
Examples of more
Reduce side
functions
CETAX - All Rights Reserved
Client submits an
application
1 The AsM finds an appropriate
NodeManager
2
ResourceManager
NodeManager
NodeManager creates an
ApplicationMaster
3
ApplicationMaster
Containers execute their given
task on NodeManagers in the
cluster
AM asks RM for resources. RM
provides a list of Containers to
AM
4
5
LIFECYCLE OF A YARN APPLICATION
CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 3 – INTEGRAÇÃO DE DADOS
CETAX - All Rights Reserved
MapReduce
WebHDFS
hadoop fs -put
Vendor Connectors
Hadoop
nfs gateway
Hue Explorer
INTEGRAÇÃO DE DADOS
CETAX - All Rights Reserved
Relational
Database
Enterprise
Data Warehouse
Document-based
Systems
1. Client executes a sqoop
command
2. Sqoop executes the command
as a MapReduce job on the
cluster (using Map-only tasks)
3. Plugins provide connectivity to various data
sources
Hadoop ClusterMap
tasks
OVERVIEW OF SQOOP: DATABASE IMPORT/EXPORT
CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 4 – PROCESSAMENTO DE DADOS
CETAX - All Rights Reserved
• An engine for executing programs on top of Hadoop
• It provides a language, Pig Latin, to specify these programs
HADOOP ECOSYSTEM: PIG
CETAX - All Rights Reserved
Sensor
Mobile
Weblog
Operational/MPP
Store and query all data in Hive
Use existing SQL tools and existing SQL processes
NN
RM
HADOOP ECOSYSTEM: HIVE
CETAX - All Rights Reserved
• Data warehouse system for Hadoop
• Create schemas/table definitions that point to data in Hadoop
• Treat your data in Hadoop as tables
• SQL 92
• Interactive queries at scale
WHAT IS HIVE?
CETAX - All Rights Reserved
SQL Datatypes SQL Semantics
INT SELECT, LOAD, INSERT from query
TINYINT/SMALLINT/BIGINT Expressions in WHERE and HAVING
BOOLEAN GROUP BY, ORDER BY, SORT BY
FLOAT CLUSTER BY, DISTRIBUTE BY
DOUBLE Sub-queries in FROM clause
STRING GROUP BY, ORDER BY
BINARY ROLLUP and CUBE
TIMESTAMP UNION
ARRAY, MAP, STRUCT, UNION LEFT, RIGHT and FULL INNER/OUTER JOIN
DECIMAL CROSS JOIN, LEFT SEMI JOIN
CHAR Windowing functions (OVER, RANK, etc.)
VARCHAR Sub-queries for IN/NOT IN, HAVING
DATE EXISTS / NOT EXISTS
INTERSECT, EXCEPT
HIVEQL
CETAX - All Rights Reserved
User issues SQL query
Hive parses and plans query
Query converted to MapReduce
and executed on Hadoop
2
3
Web UI
JDBC /
ODBC
CLI
Hive
SQL
1
1
HiveServer2 Hive
MR/Tez
Compiler
Optimizer
Executor
2
Hive
MetaStore
(MySQL, Postgresql, Oracle)
MapReduce or Tez Job
Data DataData
Hadoop 3Data-local processing
HIVE ARCHITECTURE
CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 5 - INTRODUCING APACHE SPARK
CETAX - All Rights Reserved
• The origin of Apache Spark
• Rapid rate of growth of the Spark ecosystem
• Spark use cases
• Major differences between Spark and MapReduce
TOPICS COVERED
CETAX - All Rights Reserved
THE SPARK ECOSYSTEM
CETAX - All Rights Reserved
• Elegant Developer APIs: Data Frames/SQL, Machine Learning, Graph
algorithms and streaming
– Scala, Python, Java and R
– Single environment for importing, transforming, and exporting
data
• In-memory computation model
– Effective for iterative computations
• High level API
– Allows users to focus on the business logic and not internals
WHY SPARK?
CETAX - All Rights Reserved
• Supports wide variety of workloads
– Mllib for Data Scientists
– Spark SQL for Data Analysts
– Spark Streaming for micro batch use cases
– Spark Core, SQL, Streaming, Mllib, and GraphX for Data Processing
Applications
• Integrated fully with Hadoop and an open source tool
• Faster than MapReduce
WHY SPARK CONT.
CETAX - All Rights Reserved
• Higher level API
• In-memory data storage
– Up to 100x performance
improvement
pyspark
Java MapReduce
SPARK vs MAPREDUCE
CETAX - All Rights Reserved
• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS
CETAX - All Rights Reserved
CIÊNCIA DE DADOS
CETAX - All Rights Reserved
REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
CETAX - All Rights Reserved
• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS
CETAX - All Rights Reserved
• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
CETAX - All Rights Reserved
• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES
CETAX - All Rights Reserved
• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS
CETAX - All Rights Reserved
• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR
CETAX - All Rights Reserved
• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR
CETAX - All Rights Reserved
• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO

Mais conteúdo relacionado

Mais procurados

Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e HadoopThiago Santiago
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 
Virtualização e consolidação de servidores
Virtualização e consolidação de servidoresVirtualização e consolidação de servidores
Virtualização e consolidação de servidoresRuy Mendonça
 
Ti verde seu proximo datacenter pode ser um container
Ti verde  seu proximo datacenter pode ser um containerTi verde  seu proximo datacenter pode ser um container
Ti verde seu proximo datacenter pode ser um containerFabio Hara
 
Trabalho data center
Trabalho data centerTrabalho data center
Trabalho data centerRicardo Peres
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Datacenter - Apresentação
Datacenter - ApresentaçãoDatacenter - Apresentação
Datacenter - ApresentaçãoRuy Mendonça
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Felipe Schimith Batista
 
POR DENTRO DO DATACENTER
POR DENTRO DO DATACENTERPOR DENTRO DO DATACENTER
POR DENTRO DO DATACENTERFelipe Matheus
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 

Mais procurados (19)

Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e Hadoop
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
Virtualização e consolidação de servidores
Virtualização e consolidação de servidoresVirtualização e consolidação de servidores
Virtualização e consolidação de servidores
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
Ti verde seu proximo datacenter pode ser um container
Ti verde  seu proximo datacenter pode ser um containerTi verde  seu proximo datacenter pode ser um container
Ti verde seu proximo datacenter pode ser um container
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Como se-monta-um-Data-Center
Como se-monta-um-Data-CenterComo se-monta-um-Data-Center
Como se-monta-um-Data-Center
 
Trabalho data center
Trabalho data centerTrabalho data center
Trabalho data center
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
Hadoop
HadoopHadoop
Hadoop
 
Datacenter - Apresentação
Datacenter - ApresentaçãoDatacenter - Apresentação
Datacenter - Apresentação
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
Big data
Big dataBig data
Big data
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6
 
POR DENTRO DO DATACENTER
POR DENTRO DO DATACENTERPOR DENTRO DO DATACENTER
POR DENTRO DO DATACENTER
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 

Semelhante a Workshop BigData, Hadoop e Data Science - Cetax x Deal

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big datasparsi
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasHumberto Moura
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOSA PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOSRaul Leite
 
Datacenter apresentação
Datacenter   apresentaçãoDatacenter   apresentação
Datacenter apresentaçãoRuy Mendonça
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...Samba Tech
 
Keynote nuvem estaleiro_ics
Keynote nuvem estaleiro_icsKeynote nuvem estaleiro_ics
Keynote nuvem estaleiro_icsHoracio Ibrahim
 
Petic Emgetis
Petic EmgetisPetic Emgetis
Petic Emgetisnetimba
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big dataiseltech
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosPolis Consulting
 

Semelhante a Workshop BigData, Hadoop e Data Science - Cetax x Deal (20)

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data
Big DataBig Data
Big Data
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as Tecnologias
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOSA PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
 
Datacenter apresentação
Datacenter   apresentaçãoDatacenter   apresentação
Datacenter apresentação
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
1 Ids On Campus V3a
1 Ids On Campus V3a1 Ids On Campus V3a
1 Ids On Campus V3a
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big Data
Big DataBig Data
Big Data
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
 
Keynote nuvem estaleiro_ics
Keynote nuvem estaleiro_icsKeynote nuvem estaleiro_ics
Keynote nuvem estaleiro_ics
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Petic Emgetis
Petic EmgetisPetic Emgetis
Petic Emgetis
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big data
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dados
 

Mais de Marco Garcia

Webinar Carreiras de Dados
Webinar Carreiras de DadosWebinar Carreiras de Dados
Webinar Carreiras de DadosMarco Garcia
 
Cases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaCases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaMarco Garcia
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
 
Webinar carreiras dados
Webinar carreiras dadosWebinar carreiras dados
Webinar carreiras dadosMarco Garcia
 
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosCASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosMarco Garcia
 
Using Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessUsing Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessMarco Garcia
 
Integração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxIntegração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxMarco Garcia
 
Construindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataConstruindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataMarco Garcia
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataMarco Garcia
 
Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Marco Garcia
 
Palestra Business Intelligence
Palestra Business IntelligencePalestra Business Intelligence
Palestra Business IntelligenceMarco Garcia
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)Marco Garcia
 
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosCurso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosMarco Garcia
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data WarehouseMarco Garcia
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - PalestraMarco Garcia
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem DimensionalMarco Garcia
 

Mais de Marco Garcia (16)

Webinar Carreiras de Dados
Webinar Carreiras de DadosWebinar Carreiras de Dados
Webinar Carreiras de Dados
 
Cases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaCases Big Data Aplicados a logística
Cases Big Data Aplicados a logística
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado Financeiro
 
Webinar carreiras dados
Webinar carreiras dadosWebinar carreiras dados
Webinar carreiras dados
 
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosCASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
 
Using Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessUsing Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing Business
 
Integração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxIntegração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia Cetax
 
Construindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataConstruindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigData
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 
Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é
 
Palestra Business Intelligence
Palestra Business IntelligencePalestra Business Intelligence
Palestra Business Intelligence
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosCurso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data Warehouse
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - Palestra
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem Dimensional
 

Workshop BigData, Hadoop e Data Science - Cetax x Deal

  • 1. CETAX - All Rights Reserved Workshop : Bigdata e Hadoop e Data Science
  • 2. CETAX - All Rights Reserved • A Cetax é uma empresa de consultoria e treinamento especializada em sistemas de Business Intelligence e Data Warehouse. • Existe desde 2000 trabalhando exclusivamente com BI e DW. • Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil • Outros cursos são ministrados em parcerias com outras empresas do mercado ou mesmo profissionais que possuem experiência diferenciada • Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics) APRESENTAÇÃO CETAX
  • 3. CETAX - All Rights Reserved MARCO ANTONIO GARCIA • 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business Intelligence e Data Warehouse. • MBA pela FGV, Formado pela FATEC em Processamento de Dados. • Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo. • Vivência profissional em diversos projetos, passando por Bancos e Financeiras, Construção, Serviços, Varejo, Marketing e outros. APRESENTAÇÃO - INSTRUTOR
  • 4. CETAX - All Rights Reserved A PALAVRA DO MOMENTO
  • 5. CETAX - All Rights Reserved • Muitas definições podem cercar o assunto : – Alto Volume. – Alta Velocidade. – Diversas Fontes. • Uma combinação de tudo isso e muito mais. • Assim como BI, é um termo “guarda-chuva”. BIG DATA = GRANDES DADOS?
  • 6. CETAX - All Rights Reserved • Além dos sistemas utilizados em empresas de todos os portes, temos milhares de outros dispositivos que geram dados diariamente : – Em 2010 existiam 5 bilhões de celulares no mundo. – Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros examinar em tempo real. – Em pouco tempo teremos muito mais equipamentos ligados a internet gerando informações para análise “internet das coisas” MUITOS DADOS GRANDES
  • 7. CETAX - All Rights Reserved • Big Data = Big Business • Todos os negócios de tecnologia serão beneficiados pelo Big Data BIG DATA = BIG BUSINESS
  • 8. CETAX - All Rights Reserved • Volume – o volume crescente de dados em todas as áreas e empresas, Mb -> Gb -> Tb -> Pb • Velocidade – o tempo necessário para disponibilizar os dados para análise é cada vez menor • Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados não estruturados ou semi estruturados. 3 Vs – UMA DEFINIÇÃO
  • 9. CETAX - All Rights Reserved 3 Vs – DETALHES
  • 10. CETAX - All Rights Reserved • VOLUME • VELOCIDADE • VARIEDADE • VIRTUDE • VALOR 5 Vs – UMA DEFINIÇÃO
  • 11. CETAX - All Rights Reserved • VAST - VASTO, AMPLO • VOLUME - ALTO VOLUME • VIGOROSITY - VIGOR • VERIFIED - VERIFICADOS • VEXINGLY - “ATORMENTADOR” • VARIABLE - VARIAVEIS • VERBOSE - “ELOQUENTE” • VALUABLE - VALIOSOS • VISUALIZED - VISUALIZADOS • VELOCITY - VELOCIDADE 10 Vs – É NECESSÁRIO?
  • 12. CETAX - All Rights Reserved • Big Data representa um conjunto de dados que não pode mais ser zacilmente gerenciado ou analisado com as ferramentas atuais de dados, métodos ou arquitetura disponível até então. BIG DATA – DEFINIÇÃO SIMPLES
  • 13. CETAX - All Rights Reserved • E então ? • Quais softwares serão utilizados ? • Quais devo aprender ? E ENTÃO?
  • 14. CETAX - All Rights Reserved
  • 15. CETAX - All Rights Reserved
  • 16. CETAX - All Rights Reserved
  • 17. CETAX - All Rights Reserved • “Dados são o novo Petróleo” • No ano de 2012 a • Como petróleo, precisam ser refinados ! DATA IS THE NEW OIL!
  • 18. CETAX - All Rights Reserved • Web log • Click stream • Sensor data • Email • Call center voice logs • Images/video • Dados RFID • Dados de Localização e Geográficos • Dados adquiridos no mercado FONTES PARA O BIG DATA
  • 19. CETAX - All Rights Reserved CURVA DE ADOÇÃO DO BIG DATA
  • 20. CETAX - All Rights Reserved • Serviços de Informação – Imagens de Satélites • Varejo – Otimização de Preço, Inteligência de Vídeo • Utilities/Utilidades – Consumo em tempo real • Propaganda – Content Targeting OnLine • Seguros – Detecção de Fraudes • Saúde – Diagnósticos e Detecção. • Manufatura – Controle de Qualidade, Controle de Máquinas EXEMPLOS POR SETOR
  • 21. CETAX - All Rights Reserved • Machine Learning • Sentiments • Text Processing • Image Processing • Video Analytics • Log Parsing • Collaborative Filtering • Context Search • Email & Content APLICAÇÕES POSSÍVEIS – BIG DATA
  • 22. CETAX - All Rights Reserved Categorias Novas Tecnologias Infra Estrutura Big Data e Data Warehouse Appliances Tecnologias In-Memory SSD Storage Fast Networks Cloud Computing Tecnologias Móveis Softwares In-Memory Databases Hadoop, Cassandra e NoSQL Databases Colunar DBMS ETLs com integração Hadoop – Informatica, Talend, etc. Algoritimos Python, Scala, R, Mahout Arquiteturas Pré- Configuradas IBM, Teradata, Kognitio, EMC, Cloudera, HortonWorks, Cirro, Intel, Cisco UCS, Pivotal, Oracle , MapR INOVAÇÕES SÃO NECESSÁRIAS
  • 23. CETAX - All Rights Reserved • Alguma variações de NoSQL Databases : • XML ( myXMLB, Tamino, Sedna ) • Wide Column (Cassandra, Hbase, Big Table) • Key/Value (Redis, Memcached comBerkley DB) • Graph ( neo4j, InfoGrid ) • Document Store ( CouchDB, MongoDB ) NOSQL
  • 24. CETAX - All Rights Reserved PANORAMA DE BANCO DE DADOS
  • 25. CETAX - All Rights Reserved UMA APOSTA? Hadoop e Open Sources
  • 26. CETAX - All Rights Reserved • Criado dentro do Yahoo em 2005. • O nome Hadoop não é um acrônimo, é o nome do Elefante de brinquedo do filho de Doug Cutting. • O Hadoop tem como base um file system para armazenamento rápido e barato de dados ! • Tem como objetivo o processamento de grandes datasets de dados com modelos simples de programação HADOOP SURGE COMO ALTERNATIVA
  • 27. CETAX - All Rights Reserved Cluster Hadoop core switch top-of-rack switches Master Nodes – Mantém os Serviços e a Coordenação dos Jobs de dados Worker Nodes – rodam o processamento e armazenamento dos Dados Clientes de Acesso, também chamados de Gateway Node ou Edge Node
  • 28. CETAX - All Rights Reserved Big Data e Hadoop PARTE 2 – ENTENDENDO HADOOP ARMAZENAMENTO E PROCESSAMENTO
  • 29. CETAX - All Rights Reserved “I’m still here! This is my latest heartbeat.” “I’m here too! And here is my latest heartbeat.” 123 “Hey DataNode1, Replicate block 123 to DataNode 3.” NameNode DataNode 1 DataNode 3 DataNode 4 123 123 DataNode 2 THE NameNodes
  • 30. CETAX - All Rights Reserved 1. Client sends a request to the NameNode to add a file to HDFS. 3. For every block, the client will request the NameNode to provide a new blockid and a list of destination DataNodes. 4. The client will write the block directly to the first DataNode in the list. 5. The first DataNode pipelines the replication to the next DataNode in the list. NameNode DataNode 1 DataNode 2 DataNode 3 2. NameNode gives client a lease to the file path.
  • 31. CETAX - All Rights Reserved Break a large problem into sub-solutions Map Process Map Process Map Process Map Process Data Data Data Data Data Data Data Data Data Data Data Data Data Map Process Reduce Process Reduce Process Data Read & ETL Shuffle & Sort Aggregation Data Data Data Data Data Data Data Data WHAT IS MAPREDUCE?
  • 32. CETAX - All Rights Reserved HDFS constitution.txt The mappers read the file’s blocks from HDFS line-by-line 1 We the people, in order to form a... The lines of text are split into words and output to the reducers 2 The shuffle/sort phase combines pairs with the same key 3 The reducers add up the “1’s” and output the word and its count 4 <We, 1> <the,1> <people,1> <in,1> <order, 1> <to,1> <form,1> <a,1> <We, (1,1,1,1)> <the, (1,1,1,1,1,1,1,...)> <people,(1,1,1,1,1)> <form, (1)><We,4> <the,265> <people,5> <form,1> HDFS WORDCOUNT IN MAPREDUCE
  • 33. CETAX - All Rights Reserved Data is shuffled across the network and sorted Map Phase Shuffle/Sort Reduce Phase DataNode Mapper DataNode Mapper DataNode Mapper DataNode Reducer DataNode DataNode Reducer SELECT word, COUNT(*) FROM constitution WHERE…. GROUP BY (word) ORDER BY JOIN DISTINCT Hive/Pig compile as Reduce side function Examples of more Reduce side functions
  • 34. CETAX - All Rights Reserved Client submits an application 1 The AsM finds an appropriate NodeManager 2 ResourceManager NodeManager NodeManager creates an ApplicationMaster 3 ApplicationMaster Containers execute their given task on NodeManagers in the cluster AM asks RM for resources. RM provides a list of Containers to AM 4 5 LIFECYCLE OF A YARN APPLICATION
  • 35. CETAX - All Rights Reserved Big Data e Hadoop PARTE 3 – INTEGRAÇÃO DE DADOS
  • 36. CETAX - All Rights Reserved MapReduce WebHDFS hadoop fs -put Vendor Connectors Hadoop nfs gateway Hue Explorer INTEGRAÇÃO DE DADOS
  • 37. CETAX - All Rights Reserved Relational Database Enterprise Data Warehouse Document-based Systems 1. Client executes a sqoop command 2. Sqoop executes the command as a MapReduce job on the cluster (using Map-only tasks) 3. Plugins provide connectivity to various data sources Hadoop ClusterMap tasks OVERVIEW OF SQOOP: DATABASE IMPORT/EXPORT
  • 38. CETAX - All Rights Reserved Big Data e Hadoop PARTE 4 – PROCESSAMENTO DE DADOS
  • 39. CETAX - All Rights Reserved • An engine for executing programs on top of Hadoop • It provides a language, Pig Latin, to specify these programs HADOOP ECOSYSTEM: PIG
  • 40. CETAX - All Rights Reserved Sensor Mobile Weblog Operational/MPP Store and query all data in Hive Use existing SQL tools and existing SQL processes NN RM HADOOP ECOSYSTEM: HIVE
  • 41. CETAX - All Rights Reserved • Data warehouse system for Hadoop • Create schemas/table definitions that point to data in Hadoop • Treat your data in Hadoop as tables • SQL 92 • Interactive queries at scale WHAT IS HIVE?
  • 42. CETAX - All Rights Reserved SQL Datatypes SQL Semantics INT SELECT, LOAD, INSERT from query TINYINT/SMALLINT/BIGINT Expressions in WHERE and HAVING BOOLEAN GROUP BY, ORDER BY, SORT BY FLOAT CLUSTER BY, DISTRIBUTE BY DOUBLE Sub-queries in FROM clause STRING GROUP BY, ORDER BY BINARY ROLLUP and CUBE TIMESTAMP UNION ARRAY, MAP, STRUCT, UNION LEFT, RIGHT and FULL INNER/OUTER JOIN DECIMAL CROSS JOIN, LEFT SEMI JOIN CHAR Windowing functions (OVER, RANK, etc.) VARCHAR Sub-queries for IN/NOT IN, HAVING DATE EXISTS / NOT EXISTS INTERSECT, EXCEPT HIVEQL
  • 43. CETAX - All Rights Reserved User issues SQL query Hive parses and plans query Query converted to MapReduce and executed on Hadoop 2 3 Web UI JDBC / ODBC CLI Hive SQL 1 1 HiveServer2 Hive MR/Tez Compiler Optimizer Executor 2 Hive MetaStore (MySQL, Postgresql, Oracle) MapReduce or Tez Job Data DataData Hadoop 3Data-local processing HIVE ARCHITECTURE
  • 44. CETAX - All Rights Reserved Big Data e Hadoop PARTE 5 - INTRODUCING APACHE SPARK
  • 45. CETAX - All Rights Reserved • The origin of Apache Spark • Rapid rate of growth of the Spark ecosystem • Spark use cases • Major differences between Spark and MapReduce TOPICS COVERED
  • 46. CETAX - All Rights Reserved THE SPARK ECOSYSTEM
  • 47. CETAX - All Rights Reserved • Elegant Developer APIs: Data Frames/SQL, Machine Learning, Graph algorithms and streaming – Scala, Python, Java and R – Single environment for importing, transforming, and exporting data • In-memory computation model – Effective for iterative computations • High level API – Allows users to focus on the business logic and not internals WHY SPARK?
  • 48. CETAX - All Rights Reserved • Supports wide variety of workloads – Mllib for Data Scientists – Spark SQL for Data Analysts – Spark Streaming for micro batch use cases – Spark Core, SQL, Streaming, Mllib, and GraphX for Data Processing Applications • Integrated fully with Hadoop and an open source tool • Faster than MapReduce WHY SPARK CONT.
  • 49. CETAX - All Rights Reserved • Higher level API • In-memory data storage – Up to 100x performance improvement pyspark Java MapReduce SPARK vs MAPREDUCE
  • 50. CETAX - All Rights Reserved • Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto. • Ciência que estuda as informações, seu processo de captura, transformação, geração e análise de dados. • A Ciência de dados envolve diversas disciplinas como : • Computação • Estatística • Matemática • Conhecimento do Negócio CIÊNCIA DE DADOS
  • 51. CETAX - All Rights Reserved CIÊNCIA DE DADOS
  • 52. CETAX - All Rights Reserved REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
  • 53. CETAX - All Rights Reserved • Profissional Multidisciplinar responsável por transformar dados em informações ou produtos de informações dentro de uma corporação. • Deve ser responsável pela formulação dos problemas, escolha de modelos de simulação e estatística e entrega dos produtos de dados. DEFINIÇÃO – CIENTISTA DE DADOS
  • 54. CETAX - All Rights Reserved • Data Scientist – Participa da formulação do problema, hipóteses de resolução e análise de resultados. • Business Analyst – Analisa os dados gerados em relação ao negócio ou empresa avaliada • Data Analyst – responsável por analisar os dados disponibilizados em busca de solução para o problemas enfrentados DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
  • 55. CETAX - All Rights Reserved • Para trabalhar com Big Data acreditamos que o melhor caminho seria conhecer as ferramentas utilizadas • Ter perfil misto : técnico e negócios • Conhecer de Business Inteligence e Data Warehouse • Entender os processos da empresa • Conhecer estatística e matemática QUERO TRABALHAR COM BIG DATA
  • 56. CETAX - All Rights Reserved • Vemos 3 papéis claros: • Cientista ou Analista de Dados • Desenvolvedor • Administrador PAPEIS E FUNÇÕES
  • 57. CETAX - All Rights Reserved • Responsável por atender as demandas das áreas de negócio ou planejamento da empresa. • Participa da formulação dos problemas e respostas. • Nível mais próximo ao negócio • Deve conhecer as ferramentas de consulta e acesso aos dados. • Deveria conhecer estatística ANALISTA DE DADOS
  • 58. CETAX - All Rights Reserved • Responsável por Desenvolver os processos necessários para geração dos dados. • Processos de Captura, Transformação e Carga de Dados. • Deve conhecer tecnicamente as ferramentas envolvidadas • Deve conhecer sobre programação • Será responsável pelo desenvolvimento de novas rotinas e processos. DESENVOLVEDOR
  • 59. CETAX - All Rights Reserved • Responsável por manter os ambientes e ferramentas funcionando da melhor maneira. • Deve conhecer sobre os sistemas operacionais utilizados, principalmente Linux. • Deve conhecer sobre arquitetura de hardware e redes para garantir a melhor performance. • Deve conhecer sobre os processos de Tunning das ferramentas. ADMINISTRADOR
  • 60. CETAX - All Rights Reserved • Programação – as ferramentas ainda são pouco automatizadas na geração de código. • Linux – a maioria dos softwares rodam em Linux, é necessário conhecer comandos básicos para execução de processos. • Modelagem de Dados CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
  • 61. CETAX - All Rights Reserved • Conhecer sobre o negócio ou sobre os processos da empresa. • Conhecer ou ter noções mínimas de estatística e matemática aplicada a dados. CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
  • 62. CETAX - All Rights Reserved • Perguntas ? • Não deixem de acessar nosso site e se cadastrem para as promoções, vagas: www.cetax.com.br MUITO OBRIGADO! FINALIZANDO

Notas do Editor

  1. 2
  2. 3
  3. A tempos não temos uma palavra tão forte no cenário de informática como Big Data ! O termo está sendo falado em todos os tipos de negócios, cursos, etc.
  4. O termo é recente, muitas possibilidades, muitas definições ( algumas ainda vagas ) O mercado está em formação muitas coisas estão ainda acontecendo e muitas ainda estão por vir. O que é certo : Big Data é uma tendência que vai mudar a maneira em que analisamos os dados em qualquer tipo de negócio !
  5. O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês. A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube. Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS. O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
  6. Fonte Imagem – Nasscom e Reuters
  7. Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações. Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio. Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
  8. http://beyondplm.com/2013/10/14/will-plm-data-size-reach-yottabytes/ Detalhamento sobre os 3 V’s.
  9. Alguns estudiosos acrescentaram mais V’s a definição de big data
  10. Existe até essa definição de 10 V’s do Big Data. Mas seria ela necessária ?
  11. Definição simples e direta, algo que não pode mais ser feito com as ferramentas atuais !
  12. O que temos que fazer ? Quais softwares serão usados ?
  13. Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  14. Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  15. Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  16. Os dados podem ser o novo petróleo, a nova corrida que as empresas vão enfrentar para multiplicar seus lucros! A correta coleta, processamento e análise dos dados podem ser um diferencial competitivo a todos os negócios. Claro, como petróleo, os dados também precisam ser refinados para um melhor resultado.
  17. Essa lista é um exemplo de possíveis fontes, mas deveremos ter muito mais fontes. As novas ferramentas permitem conexão e captura de dados em diversas categorias de softwares ou mesmo equipamentos eletrônicos que permita captura de dados. Claro que além dos dados tradicionais que hoje buscamos em outros sistemas, bancos de dados e arquivos de texto.
  18. Curva de Adoção de Big Data : Innovators / Inovadores – nessa categoria temos as empresas de Internet, Tecnologia e Varejistas Early Adopters / Adiantados – Mercado Financeiro Early Majority / Adiantados a Maioria – Utilities, Infraestrutura, Serviços Públicos Late Majority / Atrasados a Maioria – Manufatura, Saúde Laggards / Preguiçosos
  19. Alguns Exemplos de Big Data por Setor
  20. Algumas aplicações possíveis ( atualmente ) em Big Data
  21. As novas tecnologias disponíveis tem auxiliado a evoluir com Big Data. Todas as tecnologias tem permitido captura, processar e analisar grandes volumes de dados.
  22. Fonte : https://blogs.the451group.com/information_management/files/2011/04/Figures-Aslett_web.jpg
  23. 25
  24. O Hadoop surge para auxiliar nos “problemas” gerados pelos grandes volumes de dados.
  25. This is an illustration of a Hadoop cluster. A Hadoop cluster comprises several components; the primary ones being the master and slave nodes. Master nodes manage and coordinate cluster services and tasks. They are master nodes because they have various Hadoop master processes running on them. For example, a master node runs the NameNode process that coordinates Hadoop storage operations. A single master machine can run all of the Hadoop master processes. However for better scalability, and higher availability, is is common to have the various Hadoop master processes spread across multiple master nodes. Slave nodes provide the CPU, memory, and local disk resources to store and process data. They are slave nodes because they have various Hadoop slave processes running on them. For example, a slave node runs a DataNode process that works under the management of the NameNode. The DataNode does the actual work of reading and writing data blocks to storage. A Hadoop cluster is easily scaled up by adding additional slave machines. The Hadoop client machine has only the Hadoop client-side software installed on it. The software is used to access Hadoop tools and applications used to manage the cluster or process data. It is common for Hadoop to be deployed on rack-based servers. Many server rack and blade chassis configurations are possible. In the illustration, each rack of machines has a top-of-the-rack network switch for intra-rack communication. Each top-of-the-rack switch is also connected to a core switch used for inter-rack and cluster-to-client communications.
  26. Spark consists of a core library. It was then built upon by Spark SQL, Streaming, ML-Lib and GraphX. Spark SQL and Dataframe have exploded in popularity recently as there have been many performance improvements. GraphX is very new and currently not supported by anyone.
  27. Spark was built with the developer in mind. Spark has very elegant API’s which seek to minimize the “plumbing” that developers traditionally had to worry about. Spark provides APIs that allow developers to focus on the business logic, and not the internals. Spark has brought forward in-memory computation for hadoop. This allows large amounts of data to be stored in memory, and quickly access them. Some applications have seen a 100x speed increase due to these new abilities. Spark also provides a single framework for most data processing needs.
  28. Spark took concepts from MapReduce, identified bottlenecks and inefficiencies, along with developer feedback and created an elegant solution attempting to address most of the concerns. That being said, spark allow for a wide variety of user types, to do a wide variety of data operations. Mllib was integrated for data scientists. Spark SQL was created to enable traditional sql analysts a familiar interface for interacting with large amounts of data. Spark also introduced spark stream to cover micro batch uses cases. Spark allows users to switch between frameworks with minimal differences in coding, to increase the flexibility of applications users can develop. Spark is fully integrated with Hadoop, and an open source too.
  29. “up to” does NOT mean “guaranteed” and really depends on the use case Pictured are the WordCount implementation in Spark using Python API and Java MapReduce. We can see immediate how much plumbing is removed when we implement a simple word count. Spark can perform wordcount in ~3 lines of code, where as MapReduce requires over 50. In addition, when taking advantage of in memory storage, Spark performs over 100x faster then tradition MapReduce when doing a logistic regresstion. Slide shows a comparison with Java MapReduce, but a more “fair” comparison is with Pig as seen at http://hortonworks.com/hadoop-tutorial/word-counting-with-apache-pig/
  30. Data Science ou Ciência de Dados Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto.