Workshop BigData, Hadoop e Data Science - Cetax x Deal

CETAX - All Rights Reserved
Workshop :
Bigdata e Hadoop e Data Science

• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX

MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR

A PALAVRA DO MOMENTO

• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?

• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES

• Big Data = Big Business
• Todos os negócios de tecnologia serão
beneficiados pelo Big Data
BIG DATA = BIG BUSINESS

• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO

3 Vs – DETALHES

• VOLUME
• VELOCIDADE
• VARIEDADE
• VIRTUDE
• VALOR
5 Vs – UMA DEFINIÇÃO

• VAST - VASTO, AMPLO
• VOLUME - ALTO VOLUME
• VIGOROSITY - VIGOR
• VERIFIED - VERIFICADOS
• VEXINGLY - “ATORMENTADOR”
• VARIABLE - VARIAVEIS
• VERBOSE - “ELOQUENTE”
• VALUABLE - VALIOSOS
• VISUALIZED - VISUALIZADOS
• VELOCITY - VELOCIDADE
10 Vs – É NECESSÁRIO?

• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES

• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?

• “Dados são o novo Petróleo”
• No ano de 2012 a
• Como petróleo, precisam ser refinados !
DATA IS THE NEW OIL!

• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA

CURVA DE ADOÇÃO DO BIG DATA

• Serviços de Informação – Imagens de Satélites
• Varejo – Otimização de Preço, Inteligência de Vídeo
• Utilities/Utilidades – Consumo em tempo real
• Propaganda – Content Targeting OnLine
• Seguros – Detecção de Fraudes
• Saúde – Diagnósticos e Detecção.
• Manufatura – Controle de Qualidade, Controle de Máquinas
EXEMPLOS POR SETOR

• Machine Learning
• Sentiments
• Text Processing
• Image Processing
• Video Analytics
• Log Parsing
• Collaborative Filtering
• Context Search
• Email & Content
APLICAÇÕES POSSÍVEIS – BIG DATA

Categorias Novas Tecnologias
Infra Estrutura Big Data e Data Warehouse Appliances
Tecnologias In-Memory
SSD Storage
Fast Networks
Cloud Computing
Tecnologias Móveis
Softwares In-Memory Databases
Hadoop, Cassandra e NoSQL Databases
Colunar DBMS
ETLs com integração Hadoop – Informatica, Talend, etc.
Algoritimos Python, Scala, R, Mahout
Arquiteturas Pré-
Configuradas
IBM, Teradata, Kognitio, EMC, Cloudera, HortonWorks, Cirro,
Intel, Cisco UCS, Pivotal, Oracle , MapR
INOVAÇÕES SÃO NECESSÁRIAS

• Alguma variações de NoSQL Databases :
• XML ( myXMLB, Tamino, Sedna )
• Wide Column (Cassandra, Hbase, Big Table)
• Key/Value (Redis, Memcached comBerkley DB)
• Graph ( neo4j, InfoGrid )
• Document Store ( CouchDB, MongoDB )
NOSQL

PANORAMA DE BANCO DE DADOS

UMA APOSTA? Hadoop e Open Sources

• Criado dentro do Yahoo em 2005.
• O nome Hadoop não é um acrônimo, é o nome do Elefante de
brinquedo do filho de Doug Cutting.
• O Hadoop tem como base um file system para armazenamento
rápido e barato de dados !
• Tem como objetivo o processamento de grandes datasets de dados
com modelos simples de programação
HADOOP SURGE COMO ALTERNATIVA

Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node

Big Data e Hadoop
PARTE 2 – ENTENDENDO HADOOP
ARMAZENAMENTO E PROCESSAMENTO

“I’m still here! This is
my latest heartbeat.”
“I’m here too! And
here is my latest
heartbeat.”
123
“Hey DataNode1,
Replicate block 123 to
DataNode 3.”
NameNode
DataNode 1 DataNode 3 DataNode 4
123 123
DataNode 2
THE NameNodes

1. Client sends a request to the
NameNode to add a file to
HDFS.
3. For every block, the client will request the NameNode to provide a new blockid
and a list of destination DataNodes.
4. The client will write the block directly to the first DataNode in the list.
5. The first DataNode pipelines the replication to the next DataNode in the list.
NameNode
DataNode 1 DataNode 2 DataNode 3
2. NameNode gives client a
lease to the file path.

Break a large problem into sub-solutions
Map Process
Map Process
Map Process
Map Process
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data Map Process
Reduce
Process
Reduce
Process
Data
Read & ETL
Shuffle & Sort
Aggregation
Data
Data
Data
Data
Data
Data
Data
Data
WHAT IS MAPREDUCE?

HDFS
constitution.txt The mappers read the file’s
blocks from HDFS line-by-line
1
We the people, in order to form a...
The lines of text are split
into words and output to
the reducers
2
The shuffle/sort phase
combines pairs with the
same key
3
The reducers add up the
“1’s” and output the word
and its count
4
<We, 1>
<the,1>
<people,1>
<in,1>
<order, 1>
<to,1>
<form,1>
<a,1>
<We, (1,1,1,1)>
<the, (1,1,1,1,1,1,1,...)>
<people,(1,1,1,1,1)>
<form, (1)><We,4>
<the,265>
<people,5>
<form,1>
HDFS
WORDCOUNT IN MAPREDUCE

Data is shuffled
across the network
and sorted
Map Phase Shuffle/Sort Reduce Phase
DataNode
Mapper
DataNode
Mapper
DataNode
Mapper
DataNode
Reducer
DataNode
DataNode
Reducer
SELECT word, COUNT(*)
FROM constitution
WHERE….
GROUP BY (word)
ORDER BY
JOIN
DISTINCT
Hive/Pig compile as
Reduce side function
Examples of more
Reduce side
functions

Client submits an
application
1 The AsM finds an appropriate
NodeManager
2
ResourceManager
NodeManager
NodeManager creates an
ApplicationMaster
3
ApplicationMaster
Containers execute their given
task on NodeManagers in the
cluster
AM asks RM for resources. RM
provides a list of Containers to
AM
4
5
LIFECYCLE OF A YARN APPLICATION

Big Data e Hadoop
PARTE 3 – INTEGRAÇÃO DE DADOS

MapReduce
WebHDFS
hadoop fs -put
Vendor Connectors
Hadoop
nfs gateway
Hue Explorer
INTEGRAÇÃO DE DADOS

Relational
Database
Enterprise
Data Warehouse
Document-based
Systems
1. Client executes a sqoop
command
2. Sqoop executes the command
as a MapReduce job on the
cluster (using Map-only tasks)
3. Plugins provide connectivity to various data
sources
Hadoop ClusterMap
tasks
OVERVIEW OF SQOOP: DATABASE IMPORT/EXPORT

Big Data e Hadoop
PARTE 4 – PROCESSAMENTO DE DADOS

• An engine for executing programs on top of Hadoop
• It provides a language, Pig Latin, to specify these programs
HADOOP ECOSYSTEM: PIG

Sensor
Mobile
Weblog
Operational/MPP
Store and query all data in Hive
Use existing SQL tools and existing SQL processes
NN
RM
HADOOP ECOSYSTEM: HIVE

• Data warehouse system for Hadoop
• Create schemas/table definitions that point to data in Hadoop
• Treat your data in Hadoop as tables
• SQL 92
• Interactive queries at scale
WHAT IS HIVE?

SQL Datatypes SQL Semantics
INT SELECT, LOAD, INSERT from query
TINYINT/SMALLINT/BIGINT Expressions in WHERE and HAVING
BOOLEAN GROUP BY, ORDER BY, SORT BY
FLOAT CLUSTER BY, DISTRIBUTE BY
DOUBLE Sub-queries in FROM clause
STRING GROUP BY, ORDER BY
BINARY ROLLUP and CUBE
TIMESTAMP UNION
ARRAY, MAP, STRUCT, UNION LEFT, RIGHT and FULL INNER/OUTER JOIN
DECIMAL CROSS JOIN, LEFT SEMI JOIN
CHAR Windowing functions (OVER, RANK, etc.)
VARCHAR Sub-queries for IN/NOT IN, HAVING
DATE EXISTS / NOT EXISTS
INTERSECT, EXCEPT
HIVEQL

User issues SQL query
Hive parses and plans query
Query converted to MapReduce
and executed on Hadoop
2
3
Web UI
JDBC /
ODBC
CLI
Hive
SQL
1
1
HiveServer2 Hive
MR/Tez
Compiler
Optimizer
Executor
2
Hive
MetaStore
(MySQL, Postgresql, Oracle)
MapReduce or Tez Job
Data DataData
Hadoop 3Data-local processing
HIVE ARCHITECTURE

Big Data e Hadoop
PARTE 5 - INTRODUCING APACHE SPARK

• The origin of Apache Spark
• Rapid rate of growth of the Spark ecosystem
• Spark use cases
• Major differences between Spark and MapReduce
TOPICS COVERED

THE SPARK ECOSYSTEM

• Elegant Developer APIs: Data Frames/SQL, Machine Learning, Graph
algorithms and streaming
– Scala, Python, Java and R
– Single environment for importing, transforming, and exporting
data
• In-memory computation model
– Effective for iterative computations
• High level API
– Allows users to focus on the business logic and not internals
WHY SPARK?

• Supports wide variety of workloads
– Mllib for Data Scientists
– Spark SQL for Data Analysts
– Spark Streaming for micro batch use cases
– Spark Core, SQL, Streaming, Mllib, and GraphX for Data Processing
Applications
• Integrated fully with Hadoop and an open source tool
• Faster than MapReduce
WHY SPARK CONT.

• Higher level API
• In-memory data storage
– Up to 100x performance
improvement
pyspark
Java MapReduce
SPARK vs MAPREDUCE

• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS

CIÊNCIA DE DADOS

REQUISITOS ESPERADOS DO CIENTISTA DE DADOS

• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS

• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST

• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA

• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES

• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS

• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR

• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR

• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA

• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA

• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO

Workshop BigData, Hadoop e Data Science - Cetax x Deal

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Semelhante a Workshop BigData, Hadoop e Data Science - Cetax x Deal

Semelhante a Workshop BigData, Hadoop e Data Science - Cetax x Deal (20)

Mais de Marco Garcia

Mais de Marco Garcia (16)

Workshop BigData, Hadoop e Data Science - Cetax x Deal

Notas do Editor