Nesse workshop feito na Deal, falamos sobre alguns aspectos de bigdata e hadoop, passando por seus componentes, além de abordar um pouco de Data Science
Workshop BigData, Hadoop e Data Science - Cetax x Deal
1. CETAX - All Rights Reserved
Workshop :
Bigdata e Hadoop e Data Science
2. CETAX - All Rights Reserved
• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX
3. CETAX - All Rights Reserved
MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR
4. CETAX - All Rights Reserved
A PALAVRA DO MOMENTO
5. CETAX - All Rights Reserved
• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?
6. CETAX - All Rights Reserved
• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES
7. CETAX - All Rights Reserved
• Big Data = Big Business
• Todos os negócios de tecnologia serão
beneficiados pelo Big Data
BIG DATA = BIG BUSINESS
8. CETAX - All Rights Reserved
• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO
12. CETAX - All Rights Reserved
• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES
13. CETAX - All Rights Reserved
• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?
17. CETAX - All Rights Reserved
• “Dados são o novo Petróleo”
• No ano de 2012 a
• Como petróleo, precisam ser refinados !
DATA IS THE NEW OIL!
18. CETAX - All Rights Reserved
• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA
19. CETAX - All Rights Reserved
CURVA DE ADOÇÃO DO BIG DATA
20. CETAX - All Rights Reserved
• Serviços de Informação – Imagens de Satélites
• Varejo – Otimização de Preço, Inteligência de Vídeo
• Utilities/Utilidades – Consumo em tempo real
• Propaganda – Content Targeting OnLine
• Seguros – Detecção de Fraudes
• Saúde – Diagnósticos e Detecção.
• Manufatura – Controle de Qualidade, Controle de Máquinas
EXEMPLOS POR SETOR
21. CETAX - All Rights Reserved
• Machine Learning
• Sentiments
• Text Processing
• Image Processing
• Video Analytics
• Log Parsing
• Collaborative Filtering
• Context Search
• Email & Content
APLICAÇÕES POSSÍVEIS – BIG DATA
22. CETAX - All Rights Reserved
Categorias Novas Tecnologias
Infra Estrutura Big Data e Data Warehouse Appliances
Tecnologias In-Memory
SSD Storage
Fast Networks
Cloud Computing
Tecnologias Móveis
Softwares In-Memory Databases
Hadoop, Cassandra e NoSQL Databases
Colunar DBMS
ETLs com integração Hadoop – Informatica, Talend, etc.
Algoritimos Python, Scala, R, Mahout
Arquiteturas Pré-
Configuradas
IBM, Teradata, Kognitio, EMC, Cloudera, HortonWorks, Cirro,
Intel, Cisco UCS, Pivotal, Oracle , MapR
INOVAÇÕES SÃO NECESSÁRIAS
23. CETAX - All Rights Reserved
• Alguma variações de NoSQL Databases :
• XML ( myXMLB, Tamino, Sedna )
• Wide Column (Cassandra, Hbase, Big Table)
• Key/Value (Redis, Memcached comBerkley DB)
• Graph ( neo4j, InfoGrid )
• Document Store ( CouchDB, MongoDB )
NOSQL
24. CETAX - All Rights Reserved
PANORAMA DE BANCO DE DADOS
25. CETAX - All Rights Reserved
UMA APOSTA? Hadoop e Open Sources
26. CETAX - All Rights Reserved
• Criado dentro do Yahoo em 2005.
• O nome Hadoop não é um acrônimo, é o nome do Elefante de
brinquedo do filho de Doug Cutting.
• O Hadoop tem como base um file system para armazenamento
rápido e barato de dados !
• Tem como objetivo o processamento de grandes datasets de dados
com modelos simples de programação
HADOOP SURGE COMO ALTERNATIVA
27. CETAX - All Rights Reserved
Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node
28. CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 2 – ENTENDENDO HADOOP
ARMAZENAMENTO E PROCESSAMENTO
29. CETAX - All Rights Reserved
“I’m still here! This is
my latest heartbeat.”
“I’m here too! And
here is my latest
heartbeat.”
123
“Hey DataNode1,
Replicate block 123 to
DataNode 3.”
NameNode
DataNode 1 DataNode 3 DataNode 4
123 123
DataNode 2
THE NameNodes
30. CETAX - All Rights Reserved
1. Client sends a request to the
NameNode to add a file to
HDFS.
3. For every block, the client will request the NameNode to provide a new blockid
and a list of destination DataNodes.
4. The client will write the block directly to the first DataNode in the list.
5. The first DataNode pipelines the replication to the next DataNode in the list.
NameNode
DataNode 1 DataNode 2 DataNode 3
2. NameNode gives client a
lease to the file path.
31. CETAX - All Rights Reserved
Break a large problem into sub-solutions
Map Process
Map Process
Map Process
Map Process
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data Map Process
Reduce
Process
Reduce
Process
Data
Read & ETL
Shuffle & Sort
Aggregation
Data
Data
Data
Data
Data
Data
Data
Data
WHAT IS MAPREDUCE?
32. CETAX - All Rights Reserved
HDFS
constitution.txt The mappers read the file’s
blocks from HDFS line-by-line
1
We the people, in order to form a...
The lines of text are split
into words and output to
the reducers
2
The shuffle/sort phase
combines pairs with the
same key
3
The reducers add up the
“1’s” and output the word
and its count
4
<We, 1>
<the,1>
<people,1>
<in,1>
<order, 1>
<to,1>
<form,1>
<a,1>
<We, (1,1,1,1)>
<the, (1,1,1,1,1,1,1,...)>
<people,(1,1,1,1,1)>
<form, (1)><We,4>
<the,265>
<people,5>
<form,1>
HDFS
WORDCOUNT IN MAPREDUCE
33. CETAX - All Rights Reserved
Data is shuffled
across the network
and sorted
Map Phase Shuffle/Sort Reduce Phase
DataNode
Mapper
DataNode
Mapper
DataNode
Mapper
DataNode
Reducer
DataNode
DataNode
Reducer
SELECT word, COUNT(*)
FROM constitution
WHERE….
GROUP BY (word)
ORDER BY
JOIN
DISTINCT
Hive/Pig compile as
Reduce side function
Examples of more
Reduce side
functions
34. CETAX - All Rights Reserved
Client submits an
application
1 The AsM finds an appropriate
NodeManager
2
ResourceManager
NodeManager
NodeManager creates an
ApplicationMaster
3
ApplicationMaster
Containers execute their given
task on NodeManagers in the
cluster
AM asks RM for resources. RM
provides a list of Containers to
AM
4
5
LIFECYCLE OF A YARN APPLICATION
35. CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 3 – INTEGRAÇÃO DE DADOS
36. CETAX - All Rights Reserved
MapReduce
WebHDFS
hadoop fs -put
Vendor Connectors
Hadoop
nfs gateway
Hue Explorer
INTEGRAÇÃO DE DADOS
37. CETAX - All Rights Reserved
Relational
Database
Enterprise
Data Warehouse
Document-based
Systems
1. Client executes a sqoop
command
2. Sqoop executes the command
as a MapReduce job on the
cluster (using Map-only tasks)
3. Plugins provide connectivity to various data
sources
Hadoop ClusterMap
tasks
OVERVIEW OF SQOOP: DATABASE IMPORT/EXPORT
38. CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 4 – PROCESSAMENTO DE DADOS
39. CETAX - All Rights Reserved
• An engine for executing programs on top of Hadoop
• It provides a language, Pig Latin, to specify these programs
HADOOP ECOSYSTEM: PIG
40. CETAX - All Rights Reserved
Sensor
Mobile
Weblog
Operational/MPP
Store and query all data in Hive
Use existing SQL tools and existing SQL processes
NN
RM
HADOOP ECOSYSTEM: HIVE
41. CETAX - All Rights Reserved
• Data warehouse system for Hadoop
• Create schemas/table definitions that point to data in Hadoop
• Treat your data in Hadoop as tables
• SQL 92
• Interactive queries at scale
WHAT IS HIVE?
42. CETAX - All Rights Reserved
SQL Datatypes SQL Semantics
INT SELECT, LOAD, INSERT from query
TINYINT/SMALLINT/BIGINT Expressions in WHERE and HAVING
BOOLEAN GROUP BY, ORDER BY, SORT BY
FLOAT CLUSTER BY, DISTRIBUTE BY
DOUBLE Sub-queries in FROM clause
STRING GROUP BY, ORDER BY
BINARY ROLLUP and CUBE
TIMESTAMP UNION
ARRAY, MAP, STRUCT, UNION LEFT, RIGHT and FULL INNER/OUTER JOIN
DECIMAL CROSS JOIN, LEFT SEMI JOIN
CHAR Windowing functions (OVER, RANK, etc.)
VARCHAR Sub-queries for IN/NOT IN, HAVING
DATE EXISTS / NOT EXISTS
INTERSECT, EXCEPT
HIVEQL
43. CETAX - All Rights Reserved
User issues SQL query
Hive parses and plans query
Query converted to MapReduce
and executed on Hadoop
2
3
Web UI
JDBC /
ODBC
CLI
Hive
SQL
1
1
HiveServer2 Hive
MR/Tez
Compiler
Optimizer
Executor
2
Hive
MetaStore
(MySQL, Postgresql, Oracle)
MapReduce or Tez Job
Data DataData
Hadoop 3Data-local processing
HIVE ARCHITECTURE
44. CETAX - All Rights Reserved
Big Data e Hadoop
PARTE 5 - INTRODUCING APACHE SPARK
45. CETAX - All Rights Reserved
• The origin of Apache Spark
• Rapid rate of growth of the Spark ecosystem
• Spark use cases
• Major differences between Spark and MapReduce
TOPICS COVERED
46. CETAX - All Rights Reserved
THE SPARK ECOSYSTEM
47. CETAX - All Rights Reserved
• Elegant Developer APIs: Data Frames/SQL, Machine Learning, Graph
algorithms and streaming
– Scala, Python, Java and R
– Single environment for importing, transforming, and exporting
data
• In-memory computation model
– Effective for iterative computations
• High level API
– Allows users to focus on the business logic and not internals
WHY SPARK?
48. CETAX - All Rights Reserved
• Supports wide variety of workloads
– Mllib for Data Scientists
– Spark SQL for Data Analysts
– Spark Streaming for micro batch use cases
– Spark Core, SQL, Streaming, Mllib, and GraphX for Data Processing
Applications
• Integrated fully with Hadoop and an open source tool
• Faster than MapReduce
WHY SPARK CONT.
49. CETAX - All Rights Reserved
• Higher level API
• In-memory data storage
– Up to 100x performance
improvement
pyspark
Java MapReduce
SPARK vs MAPREDUCE
50. CETAX - All Rights Reserved
• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS
52. CETAX - All Rights Reserved
REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
53. CETAX - All Rights Reserved
• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS
54. CETAX - All Rights Reserved
• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
55. CETAX - All Rights Reserved
• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA
56. CETAX - All Rights Reserved
• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES
57. CETAX - All Rights Reserved
• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS
58. CETAX - All Rights Reserved
• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR
59. CETAX - All Rights Reserved
• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR
60. CETAX - All Rights Reserved
• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
61. CETAX - All Rights Reserved
• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
62. CETAX - All Rights Reserved
• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO
Notas do Editor
2
3
A tempos não temos uma palavra tão forte no cenário de informática como Big Data !
O termo está sendo falado em todos os tipos de negócios, cursos, etc.
O termo é recente, muitas possibilidades, muitas definições ( algumas ainda vagas )
O mercado está em formação muitas coisas estão ainda acontecendo e muitas ainda estão por vir.
O que é certo : Big Data é uma tendência que vai mudar a maneira em que analisamos os dados em qualquer tipo de negócio !
O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês.
A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube.
Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação.
Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
Fonte Imagem – Nasscom e Reuters
Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês.
Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações.
Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo.
A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio.
Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
http://beyondplm.com/2013/10/14/will-plm-data-size-reach-yottabytes/
Detalhamento sobre os 3 V’s.
Alguns estudiosos acrescentaram mais V’s a definição de big data
Existe até essa definição de 10 V’s do Big Data.
Mas seria ela necessária ?
Definição simples e direta, algo que não pode mais ser feito com as ferramentas atuais !
O que temos que fazer ? Quais softwares serão usados ?
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Os dados podem ser o novo petróleo, a nova corrida que as empresas vão enfrentar para multiplicar seus lucros!
A correta coleta, processamento e análise dos dados podem ser um diferencial competitivo a todos os negócios.
Claro, como petróleo, os dados também precisam ser refinados para um melhor resultado.
Essa lista é um exemplo de possíveis fontes, mas deveremos ter muito mais fontes.
As novas ferramentas permitem conexão e captura de dados em diversas categorias de softwares ou mesmo equipamentos eletrônicos que permita captura de dados.
Claro que além dos dados tradicionais que hoje buscamos em outros sistemas, bancos de dados e arquivos de texto.
Curva de Adoção de Big Data :
Innovators / Inovadores – nessa categoria temos as empresas de Internet, Tecnologia e Varejistas
Early Adopters / Adiantados – Mercado Financeiro
Early Majority / Adiantados a Maioria – Utilities, Infraestrutura, Serviços Públicos
Late Majority / Atrasados a Maioria – Manufatura, Saúde
Laggards / Preguiçosos
Alguns Exemplos de Big Data por Setor
Algumas aplicações possíveis ( atualmente ) em Big Data
As novas tecnologias disponíveis tem auxiliado a evoluir com Big Data.
Todas as tecnologias tem permitido captura, processar e analisar grandes volumes de dados.
O Hadoop surge para auxiliar nos “problemas” gerados pelos grandes volumes de dados.
This is an illustration of a Hadoop cluster. A Hadoop cluster comprises several components; the primary ones being the master and slave nodes.
Master nodes manage and coordinate cluster services and tasks. They are master nodes because they have various Hadoop master processes running on them. For example, a master node runs the NameNode process that coordinates Hadoop storage operations. A single master machine can run all of the Hadoop master processes. However for better scalability, and higher availability, is is common to have the various Hadoop master processes spread across multiple master nodes.
Slave nodes provide the CPU, memory, and local disk resources to store and process data. They are slave nodes because they have various Hadoop slave processes running on them. For example, a slave node runs a DataNode process that works under the management of the NameNode. The DataNode does the actual work of reading and writing data blocks to storage. A Hadoop cluster is easily scaled up by adding additional slave machines.
The Hadoop client machine has only the Hadoop client-side software installed on it. The software is used to access Hadoop tools and applications used to manage the cluster or process data.
It is common for Hadoop to be deployed on rack-based servers. Many server rack and blade chassis configurations are possible. In the illustration, each rack of machines has a top-of-the-rack network switch for intra-rack communication. Each top-of-the-rack switch is also connected to a core switch used for inter-rack and cluster-to-client communications.
Spark consists of a core library. It was then built upon by Spark SQL, Streaming, ML-Lib and GraphX. Spark SQL and Dataframe have exploded in popularity recently as there have been many performance improvements.
GraphX is very new and currently not supported by anyone.
Spark was built with the developer in mind. Spark has very elegant API’s which seek to minimize the “plumbing” that developers traditionally had to worry about. Spark provides APIs that allow developers to focus on the business logic, and not the internals. Spark has brought forward in-memory computation for hadoop. This allows large amounts of data to be stored in memory, and quickly access them. Some applications have seen a 100x speed increase due to these new abilities. Spark also provides a single framework for most data processing needs.
Spark took concepts from MapReduce, identified bottlenecks and inefficiencies, along with developer feedback and created an elegant solution attempting to address most of the concerns. That being said, spark allow for a wide variety of user types, to do a wide variety of data operations. Mllib was integrated for data scientists. Spark SQL was created to enable traditional sql analysts a familiar interface for interacting with large amounts of data. Spark also introduced spark stream to cover micro batch uses cases. Spark allows users to switch between frameworks with minimal differences in coding, to increase the flexibility of applications users can develop. Spark is fully integrated with Hadoop, and an open source too.
“up to” does NOT mean “guaranteed” and really depends on the use case
Pictured are the WordCount implementation in Spark using Python API and Java MapReduce. We can see immediate how much plumbing is removed when we implement a simple word count. Spark can perform wordcount in ~3 lines of code, where as MapReduce requires over 50.
In addition, when taking advantage of in memory storage, Spark performs over 100x faster then tradition MapReduce when doing a logistic regresstion.
Slide shows a comparison with Java MapReduce, but a more “fair” comparison is with Pig as seen at http://hortonworks.com/hadoop-tutorial/word-counting-with-apache-pig/
Data Science ou Ciência de Dados
Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto.