O documento apresenta uma introdução ao Apache Hadoop, um framework de código aberto para processamento e armazenamento distribuídos de grandes volumes de dados. Apresenta o contexto de big data, Internet das Coisas e MapReduce, e define Hadoop como uma implementação do modelo MapReduce que permite processamento escalável e tolerante a falhas em clusters distribuídos.
2. Quem sou eu?
Vinícius Aires Barros
Ciência da Computação 2016 - UFT
Mestrando em Ciência da Computação - ICMC USP
Laboratório de Sistemas Distribuídos e Programação
Concorrente - LaSDPC
Áreas de Interesse: IoT, Distributed Systems, Big Data (...)
Github: @v4ires
Website: http://viniciusaires.me
3. Contexto
● Big Data (5V’s)
○ Volume
○ Variedade
○ Velocidade
○ Veracidade
○ Valor
● Internet das Coisas (IoT)
● Grandes Volumes de
Dados
● Programação Distribuída
e Paralela
● Dados Estruturados, Não
Estruturados e
Semiestruturados
● Bancos de Dados SQL e
NoSQL
● MapReduce
● Apache Hadoop
5. O Apache Hadoop é um software de código aberto
mantido pela Apache Foundation que tem como
propósito fornecer uma implementação livre do
modelo de programação MapReduce.
7. O que não é?
❏ Linguagem de Programação
❏ Biblioteca de Machine Learning
❏ Processamento em Tempo Real
❏ Solução Definitiva para Tudo
❏ Hadoop ≠ Spark
18. Hadoop Streaming
● Suporte a outras Linguagens de Programação;
● Ex: Python, Ruby, JavaScript, C#, outras;
● Qualquer Linguagem de Programação com
stdin e stdout.