Pentaho Hadoop Big Data e Data Lakes

Pentaho, Hadoop, Big Data e Data Lakes.
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br

Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho

Agenda
● Conceitos de Big Data
● Conceitos de Hadoop
● Conceitos de Data Lakes
● Pentaho Orquestrando seus Data Lakes

2005 na apresentação do Papa Bento XVI

2013 na apresentação do Papa Francisco

Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.

Muitos das melhores e mais
conhecidas ferramentas de
dados disponíveis são
grandes projetos de código
aberto. O mais conhecido
deles é o Hadoop, o que
está gerando toda uma
indústria de serviços e
produtos relacionados.

Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )

Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce

Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda

Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●

O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.

Características do HDFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
● Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas
de arquivos do sistema operacional subjacente.

Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas

MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes

O Profissional
“data scientist”
Novo profissional: Cientista de Dados

Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados

Tendências
Citizen Data Scientist

O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at
Pentaho ) introduziu os conceitos de Data
Lake em pequeno artigo em seu Blog.

Os velho Datawarehouse
● Elaborado na Década de 80
● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-
determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade
para os níveis mais baixos é perdida

Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro,
Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou semi-
estruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs,
Social/online Media, Eventos de Telecoms ) ou não transacional
(Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.
● Há muitas perguntas desconhecidos que surgirão no futuro.
● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.

Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.

Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo

Formato Tradicional de BI
Data Mart(s)
Data Source

Arquitetura de Big Data
Data Mart(s)
Data
Source
Data Lake(s)
adhoc Datawarehouse

Big Data não Substitui os
DataMarts
● Big Data não é um Banco de Dados
● Alta latência
● Otimizado para “triturar” massiva os dados
● Base de dados são imaturas
● Banco de Dados são noSQL

● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)

Sparkl
● CTools e Pentaho Data Integration (PDI)
● Desenvolve frontend com CTools
● Implementamos Backends e endPoints com
PDI

Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )

Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores

Big Data
● “Big Data hoje é o que era a
Linux em 1991.
● Sabemos que será algo
revolucionário, mas não
sabemos o quanto...”

Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Pentaho Hadoop Big Data e Data Lakes

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a Pentaho Hadoop Big Data e Data Lakes

Mais de Ambiente Livre

Pentaho Hadoop Big Data e Data Lakes