Pentaho, Hadoop , Big Data e Data Lakes

•

1 gostou•759 visualizações

Ambiente Livre

Conceitos sobre Data Lakes e como o Pentaho pode Orquestar os Dados.

Dados e análise

Pentaho, Hadoop, Big Data e Data Lakes.
Marcio Junior Vieira
Data Scientist
marcio@ambientelivre.com.br

Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho

Agenda
● Conceitos de Data Lakes
● Pentaho Orquestrando seus Data Lakes

Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )

Fundação Apache
● Big Data = Apache = Open Source
● Apache é líder e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●

O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at
Pentaho ) introduziu os conceitos de Data
Lake em pequeno artigo em seu Blog.

O velho Datawarehouse
● Elaborado na Década de 80
● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-
determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade
para os níveis mais baixos é perdida

Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro,
Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou
semiestruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs,
Social/online Media, Eventos de Telecoms ) ou não transacional
(Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.
● Há muitas perguntas desconhecidos que surgirão no futuro.
● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.

Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.

Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
● Exemplos:
Hadoop, Azure e AWS S3

Formato Tradicional de BI
Data Mart(s)
Data Source

Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
adhoc Datawarehouse

Big Data não Substitui os
DataMarts
● Big Data não é um Banco de Dados
● Alta latência
● Otimizado para “triturar” massiva os dados
● Base de dados são imaturas
● Banco de Dados são noSQL

● Solução de BI Open Source.
● Community Edition potente e funcional
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)

Sparkl
● CTools e Pentaho Data Integration (PDI)
● Desenvolve frontend com CTools
● Implementamos Backends e endPoints com
PDI

Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores

Contatos
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog: blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Mais conteúdo relacionado

Mais procurados

Algoritmo - tipos de dadosProfessor Samuel Ribeiro

Introdução à Análise de Dados - Aula 01Alexandre Duarte

Data scienceNauber Gois

Presto Summit 2018 - 09 - Netflix Icebergkbajda

Apresentação data miningNilton Rodrigues Pereira

iceberg introduction.pptxDori Waldman

DataOps introduction : DataOps is not only DevOps applied to data!Adrien Blind

The Data Lake Engine Data Microservices in Spark using Apache Arrow FlightDatabricks

Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana

Gestao agil de projetosAdriano Tavares

Boas práticas de desenvolvimento para Jupyter NotebooksJoel Pinho Lucas

ScrumRenata Frota

Presto query optimizer: pursuit of performanceDataWorks Summit

Aula 01 - Fundamentos de Banco de Dados (2).pdfMarcelo Silva

Python e django na práticaRafael Cassau

In memory databases presentationMichael Keane

Um ensaio sobre o tribalismo - um mergulho nas tensões!Jorge Improissi

Gestão de Projetos com Ms projectRogério Fernandes da Costa

Métodos Ágeis e Scrum - IntroduçãoYuri Morais

Gerenciamento de projetos - Tempo, Recursos e CustoClaudio Barbosa

Mais procurados (20)

Algoritmo - tipos de dados

Introdução à Análise de Dados - Aula 01

Data science

Presto Summit 2018 - 09 - Netflix Iceberg

Apresentação data mining

iceberg introduction.pptx

DataOps introduction : DataOps is not only DevOps applied to data!

The Data Lake Engine Data Microservices in Spark using Apache Arrow Flight

Ciência de Dados: a revolução na tomada de decisões

Gestao agil de projetos

Boas práticas de desenvolvimento para Jupyter Notebooks

Scrum

Presto query optimizer: pursuit of performance

Aula 01 - Fundamentos de Banco de Dados (2).pdf

Python e django na prática

In memory databases presentation

Um ensaio sobre o tribalismo - um mergulho nas tensões!

Gestão de Projetos com Ms project

Métodos Ágeis e Scrum - Introdução

Gerenciamento de projetos - Tempo, Recursos e Custo

Destaque

Programacao Funcional Em RubyElomar Souza

Orientação a objetos na práticaTI Infnet

Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre

Calc avancadoJorge Vaz

Automatizacao de tarefasarturramisio

Programacao de macros_com_libre_office_basic_slideshareMarcio Junior Vieira

Unidade 7 - Estruturando Banco de Dados com o BR Office BaseRogerio P C do Nascimento

Boas Práticas de Design em Aplicações Ruby on Railsrinaldifonsecanascimento

PentahoTiago Barreto

Technologies for Organizational IntelligenceRichard Veryard

Perspectivas de Pesquisa em Inteligência OrganizacionalEduardo Moresi

Programação de Macros com LibreOffice BasicAmbiente Livre

MongoDB e Bancos de Dados Orientados a DocumentosUNIFESP - Universidade Federal de São Paulo

Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2Rogerio P C do Nascimento

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre

Pentaho Hadoop Big Data e Data LakesAmbiente Livre

NoSQL: onde, como e por quê? Cassandra e MongoDBRodrigo Hjort

Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL

OS CINCO Vs DO BIG DATALeonardo Dias

Destaque (20)

Programacao Funcional Em Ruby

Orientação a objetos na prática

Cientista de Dados – Dominando o Big Data com Software Livre

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

Calc avancado

Automatizacao de tarefas

Programacao de macros_com_libre_office_basic_slideshare

Unidade 7 - Estruturando Banco de Dados com o BR Office Base

Boas Práticas de Design em Aplicações Ruby on Rails

Pentaho

Technologies for Organizational Intelligence

Perspectivas de Pesquisa em Inteligência Organizacional

Programação de Macros com LibreOffice Basic

MongoDB e Bancos de Dados Orientados a Documentos

Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...

Pentaho Hadoop Big Data e Data Lakes

NoSQL: onde, como e por quê? Cassandra e MongoDB

Big Data - O que é o hadoop, map reduce, hdfs e hive

OS CINCO Vs DO BIG DATA

Semelhante a Pentaho, Hadoop , Big Data e Data Lakes

PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre

Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre

TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre

Treinamento hadoop - dia4Alexandre Uehara

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode

Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira

Big Data Open Source com HadoopAmbiente Livre

Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions

Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno

Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno

Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions

Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil

Análise de dados com R - TDC 2015Rodrigo Ribeiro

Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre

Apresentação de Seminário - Universidade Federal de SergipeMisaelFalco

Big data e mineração de dadosElton Meira

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre

Tesi Dados Finaljcaroso

Semelhante a Pentaho, Hadoop , Big Data e Data Lakes (20)

PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

TDC2017 - Misturando dados com Pentaho para insights mais significativos

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...

Treinamento hadoop - dia4

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...

Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba

Big Data Open Source com Hadoop

Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre

Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011

Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...

Pentaho inteligência de negócios utilizando software livre campus party 2011

Análise de dados com R - TDC 2015

Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.

Apresentação de Seminário - Universidade Federal de Sergipe

Big data e mineração de dados

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...

Tesi Dados Final

Mais de Ambiente Livre

Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre

Apache Flink a Quarta Geração do Big DataAmbiente Livre

FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre

O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre

Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre

Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre

SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre

Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre

Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre

Negócios em FLOSSAmbiente Livre

Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre

Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre

Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre

Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre

Criando e consumindo webservice REST com PHP e JSONAmbiente Livre

Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre

Gerenciamento de Projetos com dotProjectAmbiente Livre

Mais de Ambiente Livre (18)

Low Code Data Science with Pentaho Machine Intelligence

Apache Flink a Quarta Geração do Big Data

FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...

O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...

Metodologia Hacker de Ensino na Ambiente Livre

Integrando o Drupal com o ECM Alfresco usando CMIS

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.

SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM

Carreira Profissional e Certificação de um Analista de BI Pentaho

Suporte a Geo-Mapping no Pentaho Report

Negócios em FLOSS

Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...

Alfresco ECM e Gestão Eletrônica de Documentos Open Source

Moodle - Sistema de Gestão da Aprendizagem Open Source

Apresentação Executiva do Iguana BI for SugarCRM

Criando e consumindo webservice REST com PHP e JSON

Desenvolvendo Produtos sobre a Plataforma Pentaho

Gerenciamento de Projetos com dotProject

Pentaho, Hadoop , Big Data e Data Lakes

1. Pentaho, Hadoop, Big Data e Data Lakes. Marcio Junior Vieira Data Scientist marcio@ambientelivre.com.br

2. Marcio Junior Vieira ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho

3. Agenda ● Conceitos de Data Lakes ● Pentaho Orquestrando seus Data Lakes

4. Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )

5. Fundação Apache ● Big Data = Apache = Open Source ● Apache é líder e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●

6. Ecosistema - Hadoop

7. O Termo Data Lake ● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.

8. O velho Datawarehouse ● Elaborado na Década de 80 ● Apenas um subconjunto dos atributos são examinados, para que apenas perguntas pré- determinadas podem ser respondidas. ● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida

9. Cenários ● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs ) ● Muitas empresas estão lidando com dados estruturados ou semiestruturados (não desestruturada). ● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ). ● Há algumas perguntas conhecidos para perguntar dos dados. ● Há muitas perguntas desconhecidos que surgirão no futuro. ● Os dados são de uma escala ou volume diário de tal forma que ele não vão caber técnica e / ou economicamente em um RDBMS.

10. Data LakeData Lake

11. Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.

12. Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo ● Exemplos: Hadoop, Azure e AWS S3

13. Formato Tradicional de BI Data Mart(s) Data Source

14. Arquitetura de Big Data Data Mart(s) Data Source Data Lake(s) adhoc Datawarehouse

15. Big Data não Substitui os DataMarts ● Big Data não é um Banco de Dados ● Alta latência ● Otimizado para “triturar” massiva os dados ● Base de dados são imaturas ● Banco de Dados são noSQL

16. ● Solução de BI Open Source. ● Community Edition potente e funcional ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)

17. Pentaho Orquestrando Hadoop

18. Pentaho Data Integration

19. Sparkl ● CTools e Pentaho Data Integration (PDI) ● Desenvolve frontend com CTools ● Implementamos Backends e endPoints com PDI

20.

21.

22. Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores

23. Contatos ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog: blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre

Pentaho, Hadoop , Big Data e Data Lakes

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Pentaho, Hadoop , Big Data e Data Lakes

Semelhante a Pentaho, Hadoop , Big Data e Data Lakes (20)

Mais de Ambiente Livre

Mais de Ambiente Livre (18)

Pentaho, Hadoop , Big Data e Data Lakes