SlideShare uma empresa Scribd logo
Pentaho, Hadoop, Big Data e Data Lakes.
Marcio Junior Vieira
Data Scientist
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
Agenda
● Conceitos de Data Lakes
● Pentaho Orquestrando seus Data Lakes
   
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
Fundação Apache
● Big Data = Apache = Open Source
● Apache é líder e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
   
Ecosistema - Hadoop
   
O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at
Pentaho ) introduziu os conceitos de Data
Lake em pequeno artigo em seu Blog.
   
O velho Datawarehouse
● Elaborado na Década de 80
● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-
determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade
para os níveis mais baixos é perdida
   
Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro,
Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou
semiestruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs,
Social/online Media, Eventos de Telecoms ) ou não transacional
(Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.
● Há muitas perguntas desconhecidos que surgirão no futuro.
● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.
   
Data LakeData Lake
   
Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.
   
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
● Exemplos:
Hadoop, Azure e AWS S3
   
Formato Tradicional de BI
Data Mart(s)
Data Source
   
Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
ad­hoc Datawarehouse
   
Big Data não Substitui os
DataMarts
● Big Data não é um Banco de Dados
● Alta latência
● Otimizado para “triturar” massiva os dados
● Base de dados são imaturas
● Banco de Dados são noSQL
   
● Solução de BI Open Source.
● Community Edition potente e funcional
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho Orquestrando
Hadoop
   
Pentaho Data Integration
   
Sparkl
● CTools e Pentaho Data Integration (PDI)
● Desenvolve frontend com CTools
● Implementamos Backends e endPoints com
PDI
   
   
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Contatos
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog: blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Mais conteúdo relacionado

Mais procurados

Apresentação tcc arquivologia
Apresentação tcc arquivologiaApresentação tcc arquivologia
Apresentação tcc arquivologia
Pedro Neto
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
Albert Belchior
 
INTRODUCTION TO BIG DATA AND HADOOP
INTRODUCTION TO BIG DATA AND HADOOPINTRODUCTION TO BIG DATA AND HADOOP
INTRODUCTION TO BIG DATA AND HADOOP
Dr Geetha Mohan
 
Aula 1 Geoprocessamento e fotointerpretação
Aula 1 Geoprocessamento e fotointerpretaçãoAula 1 Geoprocessamento e fotointerpretação
Aula 1 Geoprocessamento e fotointerpretação
CEULJI/ULBRA Centro Universitário Luterano de Ji-Paraná
 
Características da investigação qualitativa
Características da investigação qualitativaCaracterísticas da investigação qualitativa
Características da investigação qualitativa
Lucila Pesce
 
Treinamento Estrategias de Busca e Recuperação de Informacao
Treinamento Estrategias de Busca e Recuperação de InformacaoTreinamento Estrategias de Busca e Recuperação de Informacao
Treinamento Estrategias de Busca e Recuperação de Informacao
SeABD BCo UFSCar'
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
Carlos Barbieri
 
Aula 3 banco de dados
Aula 3   banco de dadosAula 3   banco de dados
Aula 3 banco de dados
Jorge Ávila Miranda
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
Daniel Brandão
 
Aula 4 - Sistemas Gerenciadores de Banco de Dados
Aula 4 - Sistemas Gerenciadores de Banco de DadosAula 4 - Sistemas Gerenciadores de Banco de Dados
Aula 4 - Sistemas Gerenciadores de Banco de Dados
Vitor Hugo Melo Araújo
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
Nauber Gois
 
LIVRO PROPRIETÁRIO - MODELAGEM DE DADOS
LIVRO PROPRIETÁRIO - MODELAGEM DE DADOSLIVRO PROPRIETÁRIO - MODELAGEM DE DADOS
LIVRO PROPRIETÁRIO - MODELAGEM DE DADOS
Os Fantasmas !
 
Windows explorer
Windows explorerWindows explorer
Windows explorer
Raphael Marques
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de Dados
Rafael Albani
 
Verminoses na APS
Verminoses na APSVerminoses na APS
Verminoses na APS
Ricardo Alexandre
 
Big data
Big dataBig data
Big data
Tiago Marques
 
Banco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoBanco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - Apresentação
Leinylson Fontinele
 
Data center maintenance
Data center maintenanceData center maintenance
Data center maintenance
anilinvns
 
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Leinylson Fontinele
 
Relatório de análise técnica digitando
Relatório de análise técnica   digitandoRelatório de análise técnica   digitando
Relatório de análise técnica digitando
Erickson Coelho
 

Mais procurados (20)

Apresentação tcc arquivologia
Apresentação tcc arquivologiaApresentação tcc arquivologia
Apresentação tcc arquivologia
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
INTRODUCTION TO BIG DATA AND HADOOP
INTRODUCTION TO BIG DATA AND HADOOPINTRODUCTION TO BIG DATA AND HADOOP
INTRODUCTION TO BIG DATA AND HADOOP
 
Aula 1 Geoprocessamento e fotointerpretação
Aula 1 Geoprocessamento e fotointerpretaçãoAula 1 Geoprocessamento e fotointerpretação
Aula 1 Geoprocessamento e fotointerpretação
 
Características da investigação qualitativa
Características da investigação qualitativaCaracterísticas da investigação qualitativa
Características da investigação qualitativa
 
Treinamento Estrategias de Busca e Recuperação de Informacao
Treinamento Estrategias de Busca e Recuperação de InformacaoTreinamento Estrategias de Busca e Recuperação de Informacao
Treinamento Estrategias de Busca e Recuperação de Informacao
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Aula 3 banco de dados
Aula 3   banco de dadosAula 3   banco de dados
Aula 3 banco de dados
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Aula 4 - Sistemas Gerenciadores de Banco de Dados
Aula 4 - Sistemas Gerenciadores de Banco de DadosAula 4 - Sistemas Gerenciadores de Banco de Dados
Aula 4 - Sistemas Gerenciadores de Banco de Dados
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
LIVRO PROPRIETÁRIO - MODELAGEM DE DADOS
LIVRO PROPRIETÁRIO - MODELAGEM DE DADOSLIVRO PROPRIETÁRIO - MODELAGEM DE DADOS
LIVRO PROPRIETÁRIO - MODELAGEM DE DADOS
 
Windows explorer
Windows explorerWindows explorer
Windows explorer
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de Dados
 
Verminoses na APS
Verminoses na APSVerminoses na APS
Verminoses na APS
 
Big data
Big dataBig data
Big data
 
Banco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoBanco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - Apresentação
 
Data center maintenance
Data center maintenanceData center maintenance
Data center maintenance
 
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
 
Relatório de análise técnica digitando
Relatório de análise técnica   digitandoRelatório de análise técnica   digitando
Relatório de análise técnica digitando
 

Destaque

Programacao Funcional Em Ruby
Programacao Funcional Em RubyProgramacao Funcional Em Ruby
Programacao Funcional Em Ruby
Elomar Souza
 
Orientação a objetos na prática
Orientação a objetos na práticaOrientação a objetos na prática
Orientação a objetos na prática
TI Infnet
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Ambiente Livre
 
Calc avancado
Calc avancadoCalc avancado
Calc avancado
Jorge Vaz
 
Automatizacao de tarefas
Automatizacao de tarefasAutomatizacao de tarefas
Automatizacao de tarefas
arturramisio
 
Programacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshareProgramacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshare
Marcio Junior Vieira
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
Unidade 7  - Estruturando Banco de Dados com o BR Office BaseUnidade 7  - Estruturando Banco de Dados com o BR Office Base
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
Rogerio P C do Nascimento
 
Boas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on RailsBoas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on Rails
rinaldifonsecanascimento
 
Pentaho
PentahoPentaho
Pentaho
Tiago Barreto
 
Technologies for Organizational Intelligence
Technologies for Organizational IntelligenceTechnologies for Organizational Intelligence
Technologies for Organizational Intelligence
Richard Veryard
 
Perspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência OrganizacionalPerspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência Organizacional
Eduardo Moresi
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
Ambiente Livre
 
MongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a DocumentosMongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a Documentos
UNIFESP - Universidade Federal de São Paulo
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
Rogerio P C do Nascimento
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Ambiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
Ambiente Livre
 
NoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBNoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDB
Rodrigo Hjort
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
Flavio Fonte, PMP, ITIL
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Leonardo Dias
 

Destaque (20)

Programacao Funcional Em Ruby
Programacao Funcional Em RubyProgramacao Funcional Em Ruby
Programacao Funcional Em Ruby
 
Orientação a objetos na prática
Orientação a objetos na práticaOrientação a objetos na prática
Orientação a objetos na prática
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Calc avancado
Calc avancadoCalc avancado
Calc avancado
 
Automatizacao de tarefas
Automatizacao de tarefasAutomatizacao de tarefas
Automatizacao de tarefas
 
Programacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshareProgramacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshare
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
Unidade 7  - Estruturando Banco de Dados com o BR Office BaseUnidade 7  - Estruturando Banco de Dados com o BR Office Base
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
 
Boas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on RailsBoas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on Rails
 
Pentaho
PentahoPentaho
Pentaho
 
Technologies for Organizational Intelligence
Technologies for Organizational IntelligenceTechnologies for Organizational Intelligence
Technologies for Organizational Intelligence
 
Perspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência OrganizacionalPerspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência Organizacional
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
MongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a DocumentosMongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a Documentos
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
NoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBNoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDB
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 

Semelhante a Pentaho, Hadoop , Big Data e Data Lakes

PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Ambiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Ambiente Livre
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
Alexandre Uehara
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
tdc-globalcode
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
Ambiente Livre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Caio Moreno
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
IT4biz IT Solutions
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
Campus Party Brasil
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015
Rodrigo Ribeiro
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Ambiente Livre
 
Apresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeApresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de Sergipe
MisaelFalco
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
Elton Meira
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Ambiente Livre
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
jcaroso
 

Semelhante a Pentaho, Hadoop , Big Data e Data Lakes (20)

PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeApresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de Sergipe
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 

Mais de Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
Ambiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
Ambiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
Ambiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Ambiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
Ambiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
Ambiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
Ambiente Livre
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
Ambiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Ambiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
Ambiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
Ambiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
Ambiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
Ambiente Livre
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
Ambiente Livre
 

Mais de Ambiente Livre (19)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Pentaho, Hadoop , Big Data e Data Lakes

  • 1. Pentaho, Hadoop, Big Data e Data Lakes. Marcio Junior Vieira Data Scientist marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho
  • 3. Agenda ● Conceitos de Data Lakes ● Pentaho Orquestrando seus Data Lakes
  • 4.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 5.     Fundação Apache ● Big Data = Apache = Open Source ● Apache é líder e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●
  • 7.     O Termo Data Lake ● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.
  • 8.     O velho Datawarehouse ● Elaborado na Década de 80 ● Apenas um subconjunto dos atributos são examinados, para que apenas perguntas pré- determinadas podem ser respondidas. ● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida
  • 9.     Cenários ● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs ) ● Muitas empresas estão lidando com dados estruturados ou semiestruturados (não desestruturada). ● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ). ● Há algumas perguntas conhecidos para perguntar dos dados. ● Há muitas perguntas desconhecidos que surgirão no futuro. ● Os dados são de uma escala ou volume diário de tal forma que ele não vão caber técnica e / ou economicamente em um RDBMS.
  • 11.     Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 12.     Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo ● Exemplos: Hadoop, Azure e AWS S3
  • 13.     Formato Tradicional de BI Data Mart(s) Data Source
  • 14.     Arquitetura de Big Data Data Mart(s) Data Source Data Lake(s) ad­hoc Datawarehouse
  • 15.     Big Data não Substitui os DataMarts ● Big Data não é um Banco de Dados ● Alta latência ● Otimizado para “triturar” massiva os dados ● Base de dados são imaturas ● Banco de Dados são noSQL
  • 16.     ● Solução de BI Open Source. ● Community Edition potente e funcional ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 18.     Pentaho Data Integration
  • 19.     Sparkl ● CTools e Pentaho Data Integration (PDI) ● Desenvolve frontend com CTools ● Implementamos Backends e endPoints com PDI
  • 20.    
  • 21.    
  • 22.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 23.     Contatos ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog: blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre