SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
Pentaho Data Integration (Kettle)
Integração e Migração de Dados com ETL
Open Source
Marcio Junior Vieira
marcio@ambientelivre.com.br
MARCIO JUNIOR VIEIRA
● CEO da Ambiente Livre Tecnologia.
● Desenvolvedor de Software ,Trabalha com Software Livre
desde 2000.
● Formado em Tecnologia em Informática(UFPR), Pós-Graduado
em Software Livre(UFPR).
● Palestrante em congressos relacionados a Software Livre:
FISL, CONISLI, SOLISC, LATINOWARE, FLISOL, SFD, Joomla
Day,Pentaho Day.
● Especialista em implantação e customização de Pentaho CE,
Alfresco, LimeSurvey, Joomla, SugarCRM e dotProject.
● Ativista FOSS e Moderador da Lista PentahoBR
Software Livre as 4 Leis
(GPL)
● "Software livre" se refere à liberdade dos usuários executarem,
copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o
software. São 4 tipos de liberdade, para os usuários do software:
● 1. A liberdade de executar o programa, para qualquer propósito.
● 2. A liberdade de estudar como o programa funciona, e adaptá-lo
para as suas necessidades. Acesso ao código-fonte é um
pré-requisito para esta liberdade.
● 3. A liberdade de redistribuir cópias de modo que você possa ajudar
ao seu próximo.
● 4. A liberdade de aperfeiçoar o programa, e liberar
os seus aperfeiçoamentos, de modo que toda a
comunidade se beneficie.
ETL ou ETC
● Extração, Transformação e Carga (Extract,
Transform, Load – ETL).
● Extração de dados dos sistemas de origem
● Transformação : Seleção, Tradução de
Valores Codificados (Ex. 1 p/ sexo masculino)
, Cálculos , Junção , Transposição.
● Carga: Armazenagem no DW ( Dados
Históricos )
ETL/ETC
Desafios ETL
● Gama de valores e qualidade de dados
● Escalabilidade
● Volume de dados
Processamento Paralelo
● Dados: Divisão de um único arquivo
sequencial em arquivos de dados menores.
● Pipeline: Permitindo a execução simultânea
de diversos componentes no mesmo fluxo de
dados.
● Componente: Execução simultânea de
múltiplos processos em diferentes fluxos de
dados no mesmo job..
ETL X HardCore
● Desenvolver e Manutenção uma rotina de
carga em uma ferramenta de ETL é muito
mais fácil e rápido que codificá-la.
● Desempenho: As ferramentas de ETL
utilizam métodos mais performáticos.
● Execução em paralelo: Ferramentas de ETL
possuem recursos de paralelização nativos e
facilmente implementáveis.
ETL X HardCore
●
Escalabilidade: Ferramentas de ETL podem ser transferidas de
servidor mais facilmente e até eventualmente distribuir sua carga
entre vários servidores.
●
Diversidade de conectores: A conexão de uma ferramenta de
ETL com múltiplas fontes de dados é transparente.
●
Reusabilidade:Uma carga normalmente pode ser reaproveitada
dentro de outras cargas ou sobre a forma de um template
●
Documentação, Maior garantia da qualidade dos dados,
Auditoria & Tracking, Segurança
Ferramentas de ETL
Proprietárias
● Oracle Warehouse Builder (OWB)
● IBM Information Server (Data Stage)
● Integration Services (SSIS)
● Power Center (antigo Power Mart)
Open Source
● Talend
● Pentaho Data Integration ( Kettle )
●
ETL no Processo de BI
Kettle Project
Pentaho Data Integration (PDI, ou Kettle) é
um componente da suíte do Pentaho
responsável pelos processos de ETL.
●
Hacker
● Matt Casters
Chief Architect, Pentaho Data Integration
Kettle Project Founder
● Atualmente Trabalha na Pentaho Corporation.
Pentaho Suite
Kettle
● Apesar de ferramentas de ETL serem usadas em projetos
de data warehouse, PDI pode também ser usado para:
● Migração de dados entre aplicações/banco de dados
● Exportar dados de banco de dados para arquivos texto
● Carregar massivamente dados em banco de dados
● Data Cleansing – disciplina de qualidade/limpeza de dados
de data warehouse
● Integração de aplicações.
Aplicações
● Spoon - ferramenta gráfica com que se desenha e testa
todo processo do PDI
● Pan - Programa que pode executar transformações
desenhadas no Spoon e que estejam tanto em arquivos
como em repositórios em banco de dados.
● Kitchen -ferramenta usada para executar Jobs a partir de
janelas de terminais.
● Carter – Suporte a configuração de SOA.
Transformação
● Rotina com coleção de passos
interligados
● O primeiro á a fonte de dados
● O último representa a saída de
dados.
● Pode ser colocadas varias
fontes de dados e saídas
● É recomendado 1 transformação
para cada dimensão ou tabela
fato
Steps
● Um passo é uma unidade mínima dentro de
uma transformação.
● Grande variedade de passos
● Agrupada em categorias
( input , Output, etc)
● Os tipos básicos são :
entrada, transformação, saída
Hops
● Representação gráfica do fluxo de dados
entre dois passos (conexão)
● Um deles Origem e outro Destino.
Jobs
● É uma rotina de execução
● Pode executar uma ou mais transformações
● Utilizado para cargas de tabelas fatos
Na Prática...
Cluster
● Suporte a clusterização e processamento
distribuído.
●
Agendamento
● O Kettle tem agente de Agendamento
● Pode ser usado o agendador do SO. ( cron )
● Ou usado em conjunto ( kettle + SO )
Arquivos
● Estruturados como XML
● *.KTR – Transformation
● *.KJB - Jobs
Big Data
Orquestrando Big Data
Data Mining
● Tem steps ( plugins ) para geração de
arquivos para Mineração de dados ( Weka )
●
Marketplace
● Possibilidade de Instalar novos Plugins
● Novas Funcionalidades
● Integrado ao ambiente ( Kettle ).
Bibliografia
● Kettle Project
http://kettle.pentaho.com/
● Pentaho Big Data
http://www.pentahobigdata.com
● Gustavo Maia
http://gustavomaiaaguiar.wordpress.com/2010/05/10/por-que-utilizar-uma-ferramenta-de-etl/
● Step Documentation
http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps
●
Contato
● Blog
blogs.ambientelivre.com.br/marcio/
● Listas Pentaho:
● Pentaho BR, Pentaho Brasil , Pentaho
Fortaleza.
Marcio Junior Vieira
e-mail: marcio -@- ambientelivre.com.br

Mais conteúdo relacionado

Mais procurados

Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02thomasdacosta
 
Conceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDConceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDVinicius Buffolo
 
Cabeamentos e conectores de rede
Cabeamentos e conectores de redeCabeamentos e conectores de rede
Cabeamentos e conectores de redealphabigdog
 
Funciones y procedimientos en SQL
Funciones y procedimientos en SQLFunciones y procedimientos en SQL
Funciones y procedimientos en SQLRonald Rivas
 
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)Leinylson Fontinele
 
Criação de tabelas com HTML
Criação de tabelas com HTMLCriação de tabelas com HTML
Criação de tabelas com HTMLLeonardo Soares
 
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)Leinylson Fontinele
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisFabrício Lopes Sanchez
 
Banco de Dados I - Aula 09 - Normalização de Dados
Banco de Dados I - Aula 09 - Normalização de DadosBanco de Dados I - Aula 09 - Normalização de Dados
Banco de Dados I - Aula 09 - Normalização de DadosLeinylson Fontinele
 
Redes de Computadores - Aula 01
Redes de Computadores - Aula 01Redes de Computadores - Aula 01
Redes de Computadores - Aula 01thomasdacosta
 
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Leinylson Fontinele
 
UML - Criando Diagramas Eficientes
UML - Criando Diagramas EficientesUML - Criando Diagramas Eficientes
UML - Criando Diagramas EficientesRodrigo Cascarrolho
 

Mais procurados (20)

Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02
 
Conceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDConceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBD
 
Cabeamentos e conectores de rede
Cabeamentos e conectores de redeCabeamentos e conectores de rede
Cabeamentos e conectores de rede
 
Introdução ao SQL
Introdução ao SQLIntrodução ao SQL
Introdução ao SQL
 
Introducao informatica
Introducao informaticaIntroducao informatica
Introducao informatica
 
Funciones y procedimientos en SQL
Funciones y procedimientos en SQLFunciones y procedimientos en SQL
Funciones y procedimientos en SQL
 
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
 
Criação de tabelas com HTML
Criação de tabelas com HTMLCriação de tabelas com HTML
Criação de tabelas com HTML
 
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados II Aula 07 - Linguagem de Consulta SQL (Comandos DDL)
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentais
 
Banco de Dados I - Aula 09 - Normalização de Dados
Banco de Dados I - Aula 09 - Normalização de DadosBanco de Dados I - Aula 09 - Normalização de Dados
Banco de Dados I - Aula 09 - Normalização de Dados
 
Redes de Computadores - Aula 01
Redes de Computadores - Aula 01Redes de Computadores - Aula 01
Redes de Computadores - Aula 01
 
Linguagem c
Linguagem cLinguagem c
Linguagem c
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Redes de comunicação - TGPSI
Redes de comunicação - TGPSIRedes de comunicação - TGPSI
Redes de comunicação - TGPSI
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
 
Modelo E-R
Modelo E-RModelo E-R
Modelo E-R
 
Linguagem SQL
Linguagem SQLLinguagem SQL
Linguagem SQL
 
UML - Criando Diagramas Eficientes
UML - Criando Diagramas EficientesUML - Criando Diagramas Eficientes
UML - Criando Diagramas Eficientes
 

Destaque

Exercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationExercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationJarley Nóbrega
 
Aula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDIAula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDIJarley Nóbrega
 
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3 Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3 Vinicius Elyseu
 
Aula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIAula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIJarley Nóbrega
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Pentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na Sage
Pentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na SagePentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na Sage
Pentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na SageVinicius Elyseu
 
14.03.23 livro sobre pentaho
14.03.23   livro sobre pentaho14.03.23   livro sobre pentaho
14.03.23 livro sobre pentahoTalita Lima
 
Pentaho data integration
Pentaho data integrationPentaho data integration
Pentaho data integrationPedro Neto
 
Pentaho: inteligência de negócios utilizando software livre
Pentaho: inteligência de negócios utilizando software livrePentaho: inteligência de negócios utilizando software livre
Pentaho: inteligência de negócios utilizando software livreCaio Moreno
 
Apresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi Tenancy
Apresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi TenancyApresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi Tenancy
Apresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi TenancyVinicius Elyseu
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)
Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)
Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)IT4biz IT Solutions
 
Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho valex_haro
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMarco Garcia
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 

Destaque (17)

Exercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationExercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data Integration
 
Aula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDIAula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDI
 
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3 Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
 
Aula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIAula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDI
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Pentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na Sage
Pentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na SagePentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na Sage
Pentaho Day 2015 - Universidade Positivo - Multi Tenancy com Pentaho na Sage
 
14.03.23 livro sobre pentaho
14.03.23   livro sobre pentaho14.03.23   livro sobre pentaho
14.03.23 livro sobre pentaho
 
Construção de Aplicação ETL para SICOP
Construção de Aplicação ETL para SICOPConstrução de Aplicação ETL para SICOP
Construção de Aplicação ETL para SICOP
 
Pentaho data integration
Pentaho data integrationPentaho data integration
Pentaho data integration
 
Pentaho: inteligência de negócios utilizando software livre
Pentaho: inteligência de negócios utilizando software livrePentaho: inteligência de negócios utilizando software livre
Pentaho: inteligência de negócios utilizando software livre
 
Apresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi Tenancy
Apresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi TenancyApresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi Tenancy
Apresentação FTSL 2014 UTFPR Curitiba - Pentaho Multi Tenancy
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)
Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)
Curso de Pentaho (BI Open Source) - Recomendações de Leitura (Livros sobre BI)
 
Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho Day
 
Apresentação business intelligence
Apresentação business intelligenceApresentação business intelligence
Apresentação business intelligence
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 

Semelhante a Pentaho Data Integration (Kettle) ETL e Integração de Dados

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsEdson Celio
 
Developer Experience no Nubank
Developer Experience no NubankDeveloper Experience no Nubank
Developer Experience no NubankLetticia Nicoli
 
CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO) CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO) Grupo Treinar
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Qualidade em projetos PHP - PHPSC Conf 2011
Qualidade em projetos PHP - PHPSC Conf 2011Qualidade em projetos PHP - PHPSC Conf 2011
Qualidade em projetos PHP - PHPSC Conf 2011Luís Cobucci
 
Qualidade em projetos PHP - SoLiSC 2011
Qualidade em projetos PHP - SoLiSC 2011Qualidade em projetos PHP - SoLiSC 2011
Qualidade em projetos PHP - SoLiSC 2011Luís Cobucci
 
MuleSoft_Meetup_ABR_2022_v1.pptx
MuleSoft_Meetup_ABR_2022_v1.pptxMuleSoft_Meetup_ABR_2022_v1.pptx
MuleSoft_Meetup_ABR_2022_v1.pptxJeffersonSousa79
 
Desconstruindo monolitos - Construindo microservicos em Delphi
Desconstruindo monolitos - Construindo microservicos em DelphiDesconstruindo monolitos - Construindo microservicos em Delphi
Desconstruindo monolitos - Construindo microservicos em DelphiFelipe Caputo
 
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos DelphiTDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos DelphiMayara Fernandes
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
Apresentação final
Apresentação finalApresentação final
Apresentação finalvalmon
 

Semelhante a Pentaho Data Integration (Kettle) ETL e Integração de Dados (20)

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
 
Developer Experience no Nubank
Developer Experience no NubankDeveloper Experience no Nubank
Developer Experience no Nubank
 
CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO) CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
 
A Linguagem Php
A Linguagem PhpA Linguagem Php
A Linguagem Php
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Qualidade em projetos PHP - PHPSC Conf 2011
Qualidade em projetos PHP - PHPSC Conf 2011Qualidade em projetos PHP - PHPSC Conf 2011
Qualidade em projetos PHP - PHPSC Conf 2011
 
Qualidade em projetos PHP - SoLiSC 2011
Qualidade em projetos PHP - SoLiSC 2011Qualidade em projetos PHP - SoLiSC 2011
Qualidade em projetos PHP - SoLiSC 2011
 
Por que PostgreSQL?
Por que PostgreSQL?Por que PostgreSQL?
Por que PostgreSQL?
 
Documento SpagoBI
Documento SpagoBIDocumento SpagoBI
Documento SpagoBI
 
III SDTA - Pentaho PDI na Prática
III SDTA - Pentaho PDI na PráticaIII SDTA - Pentaho PDI na Prática
III SDTA - Pentaho PDI na Prática
 
MuleSoft_Meetup_ABR_2022_v1.pptx
MuleSoft_Meetup_ABR_2022_v1.pptxMuleSoft_Meetup_ABR_2022_v1.pptx
MuleSoft_Meetup_ABR_2022_v1.pptx
 
Desconstruindo monolitos - Construindo microservicos em Delphi
Desconstruindo monolitos - Construindo microservicos em DelphiDesconstruindo monolitos - Construindo microservicos em Delphi
Desconstruindo monolitos - Construindo microservicos em Delphi
 
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos DelphiTDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
 
Open Source2
Open Source2Open Source2
Open Source2
 
Open S
Open SOpen S
Open S
 
Open Source2
Open Source2Open Source2
Open Source2
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Plsql
PlsqlPlsql
Plsql
 
Apresentação final
Apresentação finalApresentação final
Apresentação final
 

Mais de Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 

Mais de Ambiente Livre (20)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 

Pentaho Data Integration (Kettle) ETL e Integração de Dados

  • 1. Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open Source Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2. MARCIO JUNIOR VIEIRA ● CEO da Ambiente Livre Tecnologia. ● Desenvolvedor de Software ,Trabalha com Software Livre desde 2000. ● Formado em Tecnologia em Informática(UFPR), Pós-Graduado em Software Livre(UFPR). ● Palestrante em congressos relacionados a Software Livre: FISL, CONISLI, SOLISC, LATINOWARE, FLISOL, SFD, Joomla Day,Pentaho Day. ● Especialista em implantação e customização de Pentaho CE, Alfresco, LimeSurvey, Joomla, SugarCRM e dotProject. ● Ativista FOSS e Moderador da Lista PentahoBR
  • 3. Software Livre as 4 Leis (GPL) ● "Software livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie.
  • 4. ETL ou ETC ● Extração, Transformação e Carga (Extract, Transform, Load – ETL). ● Extração de dados dos sistemas de origem ● Transformação : Seleção, Tradução de Valores Codificados (Ex. 1 p/ sexo masculino) , Cálculos , Junção , Transposição. ● Carga: Armazenagem no DW ( Dados Históricos )
  • 6. Desafios ETL ● Gama de valores e qualidade de dados ● Escalabilidade ● Volume de dados
  • 7. Processamento Paralelo ● Dados: Divisão de um único arquivo sequencial em arquivos de dados menores. ● Pipeline: Permitindo a execução simultânea de diversos componentes no mesmo fluxo de dados. ● Componente: Execução simultânea de múltiplos processos em diferentes fluxos de dados no mesmo job..
  • 8. ETL X HardCore ● Desenvolver e Manutenção uma rotina de carga em uma ferramenta de ETL é muito mais fácil e rápido que codificá-la. ● Desempenho: As ferramentas de ETL utilizam métodos mais performáticos. ● Execução em paralelo: Ferramentas de ETL possuem recursos de paralelização nativos e facilmente implementáveis.
  • 9. ETL X HardCore ● Escalabilidade: Ferramentas de ETL podem ser transferidas de servidor mais facilmente e até eventualmente distribuir sua carga entre vários servidores. ● Diversidade de conectores: A conexão de uma ferramenta de ETL com múltiplas fontes de dados é transparente. ● Reusabilidade:Uma carga normalmente pode ser reaproveitada dentro de outras cargas ou sobre a forma de um template ● Documentação, Maior garantia da qualidade dos dados, Auditoria & Tracking, Segurança
  • 10. Ferramentas de ETL Proprietárias ● Oracle Warehouse Builder (OWB) ● IBM Information Server (Data Stage) ● Integration Services (SSIS) ● Power Center (antigo Power Mart) Open Source ● Talend ● Pentaho Data Integration ( Kettle ) ●
  • 12. Kettle Project Pentaho Data Integration (PDI, ou Kettle) é um componente da suíte do Pentaho responsável pelos processos de ETL. ●
  • 13. Hacker ● Matt Casters Chief Architect, Pentaho Data Integration Kettle Project Founder ● Atualmente Trabalha na Pentaho Corporation.
  • 15. Kettle ● Apesar de ferramentas de ETL serem usadas em projetos de data warehouse, PDI pode também ser usado para: ● Migração de dados entre aplicações/banco de dados ● Exportar dados de banco de dados para arquivos texto ● Carregar massivamente dados em banco de dados ● Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse ● Integração de aplicações.
  • 16. Aplicações ● Spoon - ferramenta gráfica com que se desenha e testa todo processo do PDI ● Pan - Programa que pode executar transformações desenhadas no Spoon e que estejam tanto em arquivos como em repositórios em banco de dados. ● Kitchen -ferramenta usada para executar Jobs a partir de janelas de terminais. ● Carter – Suporte a configuração de SOA.
  • 17.
  • 18. Transformação ● Rotina com coleção de passos interligados ● O primeiro á a fonte de dados ● O último representa a saída de dados. ● Pode ser colocadas varias fontes de dados e saídas ● É recomendado 1 transformação para cada dimensão ou tabela fato
  • 19. Steps ● Um passo é uma unidade mínima dentro de uma transformação. ● Grande variedade de passos ● Agrupada em categorias ( input , Output, etc) ● Os tipos básicos são : entrada, transformação, saída
  • 20. Hops ● Representação gráfica do fluxo de dados entre dois passos (conexão) ● Um deles Origem e outro Destino.
  • 21. Jobs ● É uma rotina de execução ● Pode executar uma ou mais transformações ● Utilizado para cargas de tabelas fatos
  • 23. Cluster ● Suporte a clusterização e processamento distribuído. ●
  • 24. Agendamento ● O Kettle tem agente de Agendamento ● Pode ser usado o agendador do SO. ( cron ) ● Ou usado em conjunto ( kettle + SO )
  • 25. Arquivos ● Estruturados como XML ● *.KTR – Transformation ● *.KJB - Jobs
  • 28. Data Mining ● Tem steps ( plugins ) para geração de arquivos para Mineração de dados ( Weka ) ●
  • 29. Marketplace ● Possibilidade de Instalar novos Plugins ● Novas Funcionalidades ● Integrado ao ambiente ( Kettle ).
  • 30. Bibliografia ● Kettle Project http://kettle.pentaho.com/ ● Pentaho Big Data http://www.pentahobigdata.com ● Gustavo Maia http://gustavomaiaaguiar.wordpress.com/2010/05/10/por-que-utilizar-uma-ferramenta-de-etl/ ● Step Documentation http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps ●
  • 31. Contato ● Blog blogs.ambientelivre.com.br/marcio/ ● Listas Pentaho: ● Pentaho BR, Pentaho Brasil , Pentaho Fortaleza. Marcio Junior Vieira e-mail: marcio -@- ambientelivre.com.br