SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
Pentaho Data Integration - Integração e
Migração de Dados com ETL Open
Source
Marcio Junior Vieira
marcio@ambientelivre.com.br
MARCIO JUNIOR VIEIRA
●
CEO da Ambiente Livre Tecnologia.
● Desenvolvedor de Software ,Trabalha com Software Livre desde
2000.
● Formado em Tecnologia em Informática(UFPR), Pós-Graduado
em Software Livre(UFPR).
● Palestrante em congressos relacionados a Software Livre: FISL,
CONISLI, SOLISC, LATINOWARE, FLISOL, SFD, Joomla
Day,Pentaho Day.
●
Especialista em implantação e customização de Pentaho CE,
Alfresco, LimeSurvey, Joomla, SugarCRM e dotProject.
● Ativista FOSS e Moderador da Lista PentahoBR
Ecosistema Ambiente
Livre
Software Livre as 4 Leis
(GPL)
● "Software livre" se refere à liberdade dos usuários executarem,
copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o
software. São 4 tipos de liberdade, para os usuários do software:
● 1. A liberdade de executar o programa, para qualquer propósito.
● 2. A liberdade de estudar como o programa funciona, e adaptá-lo
para as suas necessidades. Acesso ao código-fonte é um pré-
requisito para esta liberdade.
● 3. A liberdade de redistribuir cópias de modo que você possa ajudar
ao seu próximo.
● 4. A liberdade de aperfeiçoar o programa, e liberar
os seus aperfeiçoamentos, de modo que toda a
comunidade se beneficie.
ETL ou ETC
● Extração, Transformação e Carga (Extract,
Transform, Load – ETL).
● Extração de dados dos sistemas de origem
● Transformação : Seleção, Tradução de
Valores Codificados (Ex. 1 p/ sexo masculino)
, Cálculos , Junção , Transposição.
● Carga: Armazenagem no DW ( Dados
Históricos )
ETL/ETC
Desafios ETL
● Gama de valores e qualidade de dados
● Escalabilidade
● Volume de dados
● Diversidade
Processamento Paralelo
● Dados: Divisão de um único arquivo
sequencial em arquivos de dados menores.
● Pipeline: Permitindo a execução simultânea
de diversos componentes no mesmo fluxo de
dados.
● Componente: Execução simultânea de
múltiplos processos em diferentes fluxos de
dados no mesmo job.
ETL X HardCore
● Desenvolver e Manutenção uma rotina de
carga em uma ferramenta de ETL é muito mais
fácil e rápido que codificá-la. Segue padrões.
● Desempenho: As ferramentas de ETL utilizam
métodos mais performáticos.
● Execução em paralelo: Ferramentas de ETL
possuem recursos de paralelização nativos e
facilmente implementáveis.
ETL X HardCore
● Escalabilidade: Ferramentas de ETL podem ser
transferidas de servidor mais facilmente e até
eventualmente distribuir sua carga entre vários servidores.
● Diversidade de conectores: A conexão de uma
ferramenta de ETL com múltiplas fontes de dados é
transparente.
● Reusabilidade:Uma carga normalmente pode ser
reaproveitada dentro de outras cargas ou sobre a forma de
um template
● Documentação, Maior garantia da qualidade dos dados,
Auditoria & Tracking, Segurança
Ferramentas de ETL
Proprietárias
● Oracle Warehouse Builder (OWB)
● IBM Information Server (Data Stage)
● Integration Services (SSIS)
● Power Center (antigo Power Mart)
Open Source
● Pentaho Data Integration ( Kettle )
● Talend
ETL no Processo de BI
Kettle Project
Pentaho Data Integration (PDI, ou Kettle) é
um componente da suíte do Pentaho
responsável pelos processos de ETL.
●
Hacker
● Matt Casters
Chief Architect, Pentaho Data Integration
Kettle Project Founder , Atualmente Trabalha na
Pentaho Corporation.
Pentaho Suite
Kettle
● Apesar de ferramentas de ETL serem usadas em
projetos de data warehouse, PDI pode também ser
usado para:
● Migração de dados entre aplicações/banco de dados
● Exportar dados de banco de dados para arquivos texto
● Carregar massivamente dados em banco de dados
● Data Cleansing – disciplina de qualidade/limpeza de
dados de data warehouse
● Integração de aplicações.
Aplicações
● Spoon - ferramenta gráfica com que se desenha e testa
todo processo do PDI
● Pan - Programa que pode executar transformações
desenhadas no Spoon e que estejam tanto em arquivos
como em repositórios em banco de dados.
● Kitchen -ferramenta usada para executar Jobs a partir de
janelas de terminais.
● Carter – Suporte a configuração de SOA.
Transformação
● Rotina com coleção de passos
interligados
● O primeiro á a fonte de dados
● O último representa a saída de
dados.
● Pode ser colocadas varias
fontes de dados e saídas
● É recomendado 1 transformação
para cada dimensão ou tabela
fato
Steps
● Um passo é uma unidade mínima dentro de
uma transformação.
● Grande variedade de passos
● Agrupada em categorias
( input , Output, etc)
● Os tipos básicos são :
entrada, transformação, saída
Hops
● Representação gráfica do fluxo de dados
entre dois passos (conexão)
● Um deles Origem e outro Destino.
Jobs
● É uma rotina de execução
● Pode executar uma ou mais transformações
● Utilizado para cargas de tabelas fatos
Na Prática...
Cluster
● Suporte a clusterização e processamento
distribuído.
●
Agendamento
● O Kettle tem agente de Agendamento
● Pode ser usado o agendador do SO. ( cron )
● Ou usado em conjunto ( kettle + SO )
Big Data
Orquestrando Big Data
Data Mining
● Tem steps ( plugins ) para geração de
arquivos para Mineração de dados ( Weka )
●
Marketplace
● Possibilidade de Instalar novos Plugins
● Novas Funcionalidades
● Integrado ao ambiente ( Kettle ).
Bibliografia
● Kettle Project
http://kettle.pentaho.com/
● Pentaho Big Data
http://www.pentahobigdata.com
● Gustavo Maia
http://gustavomaiaaguiar.wordpress.com/2010/05/10/por-que-utilizar-uma-ferramenta-de-etl/
● Step Documentation
http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps
●
Contato
● Blog
blogs.ambientelivre.com.br/marcio/
● Listas Pentaho:
● Pentaho BR, Pentaho Brasil , Pentaho
Fortaleza.
Marcio Junior Vieira
e-mail: marcio -@- ambientelivre.com.br

Mais conteúdo relacionado

Mais procurados

Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
Campus Party Brasil
 

Mais procurados (19)

Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
SQLite: um motor de bases de dados relacional open source
SQLite: um motor de bases de dados relacional open sourceSQLite: um motor de bases de dados relacional open source
SQLite: um motor de bases de dados relacional open source
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Exercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationExercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data Integration
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Introdução ao BD Postgre
Introdução ao BD PostgreIntrodução ao BD Postgre
Introdução ao BD Postgre
 
Open Source BI
Open Source BIOpen Source BI
Open Source BI
 
Curso de Criação de Dashboards com o Pentaho (BI Open Source)
Curso de Criação de Dashboards com o Pentaho (BI Open Source)Curso de Criação de Dashboards com o Pentaho (BI Open Source)
Curso de Criação de Dashboards com o Pentaho (BI Open Source)
 
Começando no Pentaho
Começando no PentahoComeçando no Pentaho
Começando no Pentaho
 
NoSql e NewSql
NoSql e NewSqlNoSql e NewSql
NoSql e NewSql
 
Documento SpagoBI
Documento SpagoBIDocumento SpagoBI
Documento SpagoBI
 
Apresentação SpagoBI
Apresentação SpagoBIApresentação SpagoBI
Apresentação SpagoBI
 
Java Web, o Tutorial
Java Web, o TutorialJava Web, o Tutorial
Java Web, o Tutorial
 

Destaque

Migrando de Oracle para PostgreSQL
Migrando de Oracle para PostgreSQLMigrando de Oracle para PostgreSQL
Migrando de Oracle para PostgreSQL
Fernando Ike
 
WORKING AND PROGRAMMING OF KUKA ROBOT
WORKING AND PROGRAMMING OF KUKA ROBOTWORKING AND PROGRAMMING OF KUKA ROBOT
WORKING AND PROGRAMMING OF KUKA ROBOT
Shahid Faizee
 

Destaque (10)

Migrando de Oracle para PostgreSQL
Migrando de Oracle para PostgreSQLMigrando de Oracle para PostgreSQL
Migrando de Oracle para PostgreSQL
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3 Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho Day
 
Migrating from Oracle to Postgres
Migrating from Oracle to PostgresMigrating from Oracle to Postgres
Migrating from Oracle to Postgres
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Robótica y programación Kuka
Robótica y programación KukaRobótica y programación Kuka
Robótica y programación Kuka
 
WORKING AND PROGRAMMING OF KUKA ROBOT
WORKING AND PROGRAMMING OF KUKA ROBOTWORKING AND PROGRAMMING OF KUKA ROBOT
WORKING AND PROGRAMMING OF KUKA ROBOT
 

Semelhante a Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source - FLISOL 2015 - Curitiba

CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO) CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
Grupo Treinar
 

Semelhante a Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source - FLISOL 2015 - Curitiba (20)

A Linguagem Php
A Linguagem PhpA Linguagem Php
A Linguagem Php
 
Developer Experience no Nubank
Developer Experience no NubankDeveloper Experience no Nubank
Developer Experience no Nubank
 
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
 
Qualidade em projetos PHP - PHPSC Conf 2011
Qualidade em projetos PHP - PHPSC Conf 2011Qualidade em projetos PHP - PHPSC Conf 2011
Qualidade em projetos PHP - PHPSC Conf 2011
 
Qualidade em projetos PHP - SoLiSC 2011
Qualidade em projetos PHP - SoLiSC 2011Qualidade em projetos PHP - SoLiSC 2011
Qualidade em projetos PHP - SoLiSC 2011
 
CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO) CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
CURSO DELPHI FUND. CLIENT SERVER (DIURNO)
 
Open Source2
Open Source2Open Source2
Open Source2
 
Open S
Open SOpen S
Open S
 
Open Source2
Open Source2Open Source2
Open Source2
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Por que PostgreSQL?
Por que PostgreSQL?Por que PostgreSQL?
Por que PostgreSQL?
 
Integração de Serviços em Plataforma Livre
Integração de Serviços em Plataforma LivreIntegração de Serviços em Plataforma Livre
Integração de Serviços em Plataforma Livre
 
Apresentação final
Apresentação finalApresentação final
Apresentação final
 
MuleSoft_Meetup_ABR_2022_v1.pptx
MuleSoft_Meetup_ABR_2022_v1.pptxMuleSoft_Meetup_ABR_2022_v1.pptx
MuleSoft_Meetup_ABR_2022_v1.pptx
 
Workshop AMA/ESOP Gestão Documental 2009 05
Workshop AMA/ESOP Gestão Documental 2009 05Workshop AMA/ESOP Gestão Documental 2009 05
Workshop AMA/ESOP Gestão Documental 2009 05
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
 
Cursos
CursosCursos
Cursos
 
Plsql
PlsqlPlsql
Plsql
 
Desconstruindo monolitos - Construindo microservicos em Delphi
Desconstruindo monolitos - Construindo microservicos em DelphiDesconstruindo monolitos - Construindo microservicos em Delphi
Desconstruindo monolitos - Construindo microservicos em Delphi
 
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos DelphiTDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
TDCPOA2018 - Trilha Delphi - Desconstruindo Monolitos Delphi
 

Mais de Ambiente Livre

Mais de Ambiente Livre (18)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Último

Último (9)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 

Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source - FLISOL 2015 - Curitiba

  • 1. Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2. MARCIO JUNIOR VIEIRA ● CEO da Ambiente Livre Tecnologia. ● Desenvolvedor de Software ,Trabalha com Software Livre desde 2000. ● Formado em Tecnologia em Informática(UFPR), Pós-Graduado em Software Livre(UFPR). ● Palestrante em congressos relacionados a Software Livre: FISL, CONISLI, SOLISC, LATINOWARE, FLISOL, SFD, Joomla Day,Pentaho Day. ● Especialista em implantação e customização de Pentaho CE, Alfresco, LimeSurvey, Joomla, SugarCRM e dotProject. ● Ativista FOSS e Moderador da Lista PentahoBR
  • 4. Software Livre as 4 Leis (GPL) ● "Software livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré- requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie.
  • 5. ETL ou ETC ● Extração, Transformação e Carga (Extract, Transform, Load – ETL). ● Extração de dados dos sistemas de origem ● Transformação : Seleção, Tradução de Valores Codificados (Ex. 1 p/ sexo masculino) , Cálculos , Junção , Transposição. ● Carga: Armazenagem no DW ( Dados Históricos )
  • 7. Desafios ETL ● Gama de valores e qualidade de dados ● Escalabilidade ● Volume de dados ● Diversidade
  • 8. Processamento Paralelo ● Dados: Divisão de um único arquivo sequencial em arquivos de dados menores. ● Pipeline: Permitindo a execução simultânea de diversos componentes no mesmo fluxo de dados. ● Componente: Execução simultânea de múltiplos processos em diferentes fluxos de dados no mesmo job.
  • 9. ETL X HardCore ● Desenvolver e Manutenção uma rotina de carga em uma ferramenta de ETL é muito mais fácil e rápido que codificá-la. Segue padrões. ● Desempenho: As ferramentas de ETL utilizam métodos mais performáticos. ● Execução em paralelo: Ferramentas de ETL possuem recursos de paralelização nativos e facilmente implementáveis.
  • 10. ETL X HardCore ● Escalabilidade: Ferramentas de ETL podem ser transferidas de servidor mais facilmente e até eventualmente distribuir sua carga entre vários servidores. ● Diversidade de conectores: A conexão de uma ferramenta de ETL com múltiplas fontes de dados é transparente. ● Reusabilidade:Uma carga normalmente pode ser reaproveitada dentro de outras cargas ou sobre a forma de um template ● Documentação, Maior garantia da qualidade dos dados, Auditoria & Tracking, Segurança
  • 11. Ferramentas de ETL Proprietárias ● Oracle Warehouse Builder (OWB) ● IBM Information Server (Data Stage) ● Integration Services (SSIS) ● Power Center (antigo Power Mart) Open Source ● Pentaho Data Integration ( Kettle ) ● Talend
  • 13. Kettle Project Pentaho Data Integration (PDI, ou Kettle) é um componente da suíte do Pentaho responsável pelos processos de ETL. ●
  • 14. Hacker ● Matt Casters Chief Architect, Pentaho Data Integration Kettle Project Founder , Atualmente Trabalha na Pentaho Corporation.
  • 16. Kettle ● Apesar de ferramentas de ETL serem usadas em projetos de data warehouse, PDI pode também ser usado para: ● Migração de dados entre aplicações/banco de dados ● Exportar dados de banco de dados para arquivos texto ● Carregar massivamente dados em banco de dados ● Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse ● Integração de aplicações.
  • 17. Aplicações ● Spoon - ferramenta gráfica com que se desenha e testa todo processo do PDI ● Pan - Programa que pode executar transformações desenhadas no Spoon e que estejam tanto em arquivos como em repositórios em banco de dados. ● Kitchen -ferramenta usada para executar Jobs a partir de janelas de terminais. ● Carter – Suporte a configuração de SOA.
  • 18.
  • 19. Transformação ● Rotina com coleção de passos interligados ● O primeiro á a fonte de dados ● O último representa a saída de dados. ● Pode ser colocadas varias fontes de dados e saídas ● É recomendado 1 transformação para cada dimensão ou tabela fato
  • 20. Steps ● Um passo é uma unidade mínima dentro de uma transformação. ● Grande variedade de passos ● Agrupada em categorias ( input , Output, etc) ● Os tipos básicos são : entrada, transformação, saída
  • 21. Hops ● Representação gráfica do fluxo de dados entre dois passos (conexão) ● Um deles Origem e outro Destino.
  • 22. Jobs ● É uma rotina de execução ● Pode executar uma ou mais transformações ● Utilizado para cargas de tabelas fatos
  • 24. Cluster ● Suporte a clusterização e processamento distribuído. ●
  • 25. Agendamento ● O Kettle tem agente de Agendamento ● Pode ser usado o agendador do SO. ( cron ) ● Ou usado em conjunto ( kettle + SO )
  • 28. Data Mining ● Tem steps ( plugins ) para geração de arquivos para Mineração de dados ( Weka ) ●
  • 29. Marketplace ● Possibilidade de Instalar novos Plugins ● Novas Funcionalidades ● Integrado ao ambiente ( Kettle ).
  • 30. Bibliografia ● Kettle Project http://kettle.pentaho.com/ ● Pentaho Big Data http://www.pentahobigdata.com ● Gustavo Maia http://gustavomaiaaguiar.wordpress.com/2010/05/10/por-que-utilizar-uma-ferramenta-de-etl/ ● Step Documentation http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps ●
  • 31. Contato ● Blog blogs.ambientelivre.com.br/marcio/ ● Listas Pentaho: ● Pentaho BR, Pentaho Brasil , Pentaho Fortaleza. Marcio Junior Vieira e-mail: marcio -@- ambientelivre.com.br