SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
INE5643 - Data Warehouse Copyright © 2007 José Leomar Todesco
INE 5643
Data Warehouse
Aula 10a - Back Room - Utilizando o Pentaho Data
Integration (PDI)
Prof. Mateus Grellert
Prof. Renato Fileto
Departamento de Informática e Estatística (INE)
Universidade Federal de Santa Catarina (UFSC)
Ciclo de Vida de Kimball
2
Mapeamento dos capítulos do livro (2a edição)
Cap. 2
Ciclo de Projeto DW
Administração do Projeto
Definição
dos
Requisitos
de
Negócio
Modelagem
Dimensional
Projeto
Físico
Desenvolvimento
e Projeto da Área
de Transição
Implantação
e
Manutenção
Especificação
da Aplicação
do Usuário
Final
Desenvolvimento
da Aplicação do
Usuário Final
Projeto e
Arquitetura
Técnica
Instalação e
Seleção de
Produtos
3
Planejamento
do Projeto
Quadrado Mágico das Ferramentas de Data Integration
4
Quadrado Mágico das Ferramentas de Data Integration
5
Pentaho
Data
Integration
(PDI)
6
● Conjunto de software
e soluções de BI
● Versões Community
e Enterprise
● ETL em software livre
● Vamos trabalhar com
a ferramenta
Pentaho Data
Integration (PDI) -
antigo Kettle
Pentaho Data Integration
● Usado para criar processos de ETL
● Suporta:
○ Interface com sistemas de arquivos
○ Migração de dados
○ Movimentação de Big Data
○ Transformações de dados
○ Limpeza de dados
○ Conformidade de dados
○ Vários plugins úteis
7
PDI - Conceitos Básicos
Spoon - interface gráfica do PDI
8
Transformações e Jobs
● O PDI trabalha com dois tipos de processos:
transformações e jobs
● As transformações são as principais responsáveis
por trabalhar sobre os dados
● Os jobs servem para encadear transformações e
outras operações para gerar processos mais
sofisticados e controlar sua execução periódica
9
Transformações - Exemplos
● Leitura de arquivos
● Cálculos de novas dimensões
● Seleção de linhas de uma tabela
● Scripts (Python, JS)
● Ordenação
10
Jobs
● Jobs servem para orquestrar as transformações em
sequência e atualizar os dados do DWH periodicamente
11
JOB (*.kjb) Transformação (*.ktr)
Passos são executados sequencialmente. Passos são executados simultaneamente
Opera sobre o fluxo de ações Opera sobre as linhas de dados
Organização Transformação
Mover arquivos Cálculos
Criar/apagar tabelas Carga de Dados
Testar condições Aplicação de regras de negócio
Plugins
● A comunidade Pentaho criou vários
plugins muito úteis para estender as
funcionalidades das aplicações
● Estão disponíveis no Marketplace
● Exemplo: CPython - permite o uso de
scripts em Python nas transformações
do PDI
12
Metodologia de Desenvolvimento com Pentaho
1. Identificar fontes de dados operacionais (OLTP)
2. Desenvolver um esquema dimensional que inclui dimensões e
fatos (medidas)
3. Implementar o banco de dados dimensional em um sistema de
banco de dados apropriado. Isso inclui criar tabelas, coleções
etc. para armazenar as dimensões e fatos
4. Criar as tarefas de ETL para identificar dados novos/alterados
nos sistemas OLTP e transformá-los de acordo com as
dimensões e fatos
5. Usar as tarefas de ETL para uma "Carga Inicial" dos dados para
o DWH
6. Definir um conjunto de jobs ETL para realizar cargas
incrementais de dados
7. Desenvolver relatórios de BA/BI (muitas vezes como tabelas
dinâmicas/pivot), gráficos, mapas, dashboards, apps, etc.
13
Links úteis
● Pentaho Data Integration (Kettle):
○ download link,
○ guia de instalação
○ como instalar libwebgtk
○ CPython Plugin
○ Guia rápido sobre o Pentaho
https://www.infoq.com/br/articles/pentaho-pdi
○ Ótimo site com muito conteúdo sobre DWH e Pentaho
https://holowczak.com/ (buscar Pentaho para acessar tutoriais)
14
Exercício
1) Instale o Pentaho Data Integration
2) Instale o Plugin CPython
3) Selecione uma fonte de dados de sua preferência
(Exemplo: covid dataset do Kaggle)
4) Abra essa fonte no PDI
5) Adicione uma transformação de sua escolha
(Exemplo: calculadora)
6) [opcional] Adicione alguma análise em Python e salve
os resultados em um arquivo CSV/XLS
7) Salve o novo arquivo em um documento XLS
15

Mais conteúdo relacionado

Semelhante a PDI ETL com Python

Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Mauricio Cesar Santos da Purificação
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8confidencial
 
CV Rogério Casimiro Reis 2015
CV Rogério Casimiro Reis 2015CV Rogério Casimiro Reis 2015
CV Rogério Casimiro Reis 2015Rog Casimiro Reis
 
Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1Januário Neto
 
Estado arte i3geo_marco_2014
Estado arte i3geo_marco_2014Estado arte i3geo_marco_2014
Estado arte i3geo_marco_2014Edmar Moretti
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...Fabrício Catae
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftDennes Torres
 
DataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigaçãoDataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigaçãoPedro Príncipe
 
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria IztaccihuatlProposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatlsusilene Barbosa
 
Iccyber 2010 - Sandro Süffert Avanços Tecnológicos
Iccyber 2010 - Sandro Süffert   Avanços TecnológicosIccyber 2010 - Sandro Süffert   Avanços Tecnológicos
Iccyber 2010 - Sandro Süffert Avanços TecnológicosSandro Suffert
 

Semelhante a PDI ETL com Python (20)

Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8
 
CV Rogério Casimiro Reis 2015
CV Rogério Casimiro Reis 2015CV Rogério Casimiro Reis 2015
CV Rogério Casimiro Reis 2015
 
Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1
 
Estado arte i3geo_marco_2014
Estado arte i3geo_marco_2014Estado arte i3geo_marco_2014
Estado arte i3geo_marco_2014
 
Manual Pentaho 3.5
Manual Pentaho 3.5Manual Pentaho 3.5
Manual Pentaho 3.5
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 
DataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigaçãoDataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigação
 
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria IztaccihuatlProposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
 
Iccyber 2010 - Sandro Süffert Avanços Tecnológicos
Iccyber 2010 - Sandro Süffert   Avanços TecnológicosIccyber 2010 - Sandro Süffert   Avanços Tecnológicos
Iccyber 2010 - Sandro Süffert Avanços Tecnológicos
 

PDI ETL com Python

  • 1. INE5643 - Data Warehouse Copyright © 2007 José Leomar Todesco INE 5643 Data Warehouse Aula 10a - Back Room - Utilizando o Pentaho Data Integration (PDI) Prof. Mateus Grellert Prof. Renato Fileto Departamento de Informática e Estatística (INE) Universidade Federal de Santa Catarina (UFSC)
  • 2. Ciclo de Vida de Kimball 2 Mapeamento dos capítulos do livro (2a edição) Cap. 2
  • 3. Ciclo de Projeto DW Administração do Projeto Definição dos Requisitos de Negócio Modelagem Dimensional Projeto Físico Desenvolvimento e Projeto da Área de Transição Implantação e Manutenção Especificação da Aplicação do Usuário Final Desenvolvimento da Aplicação do Usuário Final Projeto e Arquitetura Técnica Instalação e Seleção de Produtos 3 Planejamento do Projeto
  • 4. Quadrado Mágico das Ferramentas de Data Integration 4
  • 5. Quadrado Mágico das Ferramentas de Data Integration 5 Pentaho Data Integration (PDI)
  • 6. 6 ● Conjunto de software e soluções de BI ● Versões Community e Enterprise ● ETL em software livre ● Vamos trabalhar com a ferramenta Pentaho Data Integration (PDI) - antigo Kettle
  • 7. Pentaho Data Integration ● Usado para criar processos de ETL ● Suporta: ○ Interface com sistemas de arquivos ○ Migração de dados ○ Movimentação de Big Data ○ Transformações de dados ○ Limpeza de dados ○ Conformidade de dados ○ Vários plugins úteis 7
  • 8. PDI - Conceitos Básicos Spoon - interface gráfica do PDI 8
  • 9. Transformações e Jobs ● O PDI trabalha com dois tipos de processos: transformações e jobs ● As transformações são as principais responsáveis por trabalhar sobre os dados ● Os jobs servem para encadear transformações e outras operações para gerar processos mais sofisticados e controlar sua execução periódica 9
  • 10. Transformações - Exemplos ● Leitura de arquivos ● Cálculos de novas dimensões ● Seleção de linhas de uma tabela ● Scripts (Python, JS) ● Ordenação 10
  • 11. Jobs ● Jobs servem para orquestrar as transformações em sequência e atualizar os dados do DWH periodicamente 11 JOB (*.kjb) Transformação (*.ktr) Passos são executados sequencialmente. Passos são executados simultaneamente Opera sobre o fluxo de ações Opera sobre as linhas de dados Organização Transformação Mover arquivos Cálculos Criar/apagar tabelas Carga de Dados Testar condições Aplicação de regras de negócio
  • 12. Plugins ● A comunidade Pentaho criou vários plugins muito úteis para estender as funcionalidades das aplicações ● Estão disponíveis no Marketplace ● Exemplo: CPython - permite o uso de scripts em Python nas transformações do PDI 12
  • 13. Metodologia de Desenvolvimento com Pentaho 1. Identificar fontes de dados operacionais (OLTP) 2. Desenvolver um esquema dimensional que inclui dimensões e fatos (medidas) 3. Implementar o banco de dados dimensional em um sistema de banco de dados apropriado. Isso inclui criar tabelas, coleções etc. para armazenar as dimensões e fatos 4. Criar as tarefas de ETL para identificar dados novos/alterados nos sistemas OLTP e transformá-los de acordo com as dimensões e fatos 5. Usar as tarefas de ETL para uma "Carga Inicial" dos dados para o DWH 6. Definir um conjunto de jobs ETL para realizar cargas incrementais de dados 7. Desenvolver relatórios de BA/BI (muitas vezes como tabelas dinâmicas/pivot), gráficos, mapas, dashboards, apps, etc. 13
  • 14. Links úteis ● Pentaho Data Integration (Kettle): ○ download link, ○ guia de instalação ○ como instalar libwebgtk ○ CPython Plugin ○ Guia rápido sobre o Pentaho https://www.infoq.com/br/articles/pentaho-pdi ○ Ótimo site com muito conteúdo sobre DWH e Pentaho https://holowczak.com/ (buscar Pentaho para acessar tutoriais) 14
  • 15. Exercício 1) Instale o Pentaho Data Integration 2) Instale o Plugin CPython 3) Selecione uma fonte de dados de sua preferência (Exemplo: covid dataset do Kaggle) 4) Abra essa fonte no PDI 5) Adicione uma transformação de sua escolha (Exemplo: calculadora) 6) [opcional] Adicione alguma análise em Python e salve os resultados em um arquivo CSV/XLS 7) Salve o novo arquivo em um documento XLS 15