Ciclo de palestras anual para compartilhamento de conhecimentos desenvolvidos e/ou de interesse dos colaboradores. Disseminar e divulgar conhecimento entre os colaboradores da empresa, bem como com clientes convidados. Tem como objetivo aumentar a integração entre os colaboradores e projetos e o fortalecimento da marca em relação aos clientes.
2. Pentaho PDI
Objetivo e Motivação
Source: Ralph Kimball, Joe Caserta:
The Data Warehouse ETL Toolkit; Wiley 2004
“A data warehouse is a system that extracts, cleans, conforms, and
delivers source data into a dimensional data store and then supports
and implements querying and analysis for the purpose of decision
making.”
3. A parte mais visível de toda esta estrutura diz respeito a:
Porém, a parte mais complexa e que consome mais tempo são as ações de:
Objetivo e Motivação
Pentaho PDI
E o quão complexo é tudo isto?
+ 70-80% de um projeto de BI depende de um processo de
ETL robusto e confiável
“consultas e analises”
“extracts, cleans, conforms, and delivers”
4. Coletando Dados
Pentaho PDI
E como carregar dados em um DW ou Banco de Dados ?
• Scripts em linux shell, perl, python, ...
• sqlldr + SQL
• Hardcode em Java, C#, C
• Ferramenta construída localmente simulando um ETL
• Por meio de um ETL de verdade
5. O framework Pentaho
Pentaho PDI
A suite Pentaho é um conjunto de softwares voltados para construção
de soluções de BI, de ponta-a-ponta, que inclui programas para extrair
dados dispersos em uma empresa, gravá-los em um data warehouse
(ou base de dados), limpá-los, prepará-los e entregá-los a outros
sistemas ou a outros de seus componentes para estudar ou dar
acesso aos dados ao usuário final.
7. O Pentaho Kettle - PDI
Pentaho PDI
O PDI é utilizado para criar processos de extração, transformação e carga
(ETC, ou ETL (Extraction, Transformation and Loading) em inglês) que
alimentam banco de dados.
Trata-se da ferramenta mais popular e madura da suíte inteira com seus
mais de 15 anos de existência.
8. O que é possível fazer com o PDI?
Pentaho PDI
Absolutamente TUDO quando diz respeito a transferência e migração de
informação entre sistemas.
Desde carga de arquivos DBF, arquivos XLS, Migração de dados entre banco
de dados distintos, limpeza de dados, etc...
E o mais importante:
Transportar informação de forma rápida, eficiente e com qualidade
evitando a reinvenção da roda com implementações de programas para
realizar a tarefa de um ETL estruturado e consolidado.
10. Caso de Uso 2 – Limpar arquivos TXT/CSV
Pentaho PDI
11. Pentaho PDI
Um componente importante em um projeto de BI é o
processo de Extrair, Transformar e Carregar (ETL). Ele
descreve a coleta de dados de várias fontes (extrair), sua
modificação para combinar o estado desejado
(transformação) e sua importação em um banco de dados
ou data warehouse (carga). Um alto desempenho é,
portanto, vital para poder processar grandes quantidades de
dados e ter um banco de dados atualizado e confiável.
12. 2M USD em saving
com o uso de ETL
Open Source
Pentaho PDI
13. OBRIGADO!
www.atech.com.br
contato@atech.com.br
SÃO JOSÉ DOS CAMPOS
Rodovia Presidente Dutra, KM 138
Bloco 3, Sala 302
+55 12 3878-4373
SÃO PAULO
Rua do Rocio, 313 - 4° andar
Vila Olímpia
+55 11 3103-4600
ATECH Talks
Apresentações e discussões sobre assuntos
técnicos de interesse.
SDTA
Ciclo de palestras anual para compartilhamento
de conhecimentos desenvolvidos e/ou de
interesse dos colaboradores.
UX CAFÉ
Encontro mensal com o objetivo de debater sobre
os temas usabilidade, design e experiência do
usuário.