O documento apresenta informações sobre Business Intelligence (BI) e ferramentas open source de BI como Pentaho. Discute conceitos como arquitetura de dados, modelagem estrela e desnormalização para fins analíticos. Apresenta também conceitos de bancos de dados NoSQL e ferramentas do Pentaho para integrar dados em bancos como MongoDB.
8. Analytics no mercado mundial, Gartner:
• 2010: +13.4%
• 2011: +16.4% == $12.2 billion
• 2º em crescimento software market
América Latina:
• 2010: +19.5%
9. BI architecture
FONTE DE DADOS PROCESSO DE ETL DATA WAREHOUSE APRESENTAÇÃO
CENTRAL DASHBOARDS OLAP
WAREHOUSE
Arquivos ÁREA DE ESTÁGIO
SGBD
SGBD
ETL DATA
DSS
SGBD MINING
ETL ETL
ERP
DOCUMENTOS
Arquivos
CRM DATA MARTS
(Luiz H. N. Lorena, 2011)
10. Star Schema
TEMPO
CLIENTE PRODUTO
VENDAS
PROMOÇÃO LOJA
(Luiz H. N. Lorena, 2011)
13. Operacional x Analytics
Operacional Analítico
Propósito Executar um processo Avaliar um processo
Estilo interação Insert, update, delete, query Query (read-only)
Escopo interação Transação individual Agregação
Padrão query Previsível e estável Imprevisível
Foco temporal Atual Histórico e atual
Otimização Update concorrente Query (agregação)
Projeto ER na 3FN Star Schema ou Cubo
(Adamson, 2010)
16. Pentaho == BI suite
• Reporting, OLAP, Pivot Tables, Dashboarding,
Data Mining
• Requisito: Java (JRE + JDK)
• JAVA_HOME, JRE_HOME, PATH E CLASSPATH
• Download community.pentaho.com
17. BI-Server
• Extrair biserver-ce para c:program
filespentaho (exemplo)
• Adionar o user com full control no properties
security do diretorio
• start-pentaho.bat ou start-pentaho.sh
• http://localhost:8080/pentaho/Login
• User == joe e Senha == password
• Não esquecer: stop-pentaho.bat
21. Pentaho Data Integration
• ETL: Extract, Transform, Load
• Extrair pdi-ce no mesmo diretório pentaho
• spoon.bat
• Inicialmente não usaremos o repositório
• Ferramenta gráfica, mas os scripts são
executados em lote quando em produção
23. BigData and NoSQL
• Dados crescem exponencialmente
• Wallmart == 1M transactions/hour
• Facebook == 40B photos
24. Escalabilidade vertical
• Escalabilidade para leituras num banco
relacional: trabalhoso
• Escalabilidade para escritas num banco
relacional: MUITO, MUITO, trabalhoso
(se conseguir ele deixou de ser
relacional...)