@fmasanori
http://www.slideshare.net/fmasanori
•   Conhecendo o palestrante
•   Conhecendo os assistentes
•   Business Intelligence
•   Pentaho
•   Big Data and NoSQL
•   Perguntas
•   IME-USP e Mestrado ITA
•   ed e lint Cobra Tecnologia
•   Software Express
•   Credicard Mastercard
•   PriceWaterhouseCoopers
•   ITAU BankBoston
•   Docente FATEC (amo dar aulas)
•   Interesses: Python, NoSQL, Google
    Technology, Facebook
Conhecendo os assistentes
•   Estudantes
•   Docentes
•   Java Dev
•   Conhece Sang Shin (JavaPassion)
•   Sun Tech Days, JavaOne
•   Business Intelligence
•   Pentaho
Business Intelligence
Business Intelligence
Business Intelligence

Gartner's 2012 CIO survey
showed that analytics and
BI is the No. 1 technology
 priority for CIOs in 2012
Analytics no mercado mundial, Gartner:
• 2010: +13.4%
• 2011: +16.4% == $12.2 billion
• 2º em crescimento software market

América Latina:
• 2010: +19.5%
BI architecture
  FONTE DE DADOS         PROCESSO DE ETL          DATA WAREHOUSE     APRESENTAÇÃO


                                                      CENTRAL      DASHBOARDS        OLAP
                                                     WAREHOUSE
Arquivos                  ÁREA DE ESTÁGIO


                                                        SGBD
SGBD
                                                        ETL            DATA
                                                                                      DSS
                               SGBD                                   MINING
                   ETL                      ETL



 ERP

                                                                        DOCUMENTOS
                              Arquivos

 CRM                                                 DATA MARTS


                                                                     (Luiz H. N. Lorena, 2011)
Star Schema
                     TEMPO




CLIENTE                                    PRODUTO


                     VENDAS




          PROMOÇÃO            LOJA


                                     (Luiz H. N. Lorena, 2011)
Denormalization




                  (Kimball, 2002)
Denormalization
Aggregation performance




                    (Kimball, 2002)
Operacional x Analytics
                           Operacional                  Analítico
Propósito             Executar um processo         Avaliar um processo
Estilo interação   Insert, update, delete, query    Query (read-only)

Escopo interação       Transação individual             Agregação

Padrão query           Previsível e estável            Imprevisível
Foco temporal                 Atual                  Histórico e atual
Otimização             Update concorrente           Query (agregação)
Projeto                     ER na 3FN              Star Schema ou Cubo
                                                                (Adamson, 2010)
Open Source == comunidade ativa
Pentaho == BI suite
•   Reporting, OLAP, Pivot Tables, Dashboarding,
    Data Mining
•   Requisito: Java (JRE + JDK)
•   JAVA_HOME, JRE_HOME, PATH E CLASSPATH
•   Download community.pentaho.com
BI-Server
•   Extrair biserver-ce para c:program
    filespentaho (exemplo)
•   Adionar o user com full control no properties
    security do diretorio
•   start-pentaho.bat ou start-pentaho.sh
•   http://localhost:8080/pentaho/Login
•   User == joe e Senha == password
•   Não esquecer: stop-pentaho.bat
Demo
Administration Console
•   start-pac.bat
•   http://massa-pc:8099/
•   User == admin e Senha == password
•   Não esquecer: stop-pac.bat
Demo
Pentaho Data Integration
•   ETL: Extract, Transform, Load
•   Extrair pdi-ce no mesmo diretório pentaho
•   spoon.bat
•   Inicialmente não usaremos o repositório
•   Ferramenta gráfica, mas os scripts são
    executados em lote quando em produção
Demo
BigData and NoSQL
• Dados crescem exponencialmente




• Wallmart == 1M transactions/hour
• Facebook == 40B photos
Escalabilidade vertical 
• Escalabilidade para leituras num banco
  relacional: trabalhoso
• Escalabilidade para escritas num banco
  relacional: MUITO, MUITO, trabalhoso
  (se conseguir ele deixou de ser
  relacional...)
Escalabilidade vertical 
Escalabilidade horizontal 
Not Only SQL
• JSON oriented
• Autosharding
• Full featured indexes
Cassandra:
 • Linearly Scalable
 • Column based
Pentaho BigData
Demo
 http://wiki.pentaho.com/display/BAD/Write+Data+To+MongoDB
http://wiki.pentaho.com/display/BAD/Read+Data+From+MongoDB
Bibliografia
Bibliografia
Perguntas?
 fmasanori@gmail.com

facebook.com/fmasanori
 twitter.com/fmasanori

Pentaho JUG Vale 2012