SlideShare uma empresa Scribd logo
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Introdução às ferramentas de
Business Intelligence do
ecossistema Hadoop
Prof. Dr. Jose Fernando Rodrigues-Jr
Julho/2017
1
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Roteiro
 Business Intelligence e Big Data
 Big Data warehousing
 Arquitetura de um data warehouse
 Hadoop e Apache Hive
 Extract Transform Load
 Data warehouse vs Banco de dados operacional
 OLAP – Online Analytical Processing
 Apache Kylin
 Soluções OLAP convencionais
 Advanced Analytics com o Apache Mahout
 Conclusões
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence e Big Data
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence
- - entendimento da base de dados da
empresa, gerando saídas lógicas e estratégicas;
- norteia as ações tomadas por uma
organização, com base em dados com potencial
estratégico;
- possibilidade de se acompanhar o que ocorre no
negócio, assim como também no mercado.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tarefas
-medição: criação de medidas que indicam o
progresso da empresa em direção às metas;
-reporting: geração de relatórios sobre dados
estratégicos e de infraestrutura – OLAP e
visualização;
-analytics: uso exploratório de dados – mineração
de dados, aprendizado de máquina, e predição;
-colaboração: ferramentas que promovem o
trabalho colaborativo intra e extra empresa;
-gerência de conhecimento: promoção do uso das
outras quatro tarefas afim de se alcançar uma
empresa orientada a dados.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tarefas
-medição: criação de medidas que indicam o
progresso da empresa em direção às metas;
-reporting: geração de relatórios sobre dados
estratégicos e de infraestrutura – OLAP e
visualização;
-analytics: uso exploratório de dados – mineração
de dados, aprendizado de máquina, e predição;
-colaboração: ferramentas que promovem o
trabalho colaborativo intra e extra empresa;
-gerência de conhecimento: promoção do uso
das outras quatro tarefas afim de se alcançar uma
empresa orientada a dados.https://www.pac-online.com/operational-bi-continues-its-rise-2016
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tarefas
-medição: criação de medidas que indicam o
progresso da empresa em direção às metas;
-reporting: geração de relatórios sobre dados
estratégicos e de infraestrutura – OLAP e
visualização;
-analytics: uso exploratório de dados – mineração
de dados, aprendizado de máquina, e predição;
-colaboração: ferramentas que promovem o
trabalho colaborativo intra e extra empresa;
-gerência de conhecimento: promoção do uso
das outras quatro tarefas afim de se alcançar uma
empresa orientada a dados.
Departamentos que usam BI
https://www.pac-online.com/operational-bi-continues-its-rise-2016
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tarefas
-medição: criação de medidas que indicam o
progresso da empresa em direção às metas;
-reporting: geração de relatórios sobre dados
estratégicos e de infraestrutura – OLAP e
visualização;
-analytics: uso exploratório de dados – mineração
de dados, aprendizado de máquina, e predição;
-colaboração: ferramentas que promovem o
trabalho colaborativo intra e extra empresa;
-gerência de conhecimento: promoção do uso
das outras quatro tarefas afim de se alcançar uma
empresa orientada a dados.
Principais tendências em BI
https://www.pac-online.com/operational-bi-continues-its-rise-2016
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tarefas
-medição: criação de medidas que indicam o
progresso da empresa em direção às metas;
-reporting: geração de relatórios sobre dados
estratégicos e de infraestrutura – OLAP e
visualização;
-analytics: uso exploratório de dados – mineração
de dados, aprendizado de máquina, e predição;
-colaboração: ferramentas que promovem o
trabalho colaborativo intra e extra empresa;
-gerência de conhecimento: promoção do uso
das outras quatro tarefas afim de se alcançar uma
empresa orientada a dados.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tools
-Big Data: fontes de dados, na maioria das vezes
heterogêneas organizadas em datamarts ou data
warehouses;
-OLAP: software capaz de sumarizar grandes
quantidades de dados de maneira rápida;
-Advanced Analytics: ferramentas estatísticas, de
modelagem, de mineração de dados e de
aprendizado de máquina;
-Visualização: software para exibir os produtos
finais do processamento de dados.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tools
-Big Data: fontes de dados, na maioria das vezes
heterogêneas organizadas em datamarts ou data
warehouses;
-OLAP: software capaz de sumarizar grandes
quantidades de dados de maneira rápida;
-Advanced Analytics: ferramentas estatísticas, de
modelagem, de mineração de dados e de
aprendizado de máquina;
-Visualização: software para exibir os produtos
finais do processamento de dados.
Overview hoje,
detalhes a seguir
Hoje
Hoje
A seguir
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data
-Definição mais recente: refere-se ao fato de
que tudo o que fazemos está cada vez mais
deixando rastros digitais, os quais podem ser
usados para a tomada de decisão;
 Cartão de crédito, celular, GPS, redes sociais, câmeras
fotográficas, sistemas digitais de comunicação,
buscadores, mídia digital, smart devices, ....
-o uso de Big Data torna-se mandatório no
momento quando seus concorrentes fazem uso
dele.
Reflexão: o Big Data gera valor?
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Business Intelligence - Tarefas
-medição: criação de medidas que indicam o
progresso da empresa em direção às metas;
-reporting: geração de relatórios sobre dados
estratégicos e de infraestrutura – OLAP e
visualização;
-analytics: uso exploratório de dados – mineração
de dados, aprendizado de máquina, e predição;
-colaboração: ferramentas que promovem o
trabalho colaborativo intra e extra empresa;
-gerência de conhecimento: promoção do uso
das outras quatro tarefas afim de se alcançar uma
empresa orientada a dados.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data
-Definição mais recente: refere-se ao fato de
que tudo o que fazemos está cada vez mais
deixando rastros digitais, os quais podem ser
usados para a tomada de decisão;
 Cartão de crédito, celular, GPS, redes sociais, câmeras
fotográficas, sistemas digitais de comunicação,
buscadores, mídia digital, smart devices, ....
-o uso de Big Data torna-se mandatório no
momento quando seus concorrentes fazem uso
dele.
Reflexão: o Big Data gera valor?
https://pt.slideshare.net/nasrinhussain1/big-data-ppt-31616290?next_slideshow=1
https://pt.slideshare.net/nasrinhussain1/big-data-ppt-31616290?next_slideshow=1
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data
-Definição mais recente: refere-se ao fato de
que tudo o que fazemos está cada vez mais
deixando rastros digitais, os quais podem ser
usados para a tomada de decisão;
 Cartão de crédito, celular, GPS, redes sociais, câmeras
fotográficas, sistemas digitais de comunicação,
buscadores, mídia digital, smart devices, ....
-o uso de Big Data torna-se mandatório no
momento quando seus concorrentes fazem uso
dele.
Reflexão: o Big Data gera valor?
https://pt.slideshare.net/nasrinhussain1/big-data-ppt-31616290?next_slideshow=1
https://pt.slideshare.net/nasrinhussain1/big-data-ppt-31616290?next_slideshow=1
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data
-Definição acadêmica: baseada nos V’s, de três a
cincos V’s.
Volume
Velocidade
Variedade
Veracidade
Valor
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data
-Definição acadêmica: baseada nos V’s, de três a
cincos V’s.
Volume
Velocidade
Variedade
Veracidade
Valor
https://pt.slideshare.net/BernardMarr/140228-big-data-slide-share/16-The_Dataficationof_our_World_Activities
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data – Exemplos de valor
- Empresas de telecom podem predizer a taxa de abandono
de clientes (customer churn);
- Varejistas podem prever o que será mais vendido (e
ajustar seus estoques e propaganda);
- Seguradoras podem prever como seus clientes irão dirigir
(e ajustar os preços de acordo);
- Mapas eletrônicos e dados de tráfego podem melhorar o
trânsito e a eficiência de cidades.
- Distribuidoras podem otimizar o tempo de entrega ao
otimizar as rotas dinamicamente;
- As redes sociais podem ser usadas para monitorar
epidemias;
- Operadoras de cartão podem identificar padrões de
comportamento fraudulento.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data – Exemplos de valor
- Empresas de telecom podem predizer a taxa de abandono
de clientes (customer churn);
- Varejistas podem prever o que será mais vendido (e
ajustar seus estoques e propaganda);
- Seguradoras podem prever como seus clientes irão dirigir
(e ajustar os preços de acordo);
- Mapas eletrônicos e dados de tráfego podem melhorar o
trânsito e a eficiência de cidades.
- Distribuidoras podem otimizar o tempo de entrega ao
otimizar as rotas dinamicamente;
- As redes sociais podem ser usadas para monitorar
epidemias;
- Operadoras de cartão podem identificar padrões de
comportamento fraudulento.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data e o ecossistema
Hadoop
http://mattturck.com/bigdata2017/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data e o ecossistema
Hadoop
http://mattturck.com/bigdata2017/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Big Data warehousing
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
No início, uma única fonte de dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Exemplo: movimento do caixa da loja física,
Clientes locais, sem propaganda.
No início, uma única fonte de dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Mais tarde
Vendas em loja física, e atacado;
clientes locais, e regionais; propaganda abrangente.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
E assim sucessivamente
Vendas físicas e via Internet;
clientes em todos os locais do país, e nas redes sociais;
propaganda eletrônica.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Finalmente
Vendas internacionais; clientes em dezenas de países;
propaganda eletrônica personalizada por atividade e localização.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Até que…
O que está acontecendo no meu
negócio?
- O que é mais vendido?
- Quando?
- Por qual loja/meio?
- Qual o melhor meio de propaganda?
- Quanto estou faturando?
- Qual seria uma boa oferta?
- As vendas cresceram ou subiram?
- Quais regiões compraram mais?
- Como fazer propaganda?
- ...
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Até que…
O que está acontecendo no meu
negócio?
- O que é vendido mais?
- Quando?
- Por qual loja/meio?
- Qual o melhor meio de propaganda?
- Quanto estou faturando?
- Qual seria uma boa oferta?
- As vendas cresceram ou subiram?
- Quais regiões compraram mais?
- Como fazer propaganda?
- ...
Solução:
Usar os dados das lojas para analisar o que está
acontecendo no meu negócio.
Boa idéia!!!
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Até que…
O que está acontecendo no meu
negócio?
- O que é vendido mais?
- Quando?
- Por qual loja/meio?
- Qual o melhor meio de propaganda?
- Quanto estou faturando?
- Qual seria uma boa oferta?
- As vendas cresceram ou subiram?
- Quais regiões compraram mais?
- Como fazer propaganda?
- ...
Solução:
Usar os dados das lojas para analisar o que está
acontecendo no meu negócio.
Boa idéia!!!
Mas,...
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Impecilhos ao uso dos dados…
- Diversos sistemas de formatos/bancos de dados
em uso nos diferentes setores da empresa:
PostgreSQL, Oracle, NoSQL, texto, planilhas,
geolocalização, logs, ...;
- Cada loja, um controle transacional diferente,
de acordo com suas necessidades regionais;
- Esquemas diferentes, tipos de dados
diferentes, distribuição geográfica, falta de
interconexão.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Impecilhos ao uso dos dados…
- Diversos sistemas de formatos/bancos de dados
em uso nos diferentes setores da empresa:
PostgreSQL, Oracle, NoSQL, texto, planilhas,
geolocalização, logs, ...
- Cada loja, um controle transacional diferente,
de acordo com suas necessidades regionais;
- Esquemas diferentes, tipos de dados
diferentes, distribuição geográfica, falta de
interconexão.
Total falta de conformidade!!!
E muitos, muitos dados!!!
O que fazer?
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Impecilhos ao uso dos dados…
- Diversos sistemas de formatos/bancos de dados
em uso nos diferentes setores da empresa:
PostgreSQL, Oracle, NoSQL, texto, planilhas,
geolocalização, logs, ...
- Cada loja, um controle transacional diferente,
de acordo com suas necessidades regionais;
- Esquemas diferentes, tipos de dados
diferentes, distribuição geográfica, falta de
interconexão.
?
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Objetivos das ferramentas
 Descoberta de conhecimento
 Avaliar
 Prever
 Identificar alternativas
 Suporte à decisão
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Possível solução
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Oracle
Modelagem
x
LogsDB2
Modelagem
y
Texto Pontos
georreferenci
ados
Planilhas
...
Loja 1 Loja 2 Loja 3 Loja n-2 Loja n-1 Loja n
Apache Hive
Extrair, transformar, carregar dados
Possível solução
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Hive
 Big Data Datawarehouse
 Consolidação dos dados de uma empresa
 Desempenho na consulta aos dados
 Separação entre suporte à decisão e bancos de
dados operacionais
 Suporte a ferramentas: On-line Analytical
Processing (OLAP), mineração de dados, e
visualização
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Arquitetura de um data warehouse
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Arquitetura de um data warehouse
 Arquitetura definida pelo contexto da
organização
 De maneira geral, tem as seguintes camadas:
1. Operacional (OLTPs): fornecem dados
2. De acesso aos dados: ETL
3. Acesso à informação: ferramentas de
acesso a dados, geração de relatórios, e
análise (OLAP)  Business Intelligence
4. Metadados: detalhamento do conteúdo
do data warehouse  dicionário de
dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Arquitetura de um data warehouse
 Arquitetura definida pelo contexto da
organização
 De maneira geral, tem as seguintes camadas:
1. Operacional (OLTPs): fornecem dados
2. De acesso aos dados: ETL
3. Acesso à informação: ferramentas de
acesso a dados, geração de relatórios, e
análise (OLAP)  Business Intelligence
4. Metadados: detalhamento do conteúdo
do data warehouse  dicionário de
dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Dicionário de dados
Descrição dos dados do DW:
origem
regras de transformação
nomes e aliases
formato dos dados
histórico de atualizações
acesso e segurança
responsabilidades sobre os dados
Sem o dicionário, não há sistema
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Hadoop e Apache Hive
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
O que é exatamente?
“Data Warehouse é uma coleção de dados
orientados por assunto, integrada, não-
volátil, variante no tempo, que dá apoio às
decisões de administração” (W.H. Inmon,
1992).
 Orientados a transações: vendas,
operações bancárias, acessos à informação.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
44
Hive - Big Data Warehouse
 Em Big Data, Data Warehousing ocorre sobre
o sistema Hive (mas não apenas)
 Projeto originário do Facebook (https://www.facebook.com/notes/facebook-
engineering/hive-a-petabyte-scale-data-warehouse-using-hadoop/89508453919/ );
 *Bem mais barato* do que soluções comerciais,
como o Oracle Exadata e o IBM Netezza;
 Usa uma variação do SQL chamada HiveQL, cujo
interpretador de consultas compila Jobs
MapReduce;
 Modelo de dados robusto: tabelas, rows, colunas,
partições, arrays associativos, listas, e estruturas;
 Metastore: dicionário de dados Hive. 44
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
45
Hive - Big Data Warehouse
 Em Big Data, Data Warehousing ocorre sobre
o sistema Hive (mas não apenas)
 Projeto originário do Facebook (https://www.facebook.com/notes/facebook-
engineering/hive-a-petabyte-scale-data-warehouse-using-hadoop/89508453919/ );
 *Bem mais barato* do que soluções comerciais,
como o Oracle Exadata e o IBM Netezza;
 Usa uma variação do SQL chamada HiveQL, cujo
interpretador de consultas compila Jobs
MapReduce;
 Modelo de dados robusto: tabelas, rows, colunas,
partições, arrays associativos, listas, e estruturas;
 Metastore: dicionário de dados Hive. 45http://www.bodhtree.com/blog/2012/09/08/what-is-hive-it%E2%80%99s-interaction-with-hadoop-and-big-data/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- MapReduce: um modelo de processamento que
divide (Map) a tarefa (job) de processamento ao
mesmo tempo em que prevê uma maneira de
integrar os resultados (Reduce).
- Abstração/simplificação de processamento
distribuído com pronta escalabilidade.
- MapReduce é um modelo de processamento,
não um software; assim, há mais de uma
implementação, como Cloudera, Hortonworks
MapR, e o mais conhecido Apache Hadoop.
- Nem todo processamento pode ser feito, apenas
os que podem ser divididos.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- MapReduce: um modelo de processamento que
divide (map) a tarefa (job) de processamento ao
mesmo tempo em que prevê uma maneira de
integrar os resultados (Reduce).
- Abstração/simplificação de processamento
distribuído com pronta escalabilidade.
- MapReduce é um modelo de processamento,
não um software; assim, há mais de uma
implementação, como Cloudera, Hortonworks
MapR, e o mais conhecido Apache Hadoop.
- Nem todo processamento pode ser feito, apenas
os que podem ser divididos.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- MapReduce: um modelo de processamento que
divide (map) a tarefa (job) de processamento ao
mesmo tempo em que prevê uma maneira de
integrar os resultados (Reduce).
- Abstração/simplificação de processamento
distribuído com pronta escalabilidade.
- MapReduce é um modelo de processamento,
não um software; assim, há mais de uma
implementação, como Cloudera, Hortonworks
MapR, e o mais conhecido Apache Hadoop.
- Nem todo processamento pode ser feito, apenas
os que podem ser divididos.
https://www.slideshare.net/Cataldo/apache-mahout-tutorial-
recommendation-20132014?next_slideshow=1
Onde seus problemas se
encaixam?
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- MapReduce: um modelo de processamento que
divide (map) a tarefa (job) de processamento, ao
mesmo tempo em que prevê uma maneira de
integrar os resultados (Reduce).
- Abstração de processamento distribuído com
pronta escalabilidade.
- MapReduce é um modelo de processamento,
não um software; assim, há mais de uma
implementação, como Cloudera, Hortonworks
MapR, e o mais conhecido Apache Hadoop.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- MapReduce: um modelo de processamento que
divide (map) a tarefa (job) de processamento, ao
mesmo tempo em que prevê uma maneira de
integrar os resultados (Reduce).
- Abstração de processamento distribuído com
pronta escalabilidade.
- MapReduce é um modelo de processamento,
não um software; assim, há mais de uma
implementação, como Cloudera, Hortonworks
MapR, e o mais conhecido Apache Hadoop.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- O modelo MapReduce suporta diversas
operações computacionais; dentre elas, várias
operações SQL;
- Desta maneira, é possível pensar em uma
camada de software que traduz SQL em
processamento MapReduce;
- Dentre tais camadas: Hive, Spark SQL, MapR, e
Impala.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce
- O modelo MapReduce suporta diversas
operações computacionais; dentre elas, várias
operações SQL;
- Desta maneira, é possível pensar em uma
camada de software que traduz SQL em
processamento MapReduce;
- Dentre tais camadas: Hive, Spark SQL, MapR, e
Impala.
A grosso modo, map funciona como
SELECT ao passo que reduce funciona
como GROUP BY.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Quando usar MapReduce?
- MapReduce é diretamente adequado a problemas
definidos como embarrassingly parallel (ou
perfectly parallel);
- Problemas simples, mas grandes, que podem ser
resolvidos mais rapidamente;
- O problema do caixeiro viajante, por exemplo, não
pode ser tratado com MapReduce;
- Agregação e junção de dados podem muito bem
serem tratados com MapReduce.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Quando usar MapReduce?
- MapReduce é diretamente adequado a problemas
definidos como embarrassingly parallel (ou
perfectly parallel);
- Problemas simples, mas grandes, que podem ser
resolvidos mais rapidamente;
- O problema do caixeiro viajante, por exemplo, não
pode ser tratado com MapReduce;
- Agregação e junção de dados podem muito bem
serem tratados com MapReduce.
Exercício Hands on – primeiro programa mapreduce
em python:
Write your first MapReduce program in 20 minutes
http://michaelnielsen.org/blog/write-your-first-
mapreduce-program-in-20-minutes/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
HDFS
(Hadoop Distributed File System)
- Escalabilidade sobre clusters com centenas e
até milhares de nós computacionais;
- Dados quebrados em blocos (default de 128 MB) e
distribuídos no cluster;
- Abstração da distribuição física dos dados;
- Redundância default de 3 cópias (tolerância a
falhas);
- Escalabilidade facilitada (on the fly);
- Qualquer máquina pode ser usada;
- Possui um nó especial para gerenciamento: o
namenode, “onde está o que”;
- Baixo custo!
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
HDFS
(Hadoop Distributed File System)
- Escalabilidade sobre clusters com centenas e
até milhares de nós computacionais;
- Dados quebrados em blocos (default de 128 MB) e
distribuídos no cluster;
- Abstração da distribuição física dos dados;
- Redundância default de 3 cópias (tolerância a
falhas);
- Escalabilidade facilitada (on the fly);
- Qualquer máquina pode ser usada;
- Possui um nó especial para gerenciamento: o
namenode;
- Baixo custo!
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce + HDFS = Hadoop
-O Hadoop é uma instância do modelo MapReduce;
-Como ele se baseia no HDFS, trata-se de uma
instância distribuída;
-Como visto, o Hadoop acrescenta uma nova etapa,
intrínseca ao processamento distribuído, o shuffle, ou
agrupamento do processamento distribuído no cluster;
-O HDFS permite a distribuição do processamento
dentro do cluster de maneira abstraída (ou
transparente);
-O Hadoop favorece o data locality, isto é, o
processamento deve ocorrer, sempre que possível, nos
próprios nós de armazenamento de dados.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
MapReduce + HDFS = Hadoop
-O Hadoop é uma instância do modelo MapReduce
-Como ele se baseia no HDFS, trata-se de uma
instância distribuída
-O Hadoop acrescenta uma nova etapa, intrínseca ao
processamento distribuído, o shuffle, ou distribuição
do processamento no cluster
-O HDFS permite a distribuição do processamento
dentro do cluster de maneira abstraída (ou
transparente)
-O Hadoop favorece o data locality, isto é, o
processamento deve ocorrer, sempre que possível, nos
próprios nós de armazenamento de dados
Exercício Hands on – primeiro processamento com
Hadoop:
IBM – Getting started with Hadoop
https://developer.ibm.com/hadoop/docs/getting-
started/tutorials/overview-tutorial/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Hive - Big Data Warehouse
- DW e OLAP se baseiam em consultas a dados
estruturados, e operações de agregação;
- Desta maneira, como o MapReduce suporta
processamento SQL, então é possível
processar DW e OLAP sobre MapReduce;
- Isso é possível via Hive e, de maneira mais
eficiente, sobre arcabouços como Apache Kylin,
Druid, Kyvos, e Apache Lens, denominadas
Distributed Analytics Engines (DAEs).
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
-Em suma: é possível fazer
DW/OLAP sobre as
tecnologias HIVE + HADOOP;
http://www.bodhtree.com/blog/2012/09/08/what-is-hive-it%E2%80%99s-interaction-with-hadoop-and-big-data/
Hive - Big Data Warehouse
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
-Em suma: é possível fazer
DW/OLAP sobre as
tecnologias HIVE + HADOOP;
http://www.bodhtree.com/blog/2012/09/08/what-is-hive-it%E2%80%99s-interaction-with-hadoop-and-big-data/
Exercício Hands on -
criação de um Data
Warehouse em Hive passo a
passo:
IBM - Build a data
warehouse with Hive
https://www.ibm.com/devel
operworks/library/bd-
hivewarehouse/index.html
Hive - Big Data Warehouse
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Extract Transform Load
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Arquitetura de um data warehouse
 Arquitetura definida pelo contexto da
organização
 De maneira geral, tem as seguintes camadas:
1. Operacional (OLTPs): fornecem dados
2. De acesso aos dados: ETL
3. Acesso à informação: ferramentas de
acesso a dados, geração de relatórios, e
análise (OLAP)  Business Intelligence
4. Metadados: detalhamento do conteúdo
do data warehouse  dicionário de
dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
ETL – Extract Transform Load
- 1) Recolher (extrair) os dados não
importando qual o tipo do sistema de dados;
- 2) Padronizar (transformar) os dados, para
terem um significado comum mesmo que,
originalmente, codificados de maneira
diferente; resolução de dados ausentes e
espúrios;
- 3) Unir (carregar) os resultados das duas
operações em um único sistema capaz de
responder às minhas perguntas.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
O processo de se extrair (Extract),
transformar (Transform) e carregar
(Load) os dados a partir das diversas
fontes de dados é denominado ETL
ETL – uma das camadas principais da
arquitetura de um Data Warehouse 
Consolidação de dados
ETL – Extract Transform Load
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
O processo de se extrair (Extract),
transformar (Transform) e carregar
(Load) os dados a partir das diversas
fontes de dados é denominado ETL
ETL – uma das camadas principais da
arquitetura de um Data Warehouse 
Consolidação de dados
ETL – Extract Transform Load
Oracle
Modelagem
x
LogsDB2
Modelagem
y
Texto Pontos
georreferen
ciados
Planilhas
...
Loja 1 Loja 2 Loja 3 Loja n-2 Loja n-1 Loja n
Apache Hive
Extrair, transformar, carregar dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
 Extração/transformação (Extract/Transform)
de dados
 extração de múltiplas fontes
 consolidação e integração de dados de múltiplas
fontes
 limpeza e validação
 conversão dos dados para o modelo do DW
ETL – Extract Transform Load
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Transformação (Extract/Transform)
Seleção de apenas determinadas colunas para carregar
Tradução de valores codificados (gênero)
Alteração do separador de palavras (tsv  csv)
Derivação de um novo valor calculado (montante_vendas
= qtde * preço_unitário, por exemplo)
Junção de dados provenientes de diversas fontes
Geração de valores de chaves substitutas (surrogate
keys)
Transposição ou rotação, transformando múltiplas colunas
em múltiplas linhas ou vice-versa
Quebra de uma coluna em diversas colunas
ETL – Extract Transform Load
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
 Carregamento (Load) de dados
 armazenamento de acordo com o modelo do DW
 criação e manutenção de estruturas de dados
 criação e manutenção de caminhos de acesso
 tratamento de dados que variam no tempo
 suporte a atualização
 refresh
 purging (eliminação)
 No ecossistema Hadoop, é possível fazer o
loading a partir de bases de dados relacionais
por meio da ferramenta Apache Sqoop
ETL – Extract Transform Load
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Load via Apache Sqoop
 O Apache Sqoop suporta a transferência
bidirecional de dados entre o Hive e os
principais SGBDs: MySQL, Informix,
PostgreSQL, Oracle, IBM DB2 e Netezza,
entre outros;
 Para tanto, basta definir um schema
dentro do Hive, e usar os comandos de
importação (o quê vai para onde).
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Load via Apache Sqoop
 O Apache Sqoop suporta a transferência
bidirecional de dados entre Hive e os
principais SGBDs: MySQL, Informix,
PostgreSQL, Oracle, IBM DB2 e Netezza,
entre outros;
 Para tanto, basta definir um schema dentro
do Hive, e usar os comandos de importação
(o que vai para onde).
Exercício Hands on – carregamento e processamento
sobre o Hive a partir de dados relacionais, passo a
passo:
IBM - Hello World with Java, Hive, and Sqoop with
Informix, DB2, and MySQL
https://www.ibm.com/developerworks/data/library/tec
harticle/dm-1209hadoopbigdata/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Data warehouse vs Banco de dados
operacional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Data warehouse vs Banco de dados
operacional
Data warehouse Banco de dados
operacional
Orientado à análise, estático Orientado a transações, dinâmico
Grande (centenas de GBs até TBs) Pequeno/Médio (MBs até alguns GBs)
– distribuído se necessário
Dados históricos Dados correntes
De-normalizado (poucas tabelas com
muitas colunas)
Normalizado (muitas tabelas com
poucas colunas)
Atualizações em Batch Atualizações contínuas
Otimizado para acesso Otimizado para escrita/atualização
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Juntos data warehouse e bancos de
dados provém uma solução completa
Bancos de dados
Inserção/Atualização
(OLTP)
Data Warehouse
Acesso aos dados
(OLAP)
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Visão Geral
1. Camada Operacional (OLTPs)
2. Camada de acesso aos dados (ETL)
3. Camada de acesso à informação: Mineração de Dados, relatórios, OLAP
 Business Intelligence
4. Dicionário de dados
Oracle
Modelagem
x
LogsDB2
Modelagem
y
Texto Pontos
georreferen
ciados
Planilhas
...
Loja 1 Loja 2 Loja 3 Loja n-2 Loja n-1 Loja n
Apache Hive
Extrair, transformar, carregar dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Terminologia
  Os termos Data Warehouse (Hive), OLTP e
OLAP (Kylin) não se refererem apenas a
software;
 São termos que englobam software e
serviços (muitos serviços – consultoria);
 São termos cunhados para a
comunidade empresarial não possuindo
uma correspondência simples e precisa em
Ciência da Computação.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Sistemas OLTP
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Data warehouses são,
comumente,
alimentados por
sistemas OLTP
independentes.
Sistemas OLTP
Oracle
Modelagem
x
LogsDB2
Modelagem
y
Texto Pontos
georreferen
ciados
Planilhas
...
Loja 1 Loja 2 Loja 3 Loja n-2 Loja n-1 Loja n
Apache Hive
Extrair, transformar, carregar dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Data warehouses são,
comumente,
alimentados por
sistemas OLTP
independentes.
Sistemas OLTP
Oracle
Modelagem
x
LogsDB2
Modelagem
y
Texto Pontos
georreferen
ciados
Planilhas
...
Loja 1 Loja 2 Loja 3 Loja n-2 Loja n-1 Loja n
Apache Hive
Extrair, transformar, carregar dados
 Sistemas OLTP (Online Transaction Processing):
 toda vez que você vai ao mercado, ao banco ou
faz uma compra online, interage em uma rede,
usa o GPS, você está usando um sistema OLTP
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Relação OLTP e OLAP
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP – Online Analytical Processing
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP
Definição: uma categoria de software
que visa à compreensão de dados por
meio de agregação: SUM, MAX, MIN,
COUNT, COUNT_DISTINCT, e TOP_N;
Provê: acesso rápido, consistente e
interativo;
DW e OLAP, em muitos casos, conceitos
indissociáveis.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP - FASMI
FASMI: Fast Analysis of
Multidimensional Information
Fast: agilidade em responder
consultas
Analysis: versatilidade analítica
Shared: dados/analistas múltiplos
Multidimensional: orientado a
dimensões de dados
Information: propósito fim
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados OLAP
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados
101 110240
190 90150 204
35 8783 90
35 4519 27
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
 Estrutura básica da prática de OLAP
 Observam-se
 As dimensões dos dados
 As medidas sobre os dados
 O cubo é orientado a planos (faces)
 Apesar da complexidade dos sistemas OLAP, seus
objetivos analíticos são básicos: contagem, média,
máximo, mínimo, soma, ...
 Agregação, rápida e flexível, sobre
imensos volumes de dados
Cubo de dados
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados - slicing
Pode ser interessante ver o cubo a partir
de diferentes perspectivas (planos)
Operações sobre o cubo: slicing, dicing
e rotating (pivoting)
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados - slicing
• A operação de slicing
equivale a fatiar o cubo,
definindo um novo plano
de apreciação dos dados
• A operação geométrica é
apenas uma analogia, o
slicing dispara o
processamento OLAP
para calcular o novo plano
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados - slicing
Dados calculados e acessíveis ao analista.
• A operação de slicing
equivale a fatiar o cubo,
definindo um novo plano
de apreciação dos dados
• A operação geométrica é
apenas uma analogia, o
slicing dispara o
processamento OLAP
para calcular o novo plano
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Exemplo de dado calculado: quantas TVs de plasma foram vendidas em
2002 na região SE?
Cubo de dados - slicing
• A operação de slicing
equivale a fatiar o cubo,
definindo um novo plano
de apreciação dos dados
• A operação geométrica é
apenas uma analogia, o
slicing dispara o
processamento OLAP
para calcular o novo plano
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Exemplo de dado calculado: quantas TVs de plasma foram vendidas em
2002 na região SE?
Cubo de dados - slicing
• A operação de slicing
equivale a fatiar o cubo,
definindo um novo plano
de apreciação dos dados
• A operação geométrica é
apenas uma analogia, o
slicing dispara o
processamento OLAP
para calcular o novo plano
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
• A operação de dicing é
semelhante ao slicing,
mas usa dois, ou mais,
planos de corte
Dados calculados e acessíveis ao analista.
Dicing conseguido com 5 planos de corte.
Cubo de dados - slicing
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
• A operação de dicing é
semelhante ao slicing,
mas usa dois, ou mais,
planos de corte
Dados calculados e acessíveis ao analista.
Dicing conseguido com 5 planos de corte.
Exemplo de dado calculado: quantos Celulares foram vendidos em 2001
na região CO?
Cubo de dados - slicing
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
• A operação de dicing é
semelhante ao slicing,
mas usa dois, ou mais,
planos de corte
Dados calculados e acessíveis ao analista.
Dicing conseguido com 5 planos de corte.
Exemplo de dado calculado: quantos Celulares foram vendidos em 2001
na região CO?
Cubo de dados - slicing
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados - rotating
• A operação de rotating
muda a perspectica do
cubo todo.
Novo plano: Produto x Tempo
Dados calculados e acessíveis ao analista.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados - rotating
• A operação de rotating
muda a perspectica do
cubo todo.
Novo plano: Produto x Tempo
Dados calculados e acessíveis ao analista.
Obviamente refere-se a cubo apenas
para fins didáticos – aplicações de
DW/OLAP geralmente envolvem
mais do que 3 dimensões, definindo
hipercubos.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin™: Extreme
OLAP Engine for Big Data
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Problemas com as plataformas
de OLAP atuais
http://www.oracle.com/us/products/database/tdwi-nextgen-platforms-069051.pdf
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
- Como visto, ao suportar SQL e grandes volumes
de dados, o Hive é capaz de realizar OLAP;
- No entanto, ele não o faz de maneira
eficiente;
- Há requisitos que não são cobertos pelo
Hive.
Cenário
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
- Requisitos de uso:
- queries sobre bilhões de tuplas executadas em
segundos;
- Ansi SQL para analistas e engenheiros (HiveQL não
é user-friendly);
- abstração OLAP;
- integração fácil com ferramentas de análise:
Tableau, Spotfire, Saas, Excell, ...
Requisitos para Big Data OLAP
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
- Requisitos funcionais:
- suporte para alta cardinalidade e
dimensionalidade;
- suporte a concorrência – dezenas de
usuários analistas e produtores de dados;
- arquitetura distribuída capaz de suportar
escalabilidade.
Requisitos para Big Data OLAP
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
- Solução baseada no ecossistema Hadoop:
- Apache Sqoop: converte dados relacionais para
tabelas Hive (texto, optimized row columnar,
record columnar file, ...)
- Hive (DW): armazenagem, e disparo de jobs
MapReduce;
- MapReduce: modelo para processamento distribuído
escalável e abstrato;
- HBase DB: organiza e recupera os cubos pré-
computados;
- HDFS: armazena dados de maneira distribuída,
fornecendo suporte para o Hive e para o HBase;
- Calcite: interpretador de consultas SQL.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
- Solução baseada no ecossistema Hadoop:
- Apache Sqoop: converte dados relacionais para
tabelas Hive (texto, optimized row columnar,
record columnar file, ...)
- Hive (DW): armazenagem, e disparo de jobs
MapReduce;
- MapReduce: modelo para processamento distribuído
escalável e abstrato;
- HBase DB: organiza e recupera os cubos pré-
computados;
- HDFS: armazena dados de maneira distribuída,
fornecendo suporte para o Hive e para o HBase;
- Calcite: interpretador de consultas SQL.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
- Solução baseada no ecossistema Hadoop:
- Apache Sqoop: converte dados relacionais para
tabelas Hive (texto, optimized row columnar,
record columnar file, ...)
- Hive (DW): armazenagem, e disparo de jobs
MapReduce;
- MapReduce: modelo para processamento distribuído
escalável e abstrato;
- HBase DB: organiza e recupera os cubos pré-
computados;
- HDFS: armazena dados de maneira distribuída,
fornecendo suporte para o Hive e para o HBase;
- Calcite: interpretador de consultas SQL.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache HBase
- Uma base de dados NoSQL - https://db-
engines.com/en/ranking;
- Funciona como um hash-map persistente;
- Derivado do Bigtable do Google;
- Funciona sobre a abstração HDFS, de modo
distribuído;
- Column-oriented: menos espaço, análise mais
rápida;
- Não suporta SQL, nem esquemas (mas há o
projeto HBql);
- Organizado em tabelas e tuplas (famílias de
colunas), versionadas por timestamp.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache HBase
- Uma base de dados NoSQL;
- Funciona como um hash-map persistente;
- Derivado do Bigtable do Google;
- Funciona sobre a abstração HDFS, de modo
distribuído;
- Column-oriented: menos espaço, análise mais
rápida;
- Não suporta SQL, nem esquemas (mas há o
projeto HBql);
- Organizado em tabelas e tuplas (famílias de
colunas), versionadas por timestamp;
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache HBase
- Uma base de dados NoSQL;
- Funciona como um hash-map persistente;
- Derivado do Bigtable do Google;
- Funciona sobre a abstração HDFS, de modo
distribuído;
- Column-oriented: menos espaço, análise mais
rápida;
- Não suporta SQL, nem esquemas (mas há o
projeto HBql);
- Organizado em tabelas e tuplas (famílias de
colunas), versionadas por timestamp;
Mas porque o Kylin precisa usar o HBase se ele
já usa o Hive?
R.: o Hive tem uma grande inércia pois depende de
jobs MapReduce, o que faz com que ele seja rápido
apenas na recuperação de grandes quantidades de
dados ou de agregações; além disso, ele não
suporta update de dados individuais, apenas de
arquivos inteiros (devido ao HDFS).
“Hive is not designed for online transaction
processing and does not offer real-time queries and
row level updates. It is best used for batch jobs over
large sets of immutable data (like web logs).”
http://www.strafford.com/blog/hadoop-is-not-a-new-dance-craze
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Juntos data warehouse e bancos de
dados provém uma solução completa
Bancos de dados
Inserção/Atualização
(HBase)
Data Warehouse
Acesso aos dados
(OLAP - Hive)
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
- Características:
- ANSI SQL sobre o Hadoop;
- Consultas interativas em segundos;
- Multidimensional Cube: os analistas podem
definir o modelo de dados e pré-computar o cubo;
- OLAP engine rápido e escalável: baseado em pré-
computação de cubos;
- Compressão e refresh dos cubos;
- Interface Web;
- Integração com BI: integração com QlikView,
Tableau, PowerBI ou Excel.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
- Características:
- ANSI SQL sobre o Hadoop;
- Consultas interativas em segundos;
- MOLAP Cube: os analistas podem definir o modelo
de dados e pré-computar o cubo;
- OLAP engine rápido e escalável: baseado em pré-
computação de cubos;
- Compressão e refresh dos cubos;
- Interface Web;
- Integração com BI: integração com QlikView,
Tableau, PowerBI ou Excel.
Fonte: Kyligence Inc. – http://kyligence.io
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Banco de dados operacional
Esquema complexo
Apache Kylin
FATOS
Esquema
estrela
Apache Kylin
- O Kylin 2.0 suporta tanto o esquema estrela
quanto o floco de neve
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Banco de dados operacional
Esquema complexo
Apache Kylin
FATOS
Esquema
estrela
Apache Kylin
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Banco de dados operacional
Esquema floco
de neve
(snow flake)
Apache Kylin
FATOS
Esquema complexo
Apache Kylin
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
- O Kylin oferece um Wizard Web para a definição de uma
análise de dados OLAP por meio de 4 passos:
1) Criação do projeto:
2) Carregamento de dados do Hive:
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
3) Criação do modelo de dados, estrela ou floco de neve:
4) Criação do cubo:
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
3) Criação do modelo de dados, estrela ou floco de neve:
4) Criação do cubo:
Exercício Hands on – definindo um cubo com o
assistente do Apache Kylin:
Apache Kylin Cube Creation
http://kylin.apache.org/docs20/tutorial/create_cube.html
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin
3) Criação do modelo de dados, estrela ou floco de neve:
4) Criação do cubo:
Note que o esquema da base de dados
operacional raramente (quase nunca)
tem estrutura estrela ou floco de
neve.
Mas estas estruturas (estrela ou floco
de neve) precisam ser definidas para
fins de (pré) processamento via
interface de design do sistema OLAP.
Geralmente, uma sub estrutura da
base operacional.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Exemplo Estrela:
Tempo
t_chave
Ano
Trimestre
Mes
Produto
p_chave
Tipo
Fabricante
Modelo
Local
l_chave
Regiao
Cidade
Loja
Fatos
t_chave
p_chave
l_chave
Nro_unidades
Valor
Assist_tecnica
Modelo de dados
dimensional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Exemplo:
Tempo
t_chave
Ano
Trimestre
Mes
Produto
p_chave
Tipo
Fabricante
Modelo
Local
l_chave
Regiao
Cidade
Loja
Fatos
t_chave
p_chave
l_chave
Nro_unidades
Valor
Assist_tecnica
Exemplo:
Quantas vendas e qual valor de vendas ocorreram considerando Ano, Tipo de Produto e
Região?
SELECT Tempo.Ano, Produto.Tipo, Local.Regiao, Sum(Nro_unidades), Sum(valor)
FROM Fatos, Tempo, Produto, Local
WHERE Fatos.t_chave = Tempo.t_chave AND
Fatos.p_chave = Produto.p_chave AND
Fatos.l_chave = Local.l_chave
GROUP BY Tempo.Ano, Produto.Tipo, Local.Regiao
Modelo de dados
dimensional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
120
 Exemplo Snowflake
120
(ElmasrieNavathe,2005)
Modelo de dados
dimensional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
121
 Exemplo Snowflake
121
(ElmasrieNavathe,2005)
Dúvida: usar os dados normalizados como mostrado nos modelos
não irá requerer junções a um custo altíssimo?
R.: Sim. No entanto, na prática, os dados ficam normalizados apenas
no modelo. A materialização dos dados é desnormalizada
manualmente ou durante a pré-computação dos cubos.
Modelo de dados
dimensional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Cubo de dados: análise dimensional das
medidas (dados)
DW: modelo de dados dimensional
Dimensões: dão contexto aos fatos
Fatos: números transacionais
Modelo de dados
dimensional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Observe que as dimensões dos dados
possuem uma hierarquia categórica
Por exemplo:
Tempo(Ano, Trimestre, Mês)
Modelo de dados
dimensional
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
 Hierarquia das dimensões: apreciação dos dados em
diferentes granularidades. Exemplo:
 Itens_vendidos(ano) > Itens_vendidos(Trimestre)
 Itens_vendidos(Trimestre) > Itens_vendidos(Mês)
 Duas outras operações muito importantes
 Drill down
 Roll up
Drill down / Roll up
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Drill down / Roll up
Drill-down e roll-up: navegação ao longo
dos níveis hierárquicos das dimensões
Exemplo
Itens_vendidos(Região) Itens_vendidos(Cidade)
Drill-down
Roll-up
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Drill down / Roll up
Drill-down sobre as três
dimensões
simultaneamente.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Drill down / Roll up
Drill-down sobre as três
dimensões
simultaneamente.
Exemplo:
Quantas vendas e qual valor de vendas ocorreram considerando Ano, Tipo de Produto e
Região?
Drill Down em todas as dimensões
 Quantas vendas e qual valor de vendas ocorreram considerando Trimestre,
Fabricante e Cidade?
SELECT Tempo.Ano, Tempo.Trimestre, Produto.Tipo, Produto.Fabricante, Local.Regiao
Local.Cidade, Sum(Nro_unidades), Sum(valor)
FROM Fatos, Tempo, Produto, Local
WHERE Fatos.t_chave = Tempo.t_chave AND
Fatos.p_chave = Produto.p_chave AND
Fatos.l_chave = Local.l_chave
GROUP BY Tempo.Ano, Tempo.Trimestre, Produto.Tipo, Produto.Fabricante, Local.Regiao,
Local.Cidade
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Drill down / Roll up
Drill-down sobre as três
dimensões
simultaneamente.
Exemplo:
Quantas vendas e qual valor de vendas ocorreram considerando Ano, Tipo de Produto e
Região?
Drill Down em todas as dimensões + slicing
 Quantas vendas e qual valor de vendas ocorreram considerando Trimestre,
Fabricante e Cidade e considerando um slicing de ano entre 2001 e 2002?
SELECT Tempo.Ano, Tempo.Trimestre, Produto.Fabricante, Local.Cidade, Sum(Nro_unidades),
Sum(valor)
FROM Fatos, Tempo, Produto, Local
WHERE Fatos.t_chave = Tempo.t_chave AND
Fatos.p_chave = Produto.p_chave AND
Fatos.l_chave = Local.l_chave AND
Tempo.Ano between 2001 AND 2002
GROUP BY Tempo.Ano, Tempo.Trimestre, Produto.Fabricante, Local.Cidade
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP - Agregação
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Mais do que cubinhos, o
OLAP/DW é uma tecnologia
sofisticada que visa responder
às diferentes possibilidades e
níveis de agregação de maneira
rápida e precisa.
OLAP - Agregação
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
ANSI SQL via
Apache Calcite
-O Calcite é capaz de acessar dados dos mais
variados formatos por meio de SQL;
-Dentre os formatos: CVS, BSON(MongoDB),
dados colunares (Cassandra), dados relacionais (via
JDBC), dados do Hive, dentre outros;
-Trata-se de um arcabouço que recebe plug-ins
sobre como interpretar um conjunto de dados (com
qual esquema), e sobre como otimizar as consultas
(quais regras de otimização usar)
-O Apache Kylin usa o Calcite para interpretar SQL e,
principalmente, para otimizar a execução das
consultas que criam os cubos
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
ANSI SQL via
Apache Calcite
-O Calcite é extensível via APIs Java, as quais são
usadas para se definir como os dados são lidos, e
como as consultas são executadas
-Abordagem que quebra o padrão monolítico dos
SGBDs
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
ANSI SQL via
Apache Calcite
-O Calcite é extensível via APIs Java, as quais são
usadas para se definir como os dados são lidos, e as
consultas são executadas
-Abordagem que quebra o padrão monolítico dos
SGBDs
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
ANSI SQL via
Apache Calcite
-O Calcite é extensível via APIs Java, as quais são
usadas para se definir como os dados são lidos, e as
consultas são executadas
-Abordagem que quebra o padrão monolítico dos
SGBDs
O Calcite é uma tendência segundo a qual os
dados não devem se adaptar ao banco de
dados, mas sim o banco de dados deve se
adaptar aos dados.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
ANSI SQL via
Apache Calcite
-O Calcite é extensível via APIs Java, as quais são
usadas para se definir como os dados são lidos, e as
consultas são executadas
-Abordagem que quebra o padrão monolítico dos
SGBDs
Exercício Hands on – configurando e usado o Calcite,
passo a passo:
Apache Calcite Tutorial
https://calcite.apache.org/docs/tutorial.html
Já vem pré-configurado com o Kylin, aqui fica apenas
como mais uma ferramenta para conhecimento.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin - Desempenho
-O Apache Kylin usa o algoritmo Layered Cubing;
-Isto é, basta pré-calcular a agregação considerando a
granularidade mais fina de todas as dimensões;
-A seguir, qualquer sub agregação pode ser calculada tendo como
input o resultado da agregação com mais dimensões.
RDD-1
RDD-2
RDD-3
RDD-4
RDD-5
1º. Processamento
Último nível de
processamento
Input
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin - Desempenho
-Com o algoritmo de Layered Cubing, todas as agregações são
pré-computadas;
-A interação com o cubo passa a ser baseada em resultados pré-
computados.
Pré-agregação
O(N)
O(1)
Apache Kylin
Quantidade
de dados
Tempo
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin - Desempenho
-Com o algoritmo de Layered Cubing, todas as agregações são
pré-computadas;
-A interação com o cubo passa a ser baseada em resultados pré-
computados.
Pré-agregação
O(N)
O(1)
Apache Kylin
Quantidade
de dados
Tempo
Kylin x Hive
A pré-computação com o algoritmo Layered Cubing (job
management), sua abstração (compressão, codificação, e
refresh), e o gerenciamento dos resultados constituem as
funcionalidades do Kylin.
Como dito anteriormente, é possível fazer OLAP sobre o
Hive; no entanto, graças à pré-computação do Kylin, há
um enorme ganho de desempenho, como apresentado em
https://github.com/Kyligence/kylin-tpch
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin - Desempenho
-Com o algoritmo de Layered Cubing, todas as agregações são
pré-computadas;
-A interação com o cubo passa a ser baseada em resultados pré-
computados.
Pré-agregação
O(N)
O(1)
Apache Kylin
Quantidade
de dados
Tempo
https://www.slideshare.net/XuJiang2/kylin-hadoop-olap-engine
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin - Desempenho
-Com o algoritmo de Layered Cubing, todas as agregações são
pré-computadas;
-A interação com o cubo passa a ser baseada em resultados pré-
computados.
Pré-agregação
O(N)
O(1)
Apache Kylin
Quantidade
de dados
Tempo
Exercício Hands on – executar o benchmark TPC-H
sobre o Apache Kylin:
Apache Kylin - TPC-H on Kylin 2.0
https://github.com/Kyligence/kylin-tpch
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Kylin - Integração
- Integração com BI: integração com QlikView,
Tableau, PowerBI ou Excel.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
- Integração com BI: integração com QlikView,
Tableau, PowerBI ou Excel.
Apache Kylin - Integração
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
- Integração com BI: integração com QlikView,
Tableau, PowerBI ou Excel.
Apache Kylin - Integração
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Soluções OLAP convencionais
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP convencional
- Características:
- Atualmente, são menos escaláveis ou
extremamente caras;
- Não se baseiam em processamento distribuído;
- Dependem de um hardware robusto para
processamento  difícil de escalar
- Bilhões de tuplas  latência muito grande
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP convencional
Principais vendedores:
- IBM Cognos (IBM Netezza DW)
- Oracle Hyperion Essbase (Oracle Exadata DW)
- Microsoft Analysis Services
- SAS OLAP Server
- Oracle Database OLAP (Oracle DBMS)
- SAP BusinessObjects
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
OLAP convencional
Principais vendedores:
- IBM Cognos (IBM Netezza DW)
- Oracle Hyperion Essbase (Oracle Exadata DW)
- Microsoft Analysis Services
- SAS OLAP Server
- Oracle Database OLAP (Oracle DBMS)
- SAP BusinessObjects
https://apandre.wordpress.com/2013/10/06/bi-is-dead/
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
148
Relational OLAP (ROLAP)
 Recursos OLAP sobre SGBDs  disparam todas as agregações
necessárias para se obter os resultados requisitados
 Em contraste, o OLAP não relacional, também é conhecido como
Multidimensional OLAP - MOLAP
 SQL:1999
 ROLLUP e CUBE
148
SELECT ….
FROM ….
WHERE …
GROUP BY CUBE (trim, região)
ex: selecionar
 total geral de vendas
 total de vendas por região
 total de vendas por trim.
 total de vendas por trim. por região
SELECT ….
FROM ….
WHERE …
GROUP BY ROLLUP (ano, trim)
ex: selecionar
total geral de vendas
 total de vendas por ano
total de vendas por trim. por ano
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
149
Relational OLAP (ROLAP)
 Sobre ROLLUP e CUBE
 ROLLUP e CUBE aplicados sobre k atributos
 ... GROUP BY CUBE (....)
 é equivamente a agrupamentos sobre cada um
dos 2k subconjuntos de atributos
 ex: k=2 ⇒ ... GROUP BY CUBE (a,b)
 agrupamentos sobre: (a,b), (a), (b), (null)
 agrupamento em (null) é o total geral de vendas
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
150
Relational OLAP (ROLAP)
 (cont...)
 (cont...)
 ... GROUP BY CUBE (....)
 é equivamente a agrupamentos sobre cada um
dos 2k subconjuntos de atributos
 ex: k=3 ⇒ ... GROUP BY CUBE (a,b,c)
 agrupamentos sobre: (a,b,c), (a,b), (a,c), (b,c) (a),
(b),(c), (null)
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Relational OLAP (ROLAP)
 Exemplo GROUP BY
CUBE
SELECT Dept, Funcao,
COUNT(*), SUM(Salario)
FROM Empregados
GROUP BY CUBE(Dept, Funcao);
Dept Funcao COUNT(*) SUM(Salario)
------------------------------------------------
10 Secretario 1 100
10 Gerente 1 500
10 Presidente 1 900
10 3 1500
20 Analista 2 350
20 Secretario 2 240
20 Gerente 1 800
20 5 1390
Secretario 3 340
Gerente 2 1300
Presidente 1 500
Analista 2 350
8 2490
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Para pensar
Atualmente:
-máquinas com 8 cores e 16GB de memória
-ROLAP com centenas de milhões de tuplas
Em 10 anos, algo como 1.000 (210) vezes mais
memória:
-máquinas com 128 cores e 16TB de memória
-ROLAP com centenas de bilhões de tuplas
 Serão necessárias soluções distribuídas?
 Os dados continuarão crescendo?
 Seus problemas serão 1.000 vezes maiores?
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Advanced Analytics com o
Apache Mahout
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Machine Learning in a nutshell
Exemplos comuns:
- Recomendação de produtos/amigos/pares;
- Classificação em tipos/grupos/posições;
- Encontrar elementos semelhantes;
- Encontrar associações em comportamentos/ações;
- Encontrar assunto chave em textos;
- Detectar anomalias/fraudes/exceções;
- Ranquear resultados de busca;
- Entre outras.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Machine Learning in a nutshell
Exemplos comuns:
- Recomendação de produtos/amigos/pares;
- Classificação em tipos/grupos/posições;
- Encontrar elementos semelhantes;
- Encontrar associações em comportamentos/ações;
- Encontrar assuntos chave em textos;
- Detectar anomalias/fraudes/exceções;
- Ranquear resultados de busca;
- Entre outras.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Machine Learning in a nutshell
Exemplos comuns:
- Recomendação de produtos/amigos/pares;
- Classificação em tipos/grupos/posições;
- Encontrar elementos semelhantes;
- Encontrar associações em comportamentos/ações;
- Encontrar assuntos chave em textos;
- Detectar anomalias/fraudes/exceções;
- Ranquear resultados de busca;
- Entre outras.
cleaning,
Instance selection,
normalization,
transformation,
feature
extraction and selection,
…
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Machine Learning in a nutshell
Exemplos comuns:
- Recomendação de produtos/amigos/pares;
- Classificação em tipos/grupos/posições;
- Encontrar elementos semelhantes;
- Encontrar associações em comportamentos/ações;
- Encontrar assuntos chave em textos;
- Detectar anomalias/fraudes/exceções;
- Ranquear resultados de busca;
- Entre outras.
cleaning,
Instance selection,
normalization,
transformation,
feature
extraction and selection,
…
Linear Regression,
Decision Tree,
SVM,
Naive Bayes,
KNN,
K-Means,
Random Forest,
Dimensionality
Reduction,…
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Mahout
-O Apache Mahout é uma API Java de algoritmos
de Machine Learning  You will have to code!
-Tem como objetivos:
-escalabilidade;
-documentação extensa;
-uso prático (e não acadêmico);
-ter uma comunidade forte e atuante.
-Tipos de algoritmos: detecção de agrupamento,
classificação, recomendação, genéticos, e regras de
associação (frequent pattern matching), entre
outros.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Mahout
Aplicações, algoritmos, bibliotecas, e
arcabouço distribuído
-O Apache Mahout é uma API Java de algoritmos de
Machine Learning;
-Tem como objetivos:
-escalabilidade;
-documentação extensa;
-uso prático (e não acadêmico);
-ter uma comunidade forte e atuante.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Mahout
-Os algoritmos do Mahout não necessariamente
funcionam em MapReduce;
-Isso, pois muitos algoritmos de Machine Learning
não são paralelizáveis (pelo menos não
diretamente);
-Bibliotecas de suporte:
-Lucene: busca textual;
-Doc Vectorizer: converte documentos em vetores;
-Matemática, programática, banco de dados, sistema
de arquivos,....
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Apache Mahout
-Os algoritmos do Mahout não necessariamente
funcionam em MapReduce;
-Isso, pois muitos algoritmos de Machine Learning
não são paralelizáveis (pelo menos não
diretamente);
-Bibliotecas de suporte:
-Lucene: busca textual;
-Doc Vectorizer: convert documents into vectors;
-Matemática, programática, banco de dados, sistema
de arquivos,....
Exercício Hands on – criar um sistema de recomendação
no Mahout:
Apache Mahout - Creating a User-Based Recommender
in 5 minutes
https://mahout.apache.org/users/recommender/userbase
d-5-minutes.html
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Conclusões
-O ecossistema Hadoop oferece soluções com custo
reduzido para o processamento analítico em larga
escala;
-As ferramentas estão em constante mudança;
-Há muito espaço para profissionais em Data
Science com bom salário; todavia, Data Science
requer estudo e dedicação – não se trata apenas de
código e procedimentos;
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
Conclusões
-BigData tem muito a explorar em termos de dados
não estruturados, como texto;
-O uso combinado de Deep Learning e
processamento Big Data deverá trazer
breakthroughs na indústria;
-Consolidação do especialista em dados como um
requisito de sobrevivência das corporações.
http://www.icmc.usp.br/pessoas/junio/Site/index.htm
181
Referências
 Hadoop: The Definitive Guide, Storage and Analysis at
Internet Scale, 4th Edition; By Tom White, O'Reilly
Media, 2015
http://shop.oreilly.com/product/0636920033448.do
181

Mais conteúdo relacionado

Mais procurados

Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon Web Services Korea
 
ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性
Renji Yoneda
 
Link analysis : Comparative study of HITS and Page Rank Algorithm
Link analysis : Comparative study of HITS and Page Rank AlgorithmLink analysis : Comparative study of HITS and Page Rank Algorithm
Link analysis : Comparative study of HITS and Page Rank Algorithm
Kavita Kushwah
 
엔터프라이즈 LMS 오디세이 소개
엔터프라이즈 LMS 오디세이 소개엔터프라이즈 LMS 오디세이 소개
엔터프라이즈 LMS 오디세이 소개
tekville2
 
Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018
Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018
Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018
Amazon Web Services
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Web Services Korea
 
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
Shuji Kikuchi
 
An introduction to Semantic Web and Linked Data
An introduction to Semantic Web and Linked DataAn introduction to Semantic Web and Linked Data
An introduction to Semantic Web and Linked Data
Fabien Gandon
 
20161201 srws第四回文献の選択基準
20161201 srws第四回文献の選択基準20161201 srws第四回文献の選択基準
20161201 srws第四回文献の選択基準
SR WS
 
IT전략계획-04.보안 아키텍처
IT전략계획-04.보안 아키텍처IT전략계획-04.보안 아키텍처
IT전략계획-04.보안 아키텍처
InGuen Hwang
 
IBM 보안솔루션 앱스캔_AppScan Standard 소개
IBM 보안솔루션 앱스캔_AppScan Standard 소개IBM 보안솔루션 앱스캔_AppScan Standard 소개
IBM 보안솔루션 앱스캔_AppScan Standard 소개
은옥 조
 
RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개
RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개
RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개
철민 권
 
AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015
AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015
AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015
Amazon Web Services Korea
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation Final
Er. Jagrat Gupta
 
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
Amazon Web Services Korea
 
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon Web Services Japan
 
BruCON 2015 - Pentesting ICS 101
BruCON 2015 - Pentesting ICS 101BruCON 2015 - Pentesting ICS 101
BruCON 2015 - Pentesting ICS 101
Wavestone
 
LinkML presentation to Yosemite Group
LinkML presentation to Yosemite GroupLinkML presentation to Yosemite Group
LinkML presentation to Yosemite Group
Chris Mungall
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
Amazon Web Services Korea
 
SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용
SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용
SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용
CURVC Corp
 

Mais procurados (20)

Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
 
ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性
 
Link analysis : Comparative study of HITS and Page Rank Algorithm
Link analysis : Comparative study of HITS and Page Rank AlgorithmLink analysis : Comparative study of HITS and Page Rank Algorithm
Link analysis : Comparative study of HITS and Page Rank Algorithm
 
엔터프라이즈 LMS 오디세이 소개
엔터프라이즈 LMS 오디세이 소개엔터프라이즈 LMS 오디세이 소개
엔터프라이즈 LMS 오디세이 소개
 
Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018
Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018
Amazon VPC: Security at the Speed Of Light (NET313) - AWS re:Invent 2018
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
 
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
 
An introduction to Semantic Web and Linked Data
An introduction to Semantic Web and Linked DataAn introduction to Semantic Web and Linked Data
An introduction to Semantic Web and Linked Data
 
20161201 srws第四回文献の選択基準
20161201 srws第四回文献の選択基準20161201 srws第四回文献の選択基準
20161201 srws第四回文献の選択基準
 
IT전략계획-04.보안 아키텍처
IT전략계획-04.보안 아키텍처IT전략계획-04.보안 아키텍처
IT전략계획-04.보안 아키텍처
 
IBM 보안솔루션 앱스캔_AppScan Standard 소개
IBM 보안솔루션 앱스캔_AppScan Standard 소개IBM 보안솔루션 앱스캔_AppScan Standard 소개
IBM 보안솔루션 앱스캔_AppScan Standard 소개
 
RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개
RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개
RDF와 Graph의 이해 및 오라클 Spartial&Graph 소개
 
AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015
AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015
AWS 비용 최적화 기법 (윤석찬) - AWS 웨비나 시리즈 2015
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation Final
 
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
 
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
Amazon SageMaker 推論エンドポイントを利用したアプリケーション開発
 
BruCON 2015 - Pentesting ICS 101
BruCON 2015 - Pentesting ICS 101BruCON 2015 - Pentesting ICS 101
BruCON 2015 - Pentesting ICS 101
 
LinkML presentation to Yosemite Group
LinkML presentation to Yosemite GroupLinkML presentation to Yosemite Group
LinkML presentation to Yosemite Group
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
 
SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용
SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용
SonarQube와 함께하는 소프트웨어 품질 세미나 - ISMS 시큐어코딩을 위한 SonarQube 활용
 

Semelhante a Introdução às ferramentas de Business Intelligence do ecossistema Hadoop

Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Mauricio Cesar Santos da Purificação
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Mauricio Cesar Santos da Purificação
 
Web Anaytics passo a passo - Maratona Digital
Web Anaytics passo a passo - Maratona Digital Web Anaytics passo a passo - Maratona Digital
Web Anaytics passo a passo - Maratona Digital
Maratona Digital
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
alexculpado
 
Data Science - Big Data - Data Driven
Data Science - Big Data - Data DrivenData Science - Big Data - Data Driven
Data Science - Big Data - Data Driven
Daniela Brauner
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
FaBIana Ravanêda Vercezes
 
Projeto Midia Sync
Projeto Midia SyncProjeto Midia Sync
Projeto Midia Sync
Daniel Durante
 
Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016
Bergson Lopes Rêgo, PMP
 
Apresentação BI Summit 2016
Apresentação BI Summit 2016Apresentação BI Summit 2016
Apresentação BI Summit 2016
Bergson Lopes Rêgo, PMP
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Ambiente Livre
 
BIG DATA
BIG DATABIG DATA
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
Felipe Ferraz
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
Hélio Silva
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
Dataísmo a religião do século XXI e Arquitetura Corporativa.pdf
Dataísmo a religião do século XXI e Arquitetura Corporativa.pdfDataísmo a religião do século XXI e Arquitetura Corporativa.pdf
Dataísmo a religião do século XXI e Arquitetura Corporativa.pdf
Thiago Rocha
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
Alexandra Alcantara
 
Analytics - Como a tecnologia da informação pode transformar o seu negócio
Analytics - Como a tecnologia da informação pode transformar o seu negócioAnalytics - Como a tecnologia da informação pode transformar o seu negócio
Analytics - Como a tecnologia da informação pode transformar o seu negócio
Gabriela Giacomini
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Mauricio Cesar Santos da Purificação
 
Business Discovery e suas ferramentas
Business Discovery e suas ferramentasBusiness Discovery e suas ferramentas
Business Discovery e suas ferramentas
Roberto Oliveira
 
Big data
Big dataBig data
Big data
Talita Lima
 

Semelhante a Introdução às ferramentas de Business Intelligence do ecossistema Hadoop (20)

Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Web Anaytics passo a passo - Maratona Digital
Web Anaytics passo a passo - Maratona Digital Web Anaytics passo a passo - Maratona Digital
Web Anaytics passo a passo - Maratona Digital
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Data Science - Big Data - Data Driven
Data Science - Big Data - Data DrivenData Science - Big Data - Data Driven
Data Science - Big Data - Data Driven
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Projeto Midia Sync
Projeto Midia SyncProjeto Midia Sync
Projeto Midia Sync
 
Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016
 
Apresentação BI Summit 2016
Apresentação BI Summit 2016Apresentação BI Summit 2016
Apresentação BI Summit 2016
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Dataísmo a religião do século XXI e Arquitetura Corporativa.pdf
Dataísmo a religião do século XXI e Arquitetura Corporativa.pdfDataísmo a religião do século XXI e Arquitetura Corporativa.pdf
Dataísmo a religião do século XXI e Arquitetura Corporativa.pdf
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Analytics - Como a tecnologia da informação pode transformar o seu negócio
Analytics - Como a tecnologia da informação pode transformar o seu negócioAnalytics - Como a tecnologia da informação pode transformar o seu negócio
Analytics - Como a tecnologia da informação pode transformar o seu negócio
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
 
Business Discovery e suas ferramentas
Business Discovery e suas ferramentasBusiness Discovery e suas ferramentas
Business Discovery e suas ferramentas
 
Big data
Big dataBig data
Big data
 

Mais de Universidade de São Paulo

A gentle introduction to Deep Learning
A gentle introduction to Deep LearningA gentle introduction to Deep Learning
A gentle introduction to Deep Learning
Universidade de São Paulo
 
Computação: carreira e mercado de trabalho
Computação: carreira e mercado de trabalhoComputação: carreira e mercado de trabalho
Computação: carreira e mercado de trabalho
Universidade de São Paulo
 
On the Support of a Similarity-Enabled Relational Database Management System ...
On the Support of a Similarity-Enabled Relational Database Management System ...On the Support of a Similarity-Enabled Relational Database Management System ...
On the Support of a Similarity-Enabled Relational Database Management System ...
Universidade de São Paulo
 
Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...
Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...
Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...
Universidade de São Paulo
 
Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...
Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...
Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...
Universidade de São Paulo
 
Unveiling smoke in social images with the SmokeBlock approach
Unveiling smoke in social images with the SmokeBlock approachUnveiling smoke in social images with the SmokeBlock approach
Unveiling smoke in social images with the SmokeBlock approach
Universidade de São Paulo
 
Vertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale Graphs
Vertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale GraphsVertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale Graphs
Vertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale Graphs
Universidade de São Paulo
 
Fast Billion-scale Graph Computation Using a Bimodal Block Processing Model
Fast Billion-scale Graph Computation Using a Bimodal Block Processing ModelFast Billion-scale Graph Computation Using a Bimodal Block Processing Model
Fast Billion-scale Graph Computation Using a Bimodal Block Processing Model
Universidade de São Paulo
 
An introduction to MongoDB
An introduction to MongoDBAn introduction to MongoDB
An introduction to MongoDB
Universidade de São Paulo
 
StructMatrix: large-scale visualization of graphs by means of structure detec...
StructMatrix: large-scale visualization of graphs by means of structure detec...StructMatrix: large-scale visualization of graphs by means of structure detec...
StructMatrix: large-scale visualization of graphs by means of structure detec...
Universidade de São Paulo
 
Apresentacao vldb
Apresentacao vldbApresentacao vldb
Apresentacao vldb
Universidade de São Paulo
 
Techniques for effective and efficient fire detection from social media images
Techniques for effective and efficient fire detection from social media imagesTechniques for effective and efficient fire detection from social media images
Techniques for effective and efficient fire detection from social media images
Universidade de São Paulo
 
Multimodal graph-based analysis over the DBLP repository: critical discoverie...
Multimodal graph-based analysis over the DBLP repository: critical discoverie...Multimodal graph-based analysis over the DBLP repository: critical discoverie...
Multimodal graph-based analysis over the DBLP repository: critical discoverie...
Universidade de São Paulo
 
Supervised-Learning Link Recommendation in the DBLP co-authoring network
Supervised-Learning Link Recommendation in the DBLP co-authoring networkSupervised-Learning Link Recommendation in the DBLP co-authoring network
Supervised-Learning Link Recommendation in the DBLP co-authoring network
Universidade de São Paulo
 
Graph-based Relational Data Visualization
Graph-based RelationalData VisualizationGraph-based RelationalData Visualization
Graph-based Relational Data Visualization
Universidade de São Paulo
 
Reviewing Data Visualization: an Analytical Taxonomical Study
Reviewing Data Visualization: an Analytical Taxonomical StudyReviewing Data Visualization: an Analytical Taxonomical Study
Reviewing Data Visualization: an Analytical Taxonomical Study
Universidade de São Paulo
 
Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...
Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...
Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...
Universidade de São Paulo
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
Universidade de São Paulo
 
Visualization tree multiple linked analytical decisions
Visualization tree multiple linked analytical decisionsVisualization tree multiple linked analytical decisions
Visualization tree multiple linked analytical decisions
Universidade de São Paulo
 
Frequency plot and relevance plot to enhance visual data exploration
Frequency plot and relevance plot to enhance visual data explorationFrequency plot and relevance plot to enhance visual data exploration
Frequency plot and relevance plot to enhance visual data exploration
Universidade de São Paulo
 

Mais de Universidade de São Paulo (20)

A gentle introduction to Deep Learning
A gentle introduction to Deep LearningA gentle introduction to Deep Learning
A gentle introduction to Deep Learning
 
Computação: carreira e mercado de trabalho
Computação: carreira e mercado de trabalhoComputação: carreira e mercado de trabalho
Computação: carreira e mercado de trabalho
 
On the Support of a Similarity-Enabled Relational Database Management System ...
On the Support of a Similarity-Enabled Relational Database Management System ...On the Support of a Similarity-Enabled Relational Database Management System ...
On the Support of a Similarity-Enabled Relational Database Management System ...
 
Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...
Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...
Effective and Unsupervised Fractal-based Feature Selection for Very Large Dat...
 
Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...
Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...
Fire Detection on Unconstrained Videos Using Color-Aware Spatial Modeling and...
 
Unveiling smoke in social images with the SmokeBlock approach
Unveiling smoke in social images with the SmokeBlock approachUnveiling smoke in social images with the SmokeBlock approach
Unveiling smoke in social images with the SmokeBlock approach
 
Vertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale Graphs
Vertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale GraphsVertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale Graphs
Vertex Centric Asynchronous Belief Propagation Algorithm for Large-Scale Graphs
 
Fast Billion-scale Graph Computation Using a Bimodal Block Processing Model
Fast Billion-scale Graph Computation Using a Bimodal Block Processing ModelFast Billion-scale Graph Computation Using a Bimodal Block Processing Model
Fast Billion-scale Graph Computation Using a Bimodal Block Processing Model
 
An introduction to MongoDB
An introduction to MongoDBAn introduction to MongoDB
An introduction to MongoDB
 
StructMatrix: large-scale visualization of graphs by means of structure detec...
StructMatrix: large-scale visualization of graphs by means of structure detec...StructMatrix: large-scale visualization of graphs by means of structure detec...
StructMatrix: large-scale visualization of graphs by means of structure detec...
 
Apresentacao vldb
Apresentacao vldbApresentacao vldb
Apresentacao vldb
 
Techniques for effective and efficient fire detection from social media images
Techniques for effective and efficient fire detection from social media imagesTechniques for effective and efficient fire detection from social media images
Techniques for effective and efficient fire detection from social media images
 
Multimodal graph-based analysis over the DBLP repository: critical discoverie...
Multimodal graph-based analysis over the DBLP repository: critical discoverie...Multimodal graph-based analysis over the DBLP repository: critical discoverie...
Multimodal graph-based analysis over the DBLP repository: critical discoverie...
 
Supervised-Learning Link Recommendation in the DBLP co-authoring network
Supervised-Learning Link Recommendation in the DBLP co-authoring networkSupervised-Learning Link Recommendation in the DBLP co-authoring network
Supervised-Learning Link Recommendation in the DBLP co-authoring network
 
Graph-based Relational Data Visualization
Graph-based RelationalData VisualizationGraph-based RelationalData Visualization
Graph-based Relational Data Visualization
 
Reviewing Data Visualization: an Analytical Taxonomical Study
Reviewing Data Visualization: an Analytical Taxonomical StudyReviewing Data Visualization: an Analytical Taxonomical Study
Reviewing Data Visualization: an Analytical Taxonomical Study
 
Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...
Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...
Complexidade de Algoritmos, Notação assintótica, Algoritmos polinomiais e in...
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
 
Visualization tree multiple linked analytical decisions
Visualization tree multiple linked analytical decisionsVisualization tree multiple linked analytical decisions
Visualization tree multiple linked analytical decisions
 
Frequency plot and relevance plot to enhance visual data exploration
Frequency plot and relevance plot to enhance visual data explorationFrequency plot and relevance plot to enhance visual data exploration
Frequency plot and relevance plot to enhance visual data exploration
 

Introdução às ferramentas de Business Intelligence do ecossistema Hadoop