Big Data PostgreSQL Funcionalidades

Big Data e PostgreSQL
Euler Taveira
Brasília, 02/12/2017

Sobre este material
• esta apresentação está disponível em:
https://www.slideshare.net/eulerto
• esta apresentação está sob licença Creative Commons
Atribuição-Não Comercial 3.0 Brasil:
http://creativecommons.org/licenses/by-nc/3.0/br
c b n

Apresentação
• Euler Taveira
• Desenvolvedor PostgreSQL
• Líder do PostgreSQL Brasil
• @eulerto
• http://eulerto.blogspot.com.br
• Timbira
• Diretor Técnico
• A empresa brasileira de PostgreSQL
• Consultoria
• Desenvolvimento
• Suporte 24x7
• Treinamento
Timbira - A empresa brasileira de PostgreSQL 1 / 40

Resumo
1 Introdução
2 Funcionalidades
3 Conclusão

Big Data: Introdução
• “Big Data e sua análise é o centro da ciência moderna e dos
negócios”
• Componentes
• Variedade: estruturado, semi-estruturado, sem estrutura
• Velocidade: streams, tempo real, tempo quase real, batch
• Volume: TB, PB, EB, ZB
• Veracidade: dados “limpos” (significativo ao problema)
• Validade: dados corretos e precisos
• Volatilidade: por quanto tempo os dados são válidos?
Unidades
1 ZB = 1024 EB = 1.048.576 PB = 1.073.741.824 TB

Big Data: Alguns números
• 5 exabytes (2003)
• 2,5 exabytes são criados por dia (2013)
• 2,72 zettabytes (2012)
• 4,4 zettabytes (2017)
• 44 zettabytes (2020 - previsão)

Big Data: Alguns números (2)
• Facebook: 2,7 bilhões likes e comentários / dia
• Youtube: são carregados 300 horas de vídeo / minuto
• Google: processa 20 PB / dia
• Twitter: 500 milhões tweets / dia

Big Data: Benefícios
• melhoria em marketing
• segmentação baseada no cliente
• descoberta de oportunidade de vendas
• descoberta de novos mercados

Big Data: Desafios
• espaço em disco
• carga de dados é lenta
• plataforma analítica avançada
• centenas de servidores executando em paralelo

Big Data: Exemplos
• Varejo
• Governo
• Indústria
• Saúde
• Localização Pessoal
• Web

Big Data x PostgreSQL
• O PostgreSQL está preparado?
• Quais funcionalidades são importantes para Big Data?

Resumo
1 Introdução
2 Funcionalidades
3 Conclusão

Tipo de Dados
• hstore (8.2)
• extensão
• xml (8.3)
• json (9.2)
• jsonb (9.4)

Índices
• índice parcial (7.2)
• Gin (8.2)
• GiST (6.0)
• SP-GiST (9.2)
• BRIN (9.5)

Índice BRIN
• Block Range Index
• armazena somente os valores limites de um grupo de páginas
• configura quantas páginas do datafile contribuem para
entrada no índice
• criação e atualização rápida
• tamanho reduzido
• mais lento do que BTree
• casos de uso
• dados estáticos e ordenados pelo índice (CLUSTER)
• tabelas somente INSERT (tabelas de log)

Particionamento
• separar dados históricos de atuais
• consultas mais rápidas
• partições menores
• índices menores
• manutenção mais rápida
• expurgo
• VACUUM
• REINDEX

Particionamento: antes da 10
• adicionado na 8.1
• parâmetro constraint_exclusion
• herança + restrição CHECK
• exclui do plano tabelas que não satisfazem restrição CHECK
• regras ou gatilhos fazem o roteamento de dados inseridos,
atualizados ou removidos
• não há sintaxe para criação e gerenciamento de partições

Particionamento: versão 10
• sintaxe declarativa
• roteamento de tuplas
• particionamento por
• list: uma coluna ou expressão
• range: múltiplas colunas ou expressão
• subpartições
• tabela particionada é vazia

Paralelismo de Consultas
• sequential scan (9.6)
• btree index scan (10)
• hash join (9.6)
• nested loop (9.6)
• merge join (10)
• bitmap heap scan (10)
• non-correlated subqueries (10)

Paralelismo de Consultas: parâmetros
• max_worker_processes (9.6)
• max_parallel_workers (10)
• max_parallel_workers_per_gather (9.6)
• min_parallel_relation_size (9.6)
• min_parallel_table_scan_size (10)
• min_parallel_index_scan_size (10)

Full Text Search
• módulo adicional desde 7.2
• integrado na versão 8.3
• busca em documentos
• produzir tokens a partir de documentos
• converter tokens em lexemas
• armazenar lexemas no índice
• controle de lexemas indexados pode ser feito com dicionários
• tipos de dados tsvector e tsquery
• suporte a índices GiST e Gin

FTS x IR
Process Text
Search Index File
Retrieve Documents
Produce ranked
list of matches
Inverted File
Ranking Algorithm
Collection
Document

Window Functions
• adicionado na versão 8.4
• executa função em um conjunto de registros que estão
relacionada ao registro atual
• não provocam o agrupamento de registro em um único
registro de saída
• cláusula OVER
• PARTITION BY
• ORDER BY
• cláusulas frame (subconjunto da partição)

GROUPING SETS
• agregação de dados com diferentes cláusulas GROUP BY
unidas
• emulado realizando a união de todas as possibilidades
• ROLLUP e CUBE são notações abreviadas do GROUPING
SETS

ROLLUP
1 ROLLUP ( c1 , c2 , c3 )
2
3 GROUPING SETS (
4 ( c1 , c2 , c3 ) ,
5 ( c1 , c2 ) ,
6 ( c1 ) ,
7 () )

CUBE
1 CUBE ( c1 , c2 , c3 )
2
3 GROUPING SETS (
4 ( c1 , c2 , c3 ) ,
5 ( c1 , c2 ) ,
6 ( c1 , c3 ) ,
7 ( c1 ) ,
8 ( c2 , c3 ) ,
9 ( c2 ) ,
10 ( c3 ) ,
11 () )

TABLESAMPLE
• cláusula TABLESAMPLE do SELECT
• obtém um subconjunto dos registros
• aplicado antes da cláusula WHERE
• 2 métodos de amostragem
• BERNOULLI: amostragem por registro
• SYSTEM: amostragem por bloco
1 SELECT a , b , c FROM foo TABLESAMPLE BERNOULLI(0.01)
WHERE d > 50;

Foreign Data Wrapper (FDW)
• funcionalidade do SQL/MED (Management of External Data)
• bancos de dados federados
• dados são acessíveis ao SGBD mas não são gerenciados por ele
• join pushdown
• comandos
• CREATE FOREIGN DATA WRAPPER
• CREATE SERVER
• CREATE USER MAPPING
• CREATE FOREIGN TABLE

FDW: IMPORT FOREIGN SCHEMA
• cria tabelas externas que representam tabelas em um servidor
externo
• tabelas e visões do servidor externo são importadas
• conformidade com padrão SQL
• cláusulas LIMIT TO e EXCEPT podem ser utilizadas para
restringir o conjunto de objetos
• o esquema local deve existir
1 IMPORT FOREIGN SCHEMA f i n a n c e i r o FROM SERVER meupgsql
INTO empresa ;
2 IMPORT FOREIGN SCHEMA rh EXCEPT ( cargos , v a l e t r a n s p o r t e )
INTO empresa ;
3 IMPORT FOREIGN SCHEMA adm LIMIT TO ( usuarios , t e l e f o n e s )
INTO empresa ;

Tabelas Unlogged
• dados não são escritos no WAL
• não há garantia contra queda
• mais rápidas do que tabelas regulares
• índices também são unlogged
• em caso de queda ou desligamento abrupto, tabelas unlogged
são truncadas
• tabelas unlogged não são replicadas
• transformar tabelas regulares em unlogged e vice-versa
1 ALTER TABLE foo SET UNLOGGED;
2 ALTER TABLE bar SET LOGGED;

Visões Materializadas
• similar a CREATE TABLE AS
• “guarda” consulta que gerou visão materializada
• comando REFRESH descarta dados antigos e popula com
novos dados
• possui a opção de criar visão materializada sem dados

Hot Standby
Hot Standby
principal
réplica

Hot Standby
• replica todo cluster
• cascateamento
• mesma plataforma (hardware, sistema operacional)
• mesmo caminho de tablespaces
• mesma versão do postgres
• consulta longa na réplica gera atraso na replicação

Replicação Lógica
nó A nó B

Replicação Lógica
• replica mudanças
• modelo publish-subscribe
• replicação transacional
• subscriber aplica dados na mesma ordem do que o publisher
• decodificação lógica do WAL
• sincronismo inicial
• cascateamento

Decodificação Lógica
• gera modificações feitas via SQL para consumidores externos
• modificações são enviadas em fluxo a slots
• o formato no qual as modificações são enviadas é determinado
pelo plugin de saída
• plugin tem acesso a registros produzidos por INSERT e
UPDATE
• ... e também versões antigas do UPDATE / DELETE
(REPLICA IDENTITY)
• casos de uso: replicação e auditoria
• tabelas unlogged e temporárias não são decodificadas

Não podemos esquecer de ...
• COPY
• diversidade de PLs
• diversidade de funções estatísticas
• paralelismo de operações de cópia e restauração

Resumo
1 Introdução
2 Funcionalidades
3 Conclusão

Big Data x PostgreSQL
• O PostgreSQL está preparado para Big Data?
• Está acompanhando a evolução das novas tecnologias

O que vem por aí...
• partição overflow
• particionamento por hash
• JIT em expressões
• decodificação lógica na réplica
• plugin wal2json

PGConf.Brasil 2018
• 03 e 04 agosto de 2018
• São Paulo, SP
• Inscrições Abertas
• Chamada de Trabalhos
• http://www.pgconf.com.br

Perguntas
?
Euler Taveira de Oliveira
euler@timbira.com.br
http://www.timbira.com.br

Big Data PostgreSQL Funcionalidades

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Big Data PostgreSQL Funcionalidades

Semelhante a Big Data PostgreSQL Funcionalidades (20)

Big Data PostgreSQL Funcionalidades