Veja além de primeira página: Aprenda a otimizar e utilizar as melhores práticas do Amazon Redshift, banco de dados colunar e de processamento paralelo massivo, para aumentar a capacidade de entregar performance em queries com alto volume de dados em segundos ou milisegundos. Esta sessão explica como migrar ambientes de Data Warehouses existentes, criar schemas otimizados, fazer carga de maneira eficiente, utilizar o workload management, e otimizar suas queries, utilizando o Amazon Redshift com features avançadas.
https://aws.amazon.com/pt/redshift/
This presentation provides a clear overview of how Oracle Database In-Memory optimizes both analytics and mixed workloads, delivering outstanding performance while supporting real-time analytics, business intelligence, and reporting. It provides details on what you can expect from Database In-Memory in both Oracle Database 12.1.0.2 and 12.2.
Performance Stability, Tips and Tricks and UnderscoresJitendra Singh
This document provides an overview of upgrading to Oracle Database 19c and ensuring performance stability after the upgrade. It discusses gathering statistics before the upgrade to speed up the process, using AutoUpgrade for upgrades, and various testing tools like AWR Diff Reports and SQL Performance Analyzer to check for performance regressions after the upgrade. Maintaining good statistics and thoroughly testing upgrades are emphasized as best practices for a successful upgrade.
Azure Search is a cloud search service that allows developers to add search functionality to applications. Key features include scalability, powerful querying abilities, scoring profiles, and search navigation options. To use Azure Search, developers first create a search service, then define indexes and documents. Documents are added to indexes which are optimized data structures for search. Queries can be executed against indexes to retrieve relevant documents based on search terms. Results can be filtered and scored using various options in Azure Search.
Hadoop World 2011: Replacing RDB/DW with Hadoop and Hive for Telco Big Data -...Cloudera, Inc.
The document discusses migrating KT's CDR analysis system from a relational database to NexR's Hadoop-based Data Analytics Platform (NDAP). NDAP provides tools to help with the migration, including converting Oracle data and SQL queries to the Hive query language. The conversion process involves mapping data types, functions, and SQL syntax between Oracle and Hive. NDAP also includes performance monitoring and query optimization tools to help enterprise data engineers adapt to the new system.
Learn from the author of SQLTXPLAIN the fundamentals of SQL Tuning: 1) Diagnostics Collection; 2) Root Cause Analysis (RCA); and 3) Remediation.
SQL Tuning is a complex and intimidating area of knowledge, and it requires years of frequent practice to master it. Nevertheless, there are some concepts and practices that are fundamental to succeed. From basic understanding of the Cost-based Optimizer (CBO) and the Execution Plans, to more advance topics such as Plan Stability and the caveats of using SQL Profiles and SQL Plan Baselines, this session is full of advice and experience sharing. Learn what works and what doesn't when it comes to SQL Tuning.
Participants of this session will also learn about several free tools (besides SQLTXPLAIN) that can be used to diagnose a SQL statement performing poorly, and some others to improve Execution Plan Stability.
Either if your are a novice DBA, or an experienced DBA or Developer, there will be something new for you on this session. And if this is your first encounter with SQL Tuning, at least you will learn the basic concepts and steps to succeed in your endeavor.
This presentation provides a clear overview of how Oracle Database In-Memory optimizes both analytics and mixed workloads, delivering outstanding performance while supporting real-time analytics, business intelligence, and reporting. It provides details on what you can expect from Database In-Memory in both Oracle Database 12.1.0.2 and 12.2.
Performance Stability, Tips and Tricks and UnderscoresJitendra Singh
This document provides an overview of upgrading to Oracle Database 19c and ensuring performance stability after the upgrade. It discusses gathering statistics before the upgrade to speed up the process, using AutoUpgrade for upgrades, and various testing tools like AWR Diff Reports and SQL Performance Analyzer to check for performance regressions after the upgrade. Maintaining good statistics and thoroughly testing upgrades are emphasized as best practices for a successful upgrade.
Azure Search is a cloud search service that allows developers to add search functionality to applications. Key features include scalability, powerful querying abilities, scoring profiles, and search navigation options. To use Azure Search, developers first create a search service, then define indexes and documents. Documents are added to indexes which are optimized data structures for search. Queries can be executed against indexes to retrieve relevant documents based on search terms. Results can be filtered and scored using various options in Azure Search.
Hadoop World 2011: Replacing RDB/DW with Hadoop and Hive for Telco Big Data -...Cloudera, Inc.
The document discusses migrating KT's CDR analysis system from a relational database to NexR's Hadoop-based Data Analytics Platform (NDAP). NDAP provides tools to help with the migration, including converting Oracle data and SQL queries to the Hive query language. The conversion process involves mapping data types, functions, and SQL syntax between Oracle and Hive. NDAP also includes performance monitoring and query optimization tools to help enterprise data engineers adapt to the new system.
Learn from the author of SQLTXPLAIN the fundamentals of SQL Tuning: 1) Diagnostics Collection; 2) Root Cause Analysis (RCA); and 3) Remediation.
SQL Tuning is a complex and intimidating area of knowledge, and it requires years of frequent practice to master it. Nevertheless, there are some concepts and practices that are fundamental to succeed. From basic understanding of the Cost-based Optimizer (CBO) and the Execution Plans, to more advance topics such as Plan Stability and the caveats of using SQL Profiles and SQL Plan Baselines, this session is full of advice and experience sharing. Learn what works and what doesn't when it comes to SQL Tuning.
Participants of this session will also learn about several free tools (besides SQLTXPLAIN) that can be used to diagnose a SQL statement performing poorly, and some others to improve Execution Plan Stability.
Either if your are a novice DBA, or an experienced DBA or Developer, there will be something new for you on this session. And if this is your first encounter with SQL Tuning, at least you will learn the basic concepts and steps to succeed in your endeavor.
How a Developer can Troubleshoot a SQL performing poorly on a Production DBCarlos Sierra
This session is about some free small scripts you can execute from SQL*Plus, which provide you with some basics about a SQL statement, like the Execution Plan from multiple child cursors, their SQL Monitor report if your site has the Tuning Pack, and some useful Active Session History (ASH) summaries for your SQL if your site has the Diagnostics Pack. And if you have neither the Tuning nor the Diagnostics Pack then you may want to learn about some alternatives to collect important performance metrics.
Prezentarea generala este elaborata de HIDRO TARNITA S.A. cu scopul de a oferi Investitorilor interesati o imagine generala asupra Proiectului, incluzand aspecte tehnice, economice, financiare, comerciale si juridice generale luate in considerare pentru realizarea CHEAP Tarnita Lapustesti;
This document discusses NoSQL and big data processing. It provides background on scaling relational databases and introduces key concepts like the CAP theorem. The CAP theorem states that a distributed data store can only provide two out of three guarantees around consistency, availability, and partition tolerance. Many NoSQL systems sacrifice consistency for availability and partition tolerance, adopting an eventual consistency model instead of ACID transactions.
BigQuery é um serviço de análise de dados totalmente gerenciado na nuvem do Google Cloud Platform. Ele oferece armazenamento ilimitado para análise interativa em conjuntos de dados de multi-terabytes de forma escalável. BigQuery usa SQL semelhante ao padrão para consultas e suporta JOINs, WHERE, GROUP BY e ORDER BY. Ele também oferece análise de dados quase em tempo real com alta fidelidade e baixa latência.
Best Practices – Extreme Performance with Data Warehousing on Oracle DatabaseEdgar Alejandro Villegas
The document discusses best practices for data warehousing performance on Oracle Database. It covers using Oracle Exadata Database Machine for mixed workloads including data warehousing. Key strategies discussed are partitioning tables for pruning and parallelism, using hybrid columnar compression for storage savings and faster scans, and enabling auto parallelism and queuing for optimal parallel query processing.
Microsoft Business Intelligence Vision and StrategyNic Smith
Microsoft Business Intelligence slide deck, learn the Microsoft vision and strategy for business intelligence. These slides include the offering and value proposition for Microsoft BI.
RaptorX: Building a 10X Faster Presto with hierarchical cacheAlluxio, Inc.
RaptorX is a new product from Facebook that provides a 10x performance improvement over Presto for querying large datasets stored in remote object storage. It achieves this through an intelligent hierarchical caching system that caches metadata, file lists, file descriptors, data fragments, and query results at various points in the query processing pipeline. This caching approach significantly reduces the latency of queries by minimizing the number of remote storage requests. RaptorX has been deployed at Facebook on over 10,000 servers to power interactive analytics workloads querying over 1 exabyte of data stored in remote object storage.
Learning Objectives - In this module, you will understand the newly added features in Hadoop 2.0, namely, YARN, MRv2, NameNode High Availability, HDFS Federation, support for Windows etc.
The document discusses erasure coding as an alternative to replication in distributed storage systems like HDFS. It notes that while replication provides high durability, it has high storage overhead, and erasure coding can provide similar durability with half the storage overhead but slower recovery. The document outlines how major companies like Facebook, Windows Azure Storage, and Google use erasure coding. It then provides details on HDFS-EC, including its architecture, use of hardware acceleration, and performance evaluation showing its benefits over replication.
The document discusses IO resource management (IORM) on Oracle Exadata. IORM governs and prioritizes IO requests to Exadata storage servers when databases are consolidated on Exadata. It describes the IORM architecture which uses categories, inter-database plans, and intra-database plans to allocate IO resources across consumer groups and databases. The document also provides details on monitoring IORM metrics using tools like CellCLI and analyzing cellsrv dump files.
Being Glue (Newer slides at https://noidea.dog/glue)Tanya Reilly
The document describes the experience of a software engineer who focused primarily on "glue work" like improving processes, mentoring others, and addressing organizational needs rather than writing code. Over two years, she received good performance reviews but wrote very little code. When promotion time came, she was told her technical contributions were insufficient despite the positive impact of her work. This highlighted the risks of focusing too much on non-technical "glue" work and not setting clear expectations around career progression.
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM
Este documento fornece diretrizes sobre melhores práticas para armazenamento e análise de dados no Amazon Redshift, incluindo arquitetura, ingestão de dados, recursos, dicas de migração e otimização.
This document provides an overview of Apache Sqoop, a tool for transferring bulk data between Apache Hadoop and structured data stores like relational databases. It describes how Sqoop can import data from external sources into HDFS or related systems, and export data from Hadoop to external systems. The document also demonstrates how to use basic Sqoop commands to list databases and tables, import and export data between MySQL and HDFS, and perform updates during export.
Big Data is a collection of large and complex data sets that cannot be processed using regular database management tools or processing applications. A lot of challenges such as capture, curation, storage, search, sharing, analysis, and visualization can be encountered while handling Big Data. On the other hand the Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Big Data certification is one of the most recognized credentials of today.
For more details Click http://www.simplilearn.com/big-data-and-analytics/big-data-and-hadoop-training
The document provides an overview of the Google Cloud Platform (GCP) Data Engineer certification exam, including the content breakdown and question format. It then details several big data technologies in the GCP ecosystem such as Apache Pig, Hive, Spark, and Beam. Finally, it covers various GCP storage options including Cloud Storage, Cloud SQL, Datastore, BigTable, and BigQuery, outlining their key features, performance characteristics, data models, and use cases.
Rule engines separate application logic from business rules, making applications more maintainable. JRule is a popular open-source Java rule engine that executes rules defined in XML files against input objects to produce output objects. Key aspects of JRule include rule conditions and actions, rule sessions that interface between clients and the engine, and support for stateful or stateless sessions.
What is Data Warehousing? ,
Who needs Data Warehousing? ,
Why Data Warehouse is required? ,
Types of Systems ,
OLTP
OLAP
Maintenance of Data Warehouse
Data Warehousing Life Cycle
O documento apresenta a arquitetura de memória do PostgreSQL, discutindo como os dados são alocados e armazenados na memória e como a memória é dividida e configurada entre os subsistemas. É apresentada a hierarquia de memória do sistema e como os dados são carregados da memória secundária para a memória principal.
How a Developer can Troubleshoot a SQL performing poorly on a Production DBCarlos Sierra
This session is about some free small scripts you can execute from SQL*Plus, which provide you with some basics about a SQL statement, like the Execution Plan from multiple child cursors, their SQL Monitor report if your site has the Tuning Pack, and some useful Active Session History (ASH) summaries for your SQL if your site has the Diagnostics Pack. And if you have neither the Tuning nor the Diagnostics Pack then you may want to learn about some alternatives to collect important performance metrics.
Prezentarea generala este elaborata de HIDRO TARNITA S.A. cu scopul de a oferi Investitorilor interesati o imagine generala asupra Proiectului, incluzand aspecte tehnice, economice, financiare, comerciale si juridice generale luate in considerare pentru realizarea CHEAP Tarnita Lapustesti;
This document discusses NoSQL and big data processing. It provides background on scaling relational databases and introduces key concepts like the CAP theorem. The CAP theorem states that a distributed data store can only provide two out of three guarantees around consistency, availability, and partition tolerance. Many NoSQL systems sacrifice consistency for availability and partition tolerance, adopting an eventual consistency model instead of ACID transactions.
BigQuery é um serviço de análise de dados totalmente gerenciado na nuvem do Google Cloud Platform. Ele oferece armazenamento ilimitado para análise interativa em conjuntos de dados de multi-terabytes de forma escalável. BigQuery usa SQL semelhante ao padrão para consultas e suporta JOINs, WHERE, GROUP BY e ORDER BY. Ele também oferece análise de dados quase em tempo real com alta fidelidade e baixa latência.
Best Practices – Extreme Performance with Data Warehousing on Oracle DatabaseEdgar Alejandro Villegas
The document discusses best practices for data warehousing performance on Oracle Database. It covers using Oracle Exadata Database Machine for mixed workloads including data warehousing. Key strategies discussed are partitioning tables for pruning and parallelism, using hybrid columnar compression for storage savings and faster scans, and enabling auto parallelism and queuing for optimal parallel query processing.
Microsoft Business Intelligence Vision and StrategyNic Smith
Microsoft Business Intelligence slide deck, learn the Microsoft vision and strategy for business intelligence. These slides include the offering and value proposition for Microsoft BI.
RaptorX: Building a 10X Faster Presto with hierarchical cacheAlluxio, Inc.
RaptorX is a new product from Facebook that provides a 10x performance improvement over Presto for querying large datasets stored in remote object storage. It achieves this through an intelligent hierarchical caching system that caches metadata, file lists, file descriptors, data fragments, and query results at various points in the query processing pipeline. This caching approach significantly reduces the latency of queries by minimizing the number of remote storage requests. RaptorX has been deployed at Facebook on over 10,000 servers to power interactive analytics workloads querying over 1 exabyte of data stored in remote object storage.
Learning Objectives - In this module, you will understand the newly added features in Hadoop 2.0, namely, YARN, MRv2, NameNode High Availability, HDFS Federation, support for Windows etc.
The document discusses erasure coding as an alternative to replication in distributed storage systems like HDFS. It notes that while replication provides high durability, it has high storage overhead, and erasure coding can provide similar durability with half the storage overhead but slower recovery. The document outlines how major companies like Facebook, Windows Azure Storage, and Google use erasure coding. It then provides details on HDFS-EC, including its architecture, use of hardware acceleration, and performance evaluation showing its benefits over replication.
The document discusses IO resource management (IORM) on Oracle Exadata. IORM governs and prioritizes IO requests to Exadata storage servers when databases are consolidated on Exadata. It describes the IORM architecture which uses categories, inter-database plans, and intra-database plans to allocate IO resources across consumer groups and databases. The document also provides details on monitoring IORM metrics using tools like CellCLI and analyzing cellsrv dump files.
Being Glue (Newer slides at https://noidea.dog/glue)Tanya Reilly
The document describes the experience of a software engineer who focused primarily on "glue work" like improving processes, mentoring others, and addressing organizational needs rather than writing code. Over two years, she received good performance reviews but wrote very little code. When promotion time came, she was told her technical contributions were insufficient despite the positive impact of her work. This highlighted the risks of focusing too much on non-technical "glue" work and not setting clear expectations around career progression.
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM
Este documento fornece diretrizes sobre melhores práticas para armazenamento e análise de dados no Amazon Redshift, incluindo arquitetura, ingestão de dados, recursos, dicas de migração e otimização.
This document provides an overview of Apache Sqoop, a tool for transferring bulk data between Apache Hadoop and structured data stores like relational databases. It describes how Sqoop can import data from external sources into HDFS or related systems, and export data from Hadoop to external systems. The document also demonstrates how to use basic Sqoop commands to list databases and tables, import and export data between MySQL and HDFS, and perform updates during export.
Big Data is a collection of large and complex data sets that cannot be processed using regular database management tools or processing applications. A lot of challenges such as capture, curation, storage, search, sharing, analysis, and visualization can be encountered while handling Big Data. On the other hand the Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Big Data certification is one of the most recognized credentials of today.
For more details Click http://www.simplilearn.com/big-data-and-analytics/big-data-and-hadoop-training
The document provides an overview of the Google Cloud Platform (GCP) Data Engineer certification exam, including the content breakdown and question format. It then details several big data technologies in the GCP ecosystem such as Apache Pig, Hive, Spark, and Beam. Finally, it covers various GCP storage options including Cloud Storage, Cloud SQL, Datastore, BigTable, and BigQuery, outlining their key features, performance characteristics, data models, and use cases.
Rule engines separate application logic from business rules, making applications more maintainable. JRule is a popular open-source Java rule engine that executes rules defined in XML files against input objects to produce output objects. Key aspects of JRule include rule conditions and actions, rule sessions that interface between clients and the engine, and support for stateful or stateless sessions.
What is Data Warehousing? ,
Who needs Data Warehousing? ,
Why Data Warehouse is required? ,
Types of Systems ,
OLTP
OLAP
Maintenance of Data Warehouse
Data Warehousing Life Cycle
O documento apresenta a arquitetura de memória do PostgreSQL, discutindo como os dados são alocados e armazenados na memória e como a memória é dividida e configurada entre os subsistemas. É apresentada a hierarquia de memória do sistema e como os dados são carregados da memória secundária para a memória principal.
O documento apresenta o serviço Amazon Redshift da AWS, descrevendo suas principais características como armazenamento de dados colunar, compressão, zone maps, desempenho de consultas paralelas e elasticidade.
Exadata - O Todo é maior que a soma das PartesLuis Marques
O documento discute as características principais do Exadata. Resume que o Exadata consiste em duas camadas - uma camada de armazenamento e uma camada de banco de dados - que se comunicam através do protocolo IDB para melhorar o desempenho. O offloading/Smart Scan processa consultas nas células de armazenamento para reduzir dados transferidos e uso de CPU. O Exadata também usa compressão híbrida colunar, índices de armazenamento e cache flash inteligente para melhorar o desempenho ainda mais.
O documento apresenta informações sobre uma organização que apoia eventos sobre In-Memory OLTP no SQL Server. A agenda inclui tópicos como conceitos, arquitetura, demonstrações e casos reais de implementação. Dois palestrantes são apresentados com suas credenciais e contatos.
AWS Meetup Rio - Qual banco usar e quando?Pedro Pisa
Nestra palestra, realizada no dia 30/08/2016, no Senac-RJ, apresentei as principais soluções de bancos de dados disponíveis na AWS e as diferenças entre elas, bem como alguns casos de uso sugeridos para cada um.
O documento descreve o SQLite, um banco de dados SQL leve e open source. Ele define o SQLite como uma biblioteca que armazena e recupera dados diretamente de um arquivo no disco, sem necessidade de configuração ou servidor. O documento também discute a história, características, instalação e uso do SQLite.
Este documento apresenta um resumo sobre bancos de dados, definindo termos como base de dados, sistema de banco de dados, sistema gerenciador de banco de dados e bancos de dados semi-estruturados. Além disso, fornece exemplos de sistemas como PostgreSQL, WinISIS e SQL.
1) O documento apresenta os principais benefícios do Amazon Redshift como um data warehouse na nuvem gerenciado totalmente pela AWS, incluindo ser rápido, barato e seguro.
2) Apresenta casos de uso comuns do Redshift como análise de grandes volumes de dados de redes sociais e mostra como ele pode ser uma opção de custo efetiva.
3) Fornece orientações sobre como começar com o Redshift, incluindo provisionamento, modelagem e carga de dados para obter o máximo de desempenho.
Este documento discute melhores práticas para data warehouses SQL Server, incluindo carga de trabalho, padrões de consultas, localização de arquivos, fragmentação, hyper-threading e carga de dados. O documento também discute como um sistema desbalanceado com servidor poderoso mas armazenamento lento pode resultar em baixo desempenho.
O documento apresenta as principais dicas e boas práticas para obter alto desempenho em aplicações PHP com banco de dados MySQL, abordando tópicos como projeto físico, erros comuns, utilização de índices, consultas, partição de dados e replicação. O palestrante também disponibiliza seus contatos e sites com mais informações sobre o tema.
Este documento fornece uma introdução à linguagem SQL, incluindo: 1) os objetivos de aprender SQL; 2) os principais componentes de um banco de dados e como estruturar e acessar dados; 3) como recuperar, filtrar e modificar dados usando comandos SQL básicos.
O documento resume as principais tecnologias e conceitos relacionados ao Big Data, incluindo Hadoop, HDFS, MapReduce, bancos de dados NoSQL, Data Lake, processamento distribuído e arquiteturas de dados. O documento também discute conceitos como volume, variedade e velocidade de dados, além de apresentar as principais nuvens públicas para Big Data.
Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento d...Lucas A. Romão
Evento: Azure Summit Brasil 2014
Palestra: Microsoft Azure Storage - Tudo o que você precisa saber sobre armazenamento de alta performance
Palestrante: Lucas A. Romão
Descrição: Esta palestra foi baseada em uma das seções do TechEd North America '14 onde foram tratadas as principais características do Storage do Microsoft Azure, como por exemplo, modelos de redundância, como explorar o recurso Azure Files, melhores práticas e cenários.
1) O documento discute os principais tipos de bancos de dados, incluindo SQL, NoSQL e Hadoop.
2) Apresenta os conceitos básicos de bancos de dados, sistemas de gerenciamento de bancos de dados e arquiteturas.
3) Discutem técnicas como map-reduce usadas em bancos de dados NoSQL para manipular grandes volumes de dados.
1) O documento discute bancos de dados SQL, NoSQL e Hadoop, incluindo conceitos, comandos e sistemas de bancos de dados.
2) É apresentada a arquitetura cliente-servidor para sistemas de banco de dados e exemplos de sistemas como MySQL, PostgreSQL e Oracle.
3) São descritos conceitos como atomicidade, consistência, isolamento e durabilidade (ACID) e técnicas como map-reduce usadas em bancos de dados NoSQL.
O documento descreve conceitos básicos sobre bancos de dados MySQL, incluindo tabelas, tipos de dados, linguagem SQL e principais comandos como SELECT, INSERT, UPDATE e DELETE.
O documento apresenta uma introdução ao banco de dados MongoDB, descrevendo suas principais características como armazenamento de documentos JSON, consulta por documento, particionamento em shards e suporte a operações MapReduce.
1. O documento apresenta uma história sobre Ryu, escolhido para analisar grandes volumes de dados do e-commerce Shadaloo usando Apache Hadoop.
2. Explica brevemente o que é Hadoop, sua arquitetura e ferramentas como HDFS, MapReduce, Hive e PIG.
3. Apresenta demonstrações práticas de como usar a sandbox Hortonworks para trabalhar com Hadoop, incluindo upload de dados, criação de tabelas Hive e execução de scripts.
[TDC2016] Apache Cassandra Estratégias de Modelagem de DadosEiti Kimura
O documento discute estratégias de modelagem de dados no Apache Cassandra, incluindo modelagem orientada por consulta, séries temporais e particionamento de dados. O palestrante apresenta exemplos de como modelar dados para diferentes casos de uso e discute considerações importantes como validar o modelo de dados e respeitar os limites físicos de particionamento.
O documento discute opções para Disaster Recovery na nuvem AWS, incluindo Backup e Restore, Pilot Light, Warm Standby e Multi-Site. A AWS oferece várias soluções para atender a diferentes requisitos de RTO e RPO a um custo variável. A nuvem permite testes fáceis e dimensionamento flexível dos recursos de recuperação de desastres.
O documento discute opções para Disaster Recovery na nuvem AWS, incluindo Backup e Restore, Pilot Light, Warm Standby e Multi-Site. A AWS oferece várias soluções para atender a diferentes requisitos de RTO e RPO a um custo variável. A nuvem permite testes fáceis e dimensionamento flexível dos recursos de recuperação de desastres.
O documento descreve várias soluções de segurança da nuvem da AWS, incluindo ferramentas para gestão de acessos e identidade, detecção, segurança de infraestrutura, resposta a incidentes e proteção de dados. A AWS oferece 203 certificações de segurança e mais de 2.600 controles auditados anualmente para ajudar clientes a manterem a conformidade e segurança na nuvem.
En este webinar, aprenderá cómo las empresas pueden aprovechar la nube de AWS para automatizar los pipelines de desarrollo de software. Este enfoque permite que su equipo sea más ágil, mejorando su capacidad para entregar aplicaciones y servicios rápidamente.
Neste webinar, você aprenderá como as empresas podem se valer da nuvem da AWS para automatizar os pipelines de desenvolvimento de software. Essa abordagem permite que sua equipe seja mais ágil, melhorando sua capacidade para entregar aplicações e serviços mais rapidamente.
Las tecnologías como los contenedores y kubernetes pueden hacer que sus procesos de entrega de software sean más fáciles y más rápidos. En este webinar, hablaremos sobre cómo usar el Amazon Kubernetes Service (EKS) para construir aplicaciones modernas con grupos Kubernetes totalmente administrados.
Tecnologias como containers e Kubernetes podem tornar seus processos de entrega de software mais fáceis e rápidos. Neste webinar, falaremos sobre como usar o Amazon Elastic Kubernetes Service (EKS) para criar aplicativos modernos com clusters de Kubernetes totalmente gerenciados.
Ransomware é uma das ameaças de crescimento mais rápido para qualquer organização. Nenhuma empresa, grande ou pequena, está imune a ataques de cibercriminosos. Nesta sessão, mostramos como você pode aproveitar os serviços e recursos da nuvem AWS para proteger seus dados mais valiosos de ataques cibernéticos e acelerar a restauração de operações.
El ransomware es una de las amenazas de más rápido crecimiento para cualquier organización. Ninguna empresa, grande o pequeña, es inmune a los ataques de los ciberdelincuentes. En esta sesión, mostramos cómo puede aprovechar los servicios y las capacidades de la nube AWS para proteger sus datos más valiosos de los ataques cibernéticos y acelerar la restauración de las operaciones.
Ransomware é uma prática maliciosa que tem se popularizado nos últimos anos. Nessa sessão, mostraremos como através da Amazon Web Services nossos clientes podem desenvolver uma estratégia pró-ativa de mitigação a ataques de ransomware, tanto em cenários on-premises como operando na nuvem.
El ransomware es una práctica maliciosa que se ha popularizado en los últimos años. En esta sesión les mostraremos cómo desde Amazon Web Services nuestros clientes pueden desarrollar una estrategia proactiva de mitigación frente a ataques de ransomware, tanto en escenarios on-premises, como operando en la nube.
Al mover datos a la nube, los clientes deben comprender los métodos óptimos para los diferentes casos de uso, los tipos de datos que están moviendo y los recursos disponibles en la red, entre otros. Las soluciones de migración y transferencia de AWS contemplan desde la migración de datos con conectividad limitada, almacenamiento en la nube híbrida, transferencias frecuentes de archivos B2B, hasta transferencias de datos en línea y sin conexión. En esta sesión, le mostramos cómo puede acelerar la migración y transferencia de datos de manera simplificada desde y hacia la nube de AWS.
O documento discute estratégias para migração de dados para a AWS, incluindo serviços como AWS Transfer Family para transferência de arquivos, AWS DataSync para mover dados entre ambientes on-premises e AWS, e AWS Snow Family para transferência offline de grandes quantidades de dados.
El almacenamiento de archivos tiene diversos casos de uso; como directorios de usuarios, datos de aplicaciones, archivos multimedia y almacenamiento compartido para cargas de trabajo de alto rendimiento. La administración del almacenamiento de archivos en instalaciones propias suele ser un trabajo pesado, indiferenciado, con altos costos de adquisición, carga operativa para configurar y administra, lo que conlleva a desafíos de escalabilidad. En esta sesión, le mostramos cómo puede aprovechar las soluciones de archivos totalmente administradas de AWS para dejar de preocuparse por la sobrecarga administrativa de configurar, proteger, mantener y realizar copias de seguridad de su infraestructura de archivos.
La visualización de datos analíticos es un reto al que se enfrentan muchas organizaciones, el poder crear tableros, alertas, agregar predicciones a sus datos y actuar de acuerdo a estas de manera rápida es una necesidad de todos los negocios actuales. Únase a nuestros arquitectos para aprender como Amazon QuickSight le permite agregar inteligencia de negocios a sus aplicaciones y crear predicciones a futuro de sus datos. Amazon QuickSight es un servicio de inteligencia de negocios escalable y serverless creado para la nube, a través del cual podrá explotar sus datos de negocio para convertirlos en insights para hacer decisiones informadas sobre su negocio sin preocuparse de la gestión, escalamiento y la disponibilidad de la infraestructura de cómputo.
A visualização de dados é um desafio que muitas organizações enfrentam hoje. Criar dashboards, alertas, fazer previsões e agir rapidamente de acordo com os insights dos dados é uma necessidade de todas as empresas. Junte-se aos nossos arquitetos para aprender como o Amazon QuickSight o ajudará a adicionar BI aos seus aplicativos. O Amazon Quicksight é um serviço de BI escalável e serverless criado para a nuvem. Com ele, você pode explorar seus dados para obter insights e tomar decisões embasadas em seus negócios, sem se preocupar em gerenciar e dimensionar servidores e manter a disponibilidade de sua infraestrutura.
1) O documento discute os benefícios de migrar workloads de Big Data para a AWS, incluindo tornar mais fácil construir data lakes e analytics, oferecer maior abrangência de serviços e fornecer infraestrutura mais segura e escalável.
2) É apresentada a plataforma Amazon EMR para executar aplicativos de Big Data de forma gerenciada na AWS, proporcionando melhor desempenho a menor custo em comparação a clusters on-premises.
3) A separação de computação e armazenamento no Amazon EMR permite
A linguagem C# aproveita conceitos de muitas outras linguagens,
mas especialmente de C++ e Java. Sua sintaxe é relativamente fácil, o que
diminui o tempo de aprendizado. Todos os programas desenvolvidos devem
ser compilados, gerando um arquivo com a extensão DLL ou EXE. Isso torna a
execução dos programas mais rápida se comparados com as linguagens de
script (VBScript , JavaScript) que atualmente utilizamos na internet
Em um mundo cada vez mais digital, a segurança da informação tornou-se essencial para proteger dados pessoais e empresariais contra ameaças cibernéticas. Nesta apresentação, abordaremos os principais conceitos e práticas de segurança digital, incluindo o reconhecimento de ameaças comuns, como malware e phishing, e a implementação de medidas de proteção e mitigação para vazamento de senhas.
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...Faga1939
Este artigo tem por objetivo apresentar como ocorreu a evolução do consumo e da produção de energia desde a pré-história até os tempos atuais, bem como propor o futuro da energia requerido para o mundo. Da pré-história até o século XVIII predominou o uso de fontes renováveis de energia como a madeira, o vento e a energia hidráulica. Do século XVIII até a era contemporânea, os combustíveis fósseis predominaram com o carvão e o petróleo, mas seu uso chegará ao fim provavelmente a partir do século XXI para evitar a mudança climática catastrófica global resultante de sua utilização ao emitir gases do efeito estufa responsáveis pelo aquecimento global. Com o fim da era dos combustíveis fósseis virá a era das fontes renováveis de energia quando prevalecerá a utilização da energia hidrelétrica, energia solar, energia eólica, energia das marés, energia das ondas, energia geotérmica, energia da biomassa e energia do hidrogênio. Não existem dúvidas de que as atividades humanas sobre a Terra provocam alterações no meio ambiente em que vivemos. Muitos destes impactos ambientais são provenientes da geração, manuseio e uso da energia com o uso de combustíveis fósseis. A principal razão para a existência desses impactos ambientais reside no fato de que o consumo mundial de energia primária proveniente de fontes não renováveis (petróleo, carvão, gás natural e nuclear) corresponde a aproximadamente 88% do total, cabendo apenas 12% às fontes renováveis. Independentemente das várias soluções que venham a ser adotadas para eliminar ou mitigar as causas do efeito estufa, a mais importante ação é, sem dúvidas, a adoção de medidas que contribuam para a eliminação ou redução do consumo de combustíveis fósseis na produção de energia, bem como para seu uso mais eficiente nos transportes, na indústria, na agropecuária e nas cidades (residências e comércio), haja vista que o uso e a produção de energia são responsáveis por 57% dos gases de estufa emitidos pela atividade humana. Neste sentido, é imprescindível a implantação de um sistema de energia sustentável no mundo. Em um sistema de energia sustentável, a matriz energética mundial só deveria contar com fontes de energia limpa e renováveis (hidroelétrica, solar, eólica, hidrogênio, geotérmica, das marés, das ondas e biomassa), não devendo contar, portanto, com o uso dos combustíveis fósseis (petróleo, carvão e gás natural).
2. Visão Geral - Deep Dive em Amazon Redshift
• Amazon Redshift história e desenvolvimento
• Arquitetura do Cluster
• Conceitos e terminologia
• Deep dive em Storage
• Ciclo de vida de Consultas
• Features novas e esperadas;
7. Arquitetura do Cluster Amazon Redshift
Massivamente paralelo, ”shared nothing”
Nó Líder
• SQL ponto de conexão
• Armazenamento metadados
• Coordena o processamento paralelo de
SQL
Nós de Computação
• Storage colunar local
• Executa queries em paralelo
• Carga, backup e recuperação
10 GigE
(HPC)
Ingestion
Backup
Restore
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
S3 / EMR / DynamoDB / SSH
JDBC/ODBC
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
Nó
Líder
9. 128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
Nó Líder
10. • Interpretar & re-escrita
• Otimizador e planejamento
• Gerador de código
• Input: optimized plan
• Output: >=1 C++
functions
• Compilador
• Agendador de tarefas
• WLM
• Admissão
• Agendamento
• PostgreSQL tabela de
• catálogos
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
Nó Líder
11. • Processo de execução de Query
• Backup & restore
• Replicação
• Storage Local
• Discos
• ”Slices”
• Tabelas
• Colunas
• Blocos
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
Nó Líder
Nó de
Computação
Nó de
Computação
Nó de
Computação
13. Desenhado para redução de I/O
Storage Colunar
Compressão de Dados
”Zone Maps” - mapeamento
aid loc dt
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
);
aid loc dt
1 SFO 2016-09-01
2 JFK 2016-09-14
3 SFO 2017-04-01
4 JFK 2017-05-14
• Acessando dt com row:
o Lê tudo
o IO desnecessário
14. Desenhado para redução de I/O
aid loc dt
Storage Colunar
Compressão de Dados
”Zone Maps” - mapeamento
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
);
aid loc dt
1 SFO 2016-09-01
2 JFK 2016-09-14
3 SFO 2017-04-01
4 JFK 2017-05-14
• Acessando coluna dt com storage colunar
o Só scanea blocos para colunas
relevantes
15. Desenhado para redução de I/O
Storage Colunar
Compressão de Dados
”Zone Maps” - mapeamento
aid loc dt
CREATE TABLE deep_dive (
aid INT ENCODE LZO
,loc CHAR(3) ENCODE BYTEDICT
,dt DATE ENCODE RUNLENGTH
);
aid loc dt
1 SFO 2016-09-01
2 JFK 2016-09-14
3 SFO 2017-04-01
4 JFK 2017-05-14
• Colunas grow and shrink independently
• Reduz requiremento de storage
• Reduz I/O
16. Desenhado para Redução I/O
Storage Colunar
Compressão de Dados
”Zone Maps” - mapeamento
aid loc dt
1 SFO 2016-09-01
2 JFK 2016-09-14
3 SFO 2017-04-01
4 JFK 2017-05-14
aid loc dt
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
);
• Metadados In-memory
• Contém valores MIN e MAX para a coluna
• Retira efetivamente blocos que não contém
dados para uma determinada query
• Elimina I/O desnecessário
17. SELECT COUNT(*) FROM deep_dive WHERE dt = '09-JUNE-2013'
MIN: 01-JUNE-2013
MAX: 20-JUNE-2013
MIN: 08-JUNE-2013
MAX: 30-JUNE-2013
MIN: 12-JUNE-2013
MAX: 20-JUNE-2013
MIN: 02-JUNE-2013
MAX: 25-JUNE-2013
Tabela sem Ordenação
MIN: 01-JUNE-2013
MAX: 06-JUNE-2013
MIN: 07-JUNE-2013
MAX: 12-JUNE-2013
MIN: 13-JUNE-2013
MAX: 18-JUNE-2013
MIN: 19-JUNE-2013
MAX: 24-JUNE-2013
Ordenado por Data
Zone Maps
18. Terminologia e Conceitos: Ordenção de Dados
• Objetivos:
• Ordem física das linhas da tabela baseada em uma coluna
• Otimiza a eficiência de Zone Maps
• Habilita operações de MERGE JOIN
• Impacto:
• Habilita otimização de leitura utilizando zone maps
• Redução de I/O
• Habilitada pela propriedade SORTKEY, definida entre 1(uma) ou mais colunas
• SORTKEY ótima depende:
• Padrões de queries
• Perfil dos dados
• Necessidade de negócio
19. Terminologia e Conceitos: Ordenção de Dados
Uma slice pode ser pensada como
“virtual compute node”
• Unidade de particionamento dos dados
• Processamento em paralelo
Fatos sobre fatias ”Slices”:
• Cada nó de computação tem 2, 16, ou 32 slices
• Registros são distribuídas em slices
• Uma ”slice” processa somente seu dado
20. Distribuição de Dados
• Estilo de Distribuição é uma propriedade da tabela que define como o dados será
distribuído através do Cluster:
• KEY: O valor é ”hashed”, o mesmo valor vai para a mesma localização
• (slice)
• ALL: A tabela inteira vai para os primeiros slices de todos os Nós
• EVEN: Round robin
• Objetivo:
• Distribuir o dado igualmente para processamento paralelo
• Minimiza a movimentação de dados durante o processamento
• da query
KEY
ALL
Node 1
Slice
1
Slice
2
Node 2
Slice
3
Slice
4
Node 1
Slice
1
Slice
2
Node 2
Slice
3
Slice
4
Node 1
Slice
1
Slice
2
Node 2
Slice
3
Slice
4
EVEN
21. Distribuição dos dados Key: Exemplo
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
) DISTSTYLE (EVEN|KEY|ALL);
CN1
Slice 0 Slice 1
CN2
Slice 2 Slice 3
Table: deep_dive
User
Columns
System
Columns
aid loc dt ins del row
22. Distribuição dos dados : EVEN Exemplo
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
) DISTSTYLE EVEN;
CN1
Slice 0 Slice 1
CN2
Slice 2 Slice 3
INSERT INTO deep_dive VALUES
(1, 'SFO', '2016-09-01'),
(2, 'JFK', '2016-09-14'),
(3, 'SFO', '2017-04-01'),
(4, 'JFK', '2017-05-14');
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Rows: 0 Rows: 0 Rows: 0 Rows: 0
(3 User Columns + 3 System Columns) x (4 slices) = 24 Blocks (24 MB)
Rows: 1 Rows: 1 Rows: 1 Rows: 1
23. Distribuição dos dados: KEY Exemplo #1
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
) DISTSTYLE KEY DISTKEY (loc);
CN1
Slice 0 Slice 1
CN2
Slice 2 Slice 3
INSERT INTO deep_dive VALUES
(1, 'SFO', '2016-09-01'),
(2, 'JFK', '2016-09-14'),
(3, 'SFO', '2017-04-01'),
(4, 'JFK', '2017-05-14');
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Rows: 2 Rows: 0 Rows: 0
(3 User Columns + 3 System Columns) x (2 slices) = 12 Blocks (12 MB)
Rows: 0Rows: 1
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Rows: 2Rows: 0Rows: 1
24. Distribuição dos dados: KEY Exemplo #2
CREATE TABLE deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
) DISTSTYLE KEY DISTKEY (aid);
CN1
Slice 0 Slice 1
CN2
Slice 2 Slice 3
INSERT INTO deep_dive VALUES
(1, 'SFO', '2016-09-01'),
(2, 'JFK', '2016-09-14'),
(3, 'SFO', '2017-04-01'),
(4, 'JFK', '2017-05-14');
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Rows: 0 Rows: 0 Rows: 0 Rows: 0
(3 User Columns + 3 System Columns) x (4 slices) = 24 Blocks (24 MB)
Rows: 1 Rows: 1 Rows: 1 Rows: 1
25. Distribuição dos dados: ALL Exemplo
CREATE TABLE loft_deep_dive (
aid INT --audience_id
,loc CHAR(3) --location
,dt DATE --date
) DISTSTYLE ALL;
CN1
Slice 0 Slice 1
CN2
Slice 2 Slice 3
INSERT INTO deep_dive VALUES
(1, 'SFO', '2016-09-01'),
(2, 'JFK', '2016-09-14'),
(3, 'SFO', '2017-04-01'),
(4, 'JFK', '2017-05-14');
Rows: 0 Rows: 0
(3 User Columns + 3 System Columns) x (2 slice) = 12 Blocks (12 MB)
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Rows: 0Rows: 1Rows: 2Rows: 4Rows: 3
Table: loft_deep_dive
User Columns System Columns
aid loc dt ins del row
Rows: 0Rows: 1Rows: 2Rows: 4Rows: 3
26. Terminologia e Conceitos: Distribuição dos dados
KEY
• A chave que cria a distribuição
• Joins são realizados entre tabela fato e grandes
dimensões
• Otimiza merge joins e group by
ALL
• Dimensões pequenas ou médias (< 2-3M)
EVEN
• Quando nenhuma chave faz uma distribuição
boa
28. Storage Deep Dive: Discos
• Amazon Redshift utiliza storage locais conectados
aos nós
• Nós de computação têm 2.5-3x da capacidade que
informamos
• 1, 3, 8, ou 24 discos dependem do tipo de nó
• Cada disco é dividido em partições
• Local data storage, acessado pelo CN (nó de comp.)
• Dados espelhados acessados por nó remoto CN
• Partições são raw devices
• Storage locais são efêmeros por natureza
• Tolerante a múltiplas falhas de disco em um mesmo
nó
29. Storage Deep Dive: Blocos
Dados de uma Coluna data são persistidos em 1 MB
bloco imutável
Cada bloco contém metadados in-memory:
• Zone Maps (valores de MIN/MAX)
• Localização do bloco anterior e próximo
• Blocos são comprimidos individualmente com 1 dos 11
algorítimos de compressão
Um bloco inteiro pode conter de 16 a 8.4 milhões de
valores
30. Storage Deep Dive: Colunas
• Colunas: Estrutura lógica acessível via SQL
• Estrutura física são blocos duplamente ligados
• Estas cadeias de blocos (”blockchains”) existem em cada ”slice” para
cada coluna
• Todas as cadeias de blocos ordenados ou não compõem uma coluna
• Propriedades das colunas:
• Distribution Key
• Sort Key
• Compression Encoding
• Colunas aumentam e diminuem de tamanho independentemente, 1 bloco
por vez
• Três colunas de sistema por Slice por MVCC (Multiversion Concurrency
Control
31. Propriedade dos Blocos: considerações para
desenho
• Poucas escritas:
• Processamento Batch é otimizado
• Para 1MB + blocos imutáveis, blocos na escrita para evitar
fragmentação
• Escrita pequena (~1-10 linhas) mesmo custo que (~100 K linhas)
• UPDATE e DELETE:
• Blocos imutáveis significam que nós deletamos linhas quando
ocorre um UPDATE ou DELETE
• Rodar VACUUM ou DEEP COPY para remover linhas fantasmas
das tabelas
32. Propriedade das Colunas: considerações para
desenho
• Compressão:
• COPY analisa automaticamente dados nas cargas de tabelas, quando em
tabelas vazias
• ANALYZE COMPRESSION checa a existência e propõe algoritmos de
compressão para cada coluna
• Mudar o tipo de compressão implica em um ”rebuild” da tabela
• DISTKEY e SORTKEY influenciam performance (ordens de magnitude)
• Distribution keys:
• Uma chave pobre DISTKEY pode introduzir um vício de dados em slices
• Uma query termina tão rápido quanto a menor slice termina de processar
• Sort keys:
• A chave de ordenação é tão efetiva quanto o perfil dos dados permitir
• Seletividade necessita ser considerada
34. Conceitos e Terminologia: Slices
Uma slice é como um nó de computação virtual
• Unidade de particionamento
• Processamento paralelo de queries
Fatos sobre slices:
• Cada nó de computação tem 2, 16, ou 32 slices
• Registros de uma tabela são distribuídos em Slices
• Uma slice processa somente seus dados
35. • Interpretar & re-escrita
• Otimizador e planejamento
• Gerador de código
• Input: optimized plan
• Output: >=1 C++
functions
• Compilador
• Agendador de tarefas
• WLM
• Admissão
• Agendamento
• PostgreSQL tabela de
• catálogos
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
128GB RAM
16TB disk
16 cores
Nó de
Computação
Nó Líder
36. Terminologia de Execução das queries
Step(passo):
• Uma operação individual necessária durante a execução da query
• Steps são combinados para permitir que os nós consigam realizar Joins
• Exemplos: scan, sort, hash, aggr
Segment(segmentos):
• A combinação de vários steps pode ser realizado por um único processo
• A menor unidade de compilação executada por uma slice
• Segmentos dentro de um fluxo podem rodar em paralelo
Stream(fluxo):
• Um conjunto de segmentos
• Saída para o próximo stream ou Client SQL
38. Ciclo de vida de Query
client
JDBC ODBC
Leader Node
Parser
Query Planner
Code Generator
Final Computations
Gera o código
para todos os
segmentos de
um stream
Plano de Execução
Compute Node
Receive Compiled
Code
Run the Compiled
Code
Return results to
Leader
Compute Node
Receive Compiled
Code
Run the Compiled Code
Return results to
Leader
Return results to client
Segments dentro de
um stream são
executados em
paralelo. Cada passo é
executado de forma
serial dentro de um
segment.
39. Execução de Query Deep Dive: Nó Líder
• Nó Líder recebe uma query e interpreta o SQL
• Interprete produz a lógica de representação da query original
• Esta ”árvore”da query é a entrada para o otimizador (volt)
• Volt re-escreve a query para maximizar a eficiência
• Algumas vezes uma query simples é re-escrita como vários comandos executores
em background
• A query re-escrita é então enviada ao planejador que gera 1+ planos de query para
execução com máxima performance
• O plano é enviado para execução, aonde é traduzido em steps, segments, e
streams
• O plano traduzido é envidado ao gerador de código, que gera uma função C++ para
cada segment
• O código C++ é compilado com gcc para um arquivo .o e distribuído para os nós de
computação.
40. Execução - Deep Dive: Nós de Computação
• Slices executam segmentos da query em paralelo
• Segmentos executáveis são criados para cada stream em
sequência
• Quando os nós de computação terminam, eles retornam os
resultados para o nó líder para o processamento final
• O nó líder faz o ”merge” dos dados em um único resultado
e endereçam qualquer necessidade de ordenação ou
agregação
• O Nó Líder retorna para o cliente
43. Considerações de desenho do Redshift slices
DS2.8XL Compute Node
Capacidade de ingestão:
• Cada ”Slice” (fatia) pode processar um arquivo por vez:
• Streaming decompression
• Parse
• Distribute
• Write
Performance parcial de um Nó, utilizando uma só slice, atinge
6.25% do potencial ativo
0 2 4 6 8 10 12 141 3 5 7 9 11 13 15
44. Considerações de desenho do Redshift slices
Use ao menos o mesmo número
de arquivos que você tem de
Slices no seu Cluster
Com16 arquivos de input, todas
as slices estarão trabalhando
para maximizar a performance de
carga
COPY continua escalando
linearmente conforme adiciona
nós
16 Input Files
DS2.8XL Compute Node
0 2 4 6 8 10 12 141 3 5 7 9 11 13 15
45. Preparação dos Dados para o COPY do Redshift
Exporte dados de uma origem
• CSV Recommend (Simple Delimiter ',' or '|')
• Be aware of UTF-8 varchar columns (UTF-8 take 4 bytes per char)
• Be aware of your NULL character (N)
• GZIP Compress Files
• Split Files (1MB – 1GB after gzip compression)
Muitas opções úteis do COPY para PoCs e conhecimento dos dados
• MAXERRORS
• ACCEPTINVCHARS
• NULL AS
48. Features adicionadas recentemente
Novo Data Type – TIMESTAMPTZ
Suporte para Timestamp with Time zone
Multi-byte Object Names
Suporte para Multi-byte (UTF-8) caracteres para tabelas, colunas e outros nomes de objetos
Limite de conexões de usuários
Agora você pode limitar o número de conexões à base de dados um usuário é autorizado a fazer de
maneira concorrente
Automatic Data Compression para CTAS
Todas as tabelas novas terão o enconding default
New Column Encoding - ZSTD
Approximate Percentile Functions
49. Features adicionadas recentemente
Melhorias de Performance
• Vacuum (10x faster for deletes)
• Snapshot Restore (2x faster)
• Queries (Up to 5x faster)
Copy Pode extender Sorted Region on Single Sort Key
• Não é necessário vacuum para carregar em ordem de sort
Enhanced VPC Routing
• Restrict S3 Bucket Access
Schema Conversion Tool - One-Time Data Exports
• Oracle
• Teradata
Schema Conversion Tool
• Vertica
• SQL Server
50. Amazon Redshift Spectrum
Rode queries SQL diretamente sobre dados no S3
Alta concorrência: múltiplos
clusters do mesmo dado
Sem ETL: Query dos dados no local
em múltiplos formatos abertos
Suporta Redshift SQL
S3
SQL
52. O VivaReal é um Marketplace
Imobiliário que busca ajudar
pessoas a encontrar a casa dos
seus sonhos.
O time de Data Analytics é o
responsável por consolidar todos
os dados gerados no VivaReal e
democratizar o acesso a eles.
“O Redshift era
maduro e
simples de usar
e foi a escolha
óbvia para o
nosso volume de
dados”
53. Escalabilidade de acordo com
aumento de tráfego.
Processamento de grandes
volumes de dados sem perda de
performance.
Fácil integração com dados
transacionais para efeitos de
análise.
O Desafio
55. Monitora e
controla recursos
por query
Notificações, abort
e repriorização para
long-running / bad
queries
Templates para os
use cases comuns
Em breve: Monitoramento de regras para Query
56. BI tools SQL clientsAnalytics tools
Client AWS
Redshift
ADFS
Corporate
Active Directory IAM
Amazon Redshift
ODBC/JDBC
User groups Individual user
Single Sign-On
Identity providers
Novo Driver
ODBC/JDBC.
Grab the ticket
(userid) and get a
SAML assertion.
Em Breve: IAM Authentication
57. VACUUM automático e incremental
• Reclama espaço e ordena quando o cluster está Idle
• Vacuum é iniciado quando a performance pode ser melhorada
• Melhora performance de query e ETL
Em breve: Muito mais …
Sorted columns enable fetching the minimum number of blocks required for query execution. In this example, an unsorted table al most leads to a full table scan O(N) and a sorted table leads to one block scanned O(1).
VERIFY!! - Room 2018 Level 2 @ 3:45PM on April 19th
30 segundos para apresentar a empresa, rapidamente
Os 4 (máximo) maiores desafios do projeto, que foram resolvidos pela utilização da nuvem da AWS
Diagrama de solução, e explicar a solução, vantagens, etc
Rules
Auto statistics collection
We keep track of the statistics
Usage patterns – avoid analyze if not required
1 – customers setup their AD and IdP environment, and register with IAM
2 – End-users leverage SSO with Corporate AD and IdP
3 – Redshift ODBC/JDBC drivers obtain SAML assertion from IdP
4 – Redshift drivers get temporary credentials
5 – Connection is established between client and Redshift