SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
AWS Glue
Gabriel Passos
O que é?
● ETL (extrair, transformar e carregar dados);
● + simples;
● > custo benefício;
● capaz de organizar, enriquecer, limpar e movimentar os
dados de uma fonte de dados para outra.
https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html
Características
● serverless
○ não é necessário a configuração, provisionar e governar o servidor
○ + agilidade
○ - custo**
● inferência da estrutura de dados
○ com uso de um componente, capaz de extrair da fonte de dados um
esquema e construir um catálogo.
○ persiste o esquema em tabelas.
Data Sources
● Data stores
○ S3
○ RDS
■ banco relacional no ambiente amazon
○ bancos com conexão JDBC
○ DynamoDB
■ NoSql
■ Chave-Valor (com suporte para armazenar documentos)
● Data stream
○ Apache Kafka
○ Amazon Kinesis Data Streams
Data Targets
● Data stores
○ S3
○ RDS
○ bancos com conexão JDBC
Componentes
● Data Sources
○ Fonte dos dados.
● Connection
○ Objeto com as propriedades para a conexão com determinada data
source.
Componentes
● Classifier
○ determina o tipo dos dados
○ suporte à JSON, CSV, AVRO, XML, bancos relacionais com conexão JDBC
○ customizável (pode ser escrito o próprio classifier)
● Crawler
○ programa capaz de conectar-se no data store (input e output)
○ filtra dentre os possíveis classificadores para construir as tabelas
Componentes
● Data Catalog
○ repositório centralizado de metadados
○ contêm definições de tabelas, jobs e outras
informações de controle para gerenciamento.
○ cada conta possui um catálogo por região
● Database
○ Conjunto de tabelas do catálogo organizadas em um
grupo lógico
Componentes
● Table
○ Definição da estrutura dos dados. Metadados
○ Consiste em por exemplo:
■ nome de colunas
■ tipificação
■ particionamento
○ Não contêm os dados em si
● Dynamic Frame
○ Tabela que suporta dados complexos como arrays e objetos
○ Pode ser combinado com Apache Spark no processo de ETL
Componentes
● Scripts
○ código que extrai, transforma e carrega os dados
○ AWS Glue gera código em PySpark e Scala
Componentes
● Job
○ scripts com a lógica de negócio que realiza a transformação dos dados
○ execução sob demanda ou a partir de triggers
● Triggers
○ inicialização do job
○ baseado em tempo - schedule
○ baseado em evento
Aws glue

Mais conteúdo relacionado

Mais procurados

Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
Amazon Web Services LATAM
 

Mais procurados (20)

Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
 
[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
 
Quais são as opções de banco de dados gerenciados na AWS?
 Quais são as opções de banco de dados gerenciados na AWS? Quais são as opções de banco de dados gerenciados na AWS?
Quais são as opções de banco de dados gerenciados na AWS?
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Iniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDBIniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDB
 
Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big Data
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
 
Arquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXIArquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXI
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
Armazenamento para uma estratégia híbrida
 Armazenamento para uma estratégia híbrida Armazenamento para uma estratégia híbrida
Armazenamento para uma estratégia híbrida
 
Elasticsearch 5.0
Elasticsearch 5.0Elasticsearch 5.0
Elasticsearch 5.0
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Melhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWSMelhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWS
 
Ask the Trainer - Treinamentos e Certificações da AWS
Ask the Trainer - Treinamentos e Certificações da AWSAsk the Trainer - Treinamentos e Certificações da AWS
Ask the Trainer - Treinamentos e Certificações da AWS
 
Blue Green Deployments com Elastic Beanstalk - Demo Session
Blue Green Deployments com Elastic Beanstalk - Demo SessionBlue Green Deployments com Elastic Beanstalk - Demo Session
Blue Green Deployments com Elastic Beanstalk - Demo Session
 
Raising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads MicrosoftRaising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads Microsoft
 

Semelhante a Aws glue

Semelhante a Aws glue (20)

Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016
 
Oracle para PostgreSQL: Conseguir migrar e não parar UTI
Oracle para PostgreSQL: Conseguir migrar e não parar UTIOracle para PostgreSQL: Conseguir migrar e não parar UTI
Oracle para PostgreSQL: Conseguir migrar e não parar UTI
 
Curso de OO com C# - Parte 06 - ADO.NET
Curso de OO com C# - Parte 06 - ADO.NETCurso de OO com C# - Parte 06 - ADO.NET
Curso de OO com C# - Parte 06 - ADO.NET
 
Data WareHOuse
Data WareHOuseData WareHOuse
Data WareHOuse
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
SQL Oracle
SQL OracleSQL Oracle
SQL Oracle
 
Primeira Aula BANCO DE DADOS II_2024.pptx
Primeira Aula BANCO DE DADOS II_2024.pptxPrimeira Aula BANCO DE DADOS II_2024.pptx
Primeira Aula BANCO DE DADOS II_2024.pptx
 
Intro Arquitetura Oracle
Intro Arquitetura OracleIntro Arquitetura Oracle
Intro Arquitetura Oracle
 
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQLpgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
 
Bancos de dados open source
Bancos de dados open sourceBancos de dados open source
Bancos de dados open source
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Funcionalidades Oracle
Funcionalidades OracleFuncionalidades Oracle
Funcionalidades Oracle
 
Apresentando o Azure DocumentDB
Apresentando o Azure DocumentDBApresentando o Azure DocumentDB
Apresentando o Azure DocumentDB
 
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoBig Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenho
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
NoSql e NewSql
NoSql e NewSqlNoSql e NewSql
NoSql e NewSql
 
Minicurso PostgreSQl
Minicurso PostgreSQlMinicurso PostgreSQl
Minicurso PostgreSQl
 
Melhorando o desempenho de suas consultas no MySql
Melhorando o desempenho de suas consultas no MySqlMelhorando o desempenho de suas consultas no MySql
Melhorando o desempenho de suas consultas no MySql
 
Desenvolvimento web com vs2012: Uma visão geral
Desenvolvimento web com vs2012: Uma visão geralDesenvolvimento web com vs2012: Uma visão geral
Desenvolvimento web com vs2012: Uma visão geral
 
SQL e NoSQL trabalhando juntos: uma comparação para obter o melhor de ambos -...
SQL e NoSQL trabalhando juntos: uma comparação para obter o melhor de ambos -...SQL e NoSQL trabalhando juntos: uma comparação para obter o melhor de ambos -...
SQL e NoSQL trabalhando juntos: uma comparação para obter o melhor de ambos -...
 

Mais de Gabriel Passos (6)

Load shedding, backpressure, cdc, hypervisor, docker
Load shedding, backpressure, cdc, hypervisor, dockerLoad shedding, backpressure, cdc, hypervisor, docker
Load shedding, backpressure, cdc, hypervisor, docker
 
Apache kafka
Apache kafkaApache kafka
Apache kafka
 
Hot and cold observables, overlay
Hot and cold observables, overlayHot and cold observables, overlay
Hot and cold observables, overlay
 
Ec2
Ec2Ec2
Ec2
 
Event sourcing
Event  sourcingEvent  sourcing
Event sourcing
 
Versioning rest api's
Versioning rest api'sVersioning rest api's
Versioning rest api's
 

Aws glue

  • 2. O que é? ● ETL (extrair, transformar e carregar dados); ● + simples; ● > custo benefício; ● capaz de organizar, enriquecer, limpar e movimentar os dados de uma fonte de dados para outra. https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html
  • 3. Características ● serverless ○ não é necessário a configuração, provisionar e governar o servidor ○ + agilidade ○ - custo** ● inferência da estrutura de dados ○ com uso de um componente, capaz de extrair da fonte de dados um esquema e construir um catálogo. ○ persiste o esquema em tabelas.
  • 4. Data Sources ● Data stores ○ S3 ○ RDS ■ banco relacional no ambiente amazon ○ bancos com conexão JDBC ○ DynamoDB ■ NoSql ■ Chave-Valor (com suporte para armazenar documentos) ● Data stream ○ Apache Kafka ○ Amazon Kinesis Data Streams
  • 5. Data Targets ● Data stores ○ S3 ○ RDS ○ bancos com conexão JDBC
  • 6.
  • 7. Componentes ● Data Sources ○ Fonte dos dados. ● Connection ○ Objeto com as propriedades para a conexão com determinada data source.
  • 8. Componentes ● Classifier ○ determina o tipo dos dados ○ suporte à JSON, CSV, AVRO, XML, bancos relacionais com conexão JDBC ○ customizável (pode ser escrito o próprio classifier) ● Crawler ○ programa capaz de conectar-se no data store (input e output) ○ filtra dentre os possíveis classificadores para construir as tabelas
  • 9. Componentes ● Data Catalog ○ repositório centralizado de metadados ○ contêm definições de tabelas, jobs e outras informações de controle para gerenciamento. ○ cada conta possui um catálogo por região ● Database ○ Conjunto de tabelas do catálogo organizadas em um grupo lógico
  • 10. Componentes ● Table ○ Definição da estrutura dos dados. Metadados ○ Consiste em por exemplo: ■ nome de colunas ■ tipificação ■ particionamento ○ Não contêm os dados em si ● Dynamic Frame ○ Tabela que suporta dados complexos como arrays e objetos ○ Pode ser combinado com Apache Spark no processo de ETL
  • 11. Componentes ● Scripts ○ código que extrai, transforma e carrega os dados ○ AWS Glue gera código em PySpark e Scala
  • 12. Componentes ● Job ○ scripts com a lógica de negócio que realiza a transformação dos dados ○ execução sob demanda ou a partir de triggers ● Triggers ○ inicialização do job ○ baseado em tempo - schedule ○ baseado em evento