[1] O documento apresenta exemplos de uso do Apache Spark no AWS Elastic MapReduce (EMR), incluindo processamento em batch e streaming de dados. [2] Inclui detalhes sobre a criação de clusters no EMR e execução de códigos Spark tanto em modo batch quanto streaming. [3] Apresenta exemplos de códigos Spark para contagem de palavras em batch e contagem de tweets em streaming que podem ser executados no EMR.
Pré processamento de grandes dados com Apache SparkFelipe
O documento apresenta o framework Apache Spark para pré-processamento de grandes dados, abordando conceitos como RDDs, DataFrames, UDFs e a biblioteca Spark ML. É demonstrado um estudo de caso completo de pré-processamento de um conjunto de dados de reviews da Amazon contendo 82 milhões de registros.
Hadoop MapReduce and Apache Spark on EMR: comparing performance for distribut...Felipe
O documento compara o desempenho do Hadoop MapReduce e do Apache Spark para cargas de trabalho distribuídas, usando duas tarefas: wordcount distribuído em um conjunto de dados de 18GB e clusterização K-means em um conjunto de dados de livros da Amazon de 15GB. O Spark mostrou desempenho superior, especialmente para tarefas iterativas como K-means. A configuração correta é importante para o desempenho, e o Spark se beneficiou da alocação dinâmica de recursos.
Aplicando o poder de uma GPU noSQL Serverpichiliani
O documento discute o uso de processamento gráfico (GPU) no SQL Server. Ele explica o que é uma GPU e como ela pode ser usada para processamento paralelo, mencionando exemplos de aplicações como multiplicação de matrizes. Também descreve como programar no SQL Server usando frameworks como o CUDA.NET para executar código na GPU. Por fim, ressalta que embora o uso de GPU traga grande poder de processamento, requer conhecimento de programação paralela e que o problema seja adequado para esse tipo de solução.
Luciano Moreira apresentou sobre paralelismo no SQL Server. Ele discutiu como o SQL Server usa planos paralelos para executar consultas de forma paralela em múltiplas threads, e como o otimizador de consultas decide quando usar planos paralelos com base em estatísticas e configurações como MAX DEGREE OF PARALLELISM. Ele também mostrou como esperas como CXPACKET podem ocorrer quando há alto grau de paralelismo, e demonstrou como analisar planos paralelos e identificar gargalos.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Um Mecanismo de Auto Elasticidade com base no Tempo de Resposta para Ambiente...EUBrasilCloudFORUM .
Congresso Sociedade Brasileira de Computação CSBC2016 Porto Alegre (Brazil)
Workshop on Cloud Networks & Cloudscape Brazil
Marcelo Abranches (CGU, Brazil), Priscila Solis (University of Brasilia, Brazil)
Unpublished, novel research work related to the latest challenges, technologies, solutions and techniques related to networking within the cloud and to the efficient and effective cloud deployment and hosting of the various emerging applications and services.
Effective solutions related to the placement, sizing, bursting, and migration of compute, storage, and data resources within the cloud network(s) become critical to the deployment of elastic and agile applications.
Veja além de primeira página: Aprenda a otimizar e utilizar as melhores práticas do Amazon Redshift, banco de dados colunar e de processamento paralelo massivo, para aumentar a capacidade de entregar performance em queries com alto volume de dados em segundos ou milisegundos. Esta sessão explica como migrar ambientes de Data Warehouses existentes, criar schemas otimizados, fazer carga de maneira eficiente, utilizar o workload management, e otimizar suas queries, utilizando o Amazon Redshift com features avançadas.
https://aws.amazon.com/pt/redshift/
Pré processamento de grandes dados com Apache SparkFelipe
O documento apresenta o framework Apache Spark para pré-processamento de grandes dados, abordando conceitos como RDDs, DataFrames, UDFs e a biblioteca Spark ML. É demonstrado um estudo de caso completo de pré-processamento de um conjunto de dados de reviews da Amazon contendo 82 milhões de registros.
Hadoop MapReduce and Apache Spark on EMR: comparing performance for distribut...Felipe
O documento compara o desempenho do Hadoop MapReduce e do Apache Spark para cargas de trabalho distribuídas, usando duas tarefas: wordcount distribuído em um conjunto de dados de 18GB e clusterização K-means em um conjunto de dados de livros da Amazon de 15GB. O Spark mostrou desempenho superior, especialmente para tarefas iterativas como K-means. A configuração correta é importante para o desempenho, e o Spark se beneficiou da alocação dinâmica de recursos.
Aplicando o poder de uma GPU noSQL Serverpichiliani
O documento discute o uso de processamento gráfico (GPU) no SQL Server. Ele explica o que é uma GPU e como ela pode ser usada para processamento paralelo, mencionando exemplos de aplicações como multiplicação de matrizes. Também descreve como programar no SQL Server usando frameworks como o CUDA.NET para executar código na GPU. Por fim, ressalta que embora o uso de GPU traga grande poder de processamento, requer conhecimento de programação paralela e que o problema seja adequado para esse tipo de solução.
Luciano Moreira apresentou sobre paralelismo no SQL Server. Ele discutiu como o SQL Server usa planos paralelos para executar consultas de forma paralela em múltiplas threads, e como o otimizador de consultas decide quando usar planos paralelos com base em estatísticas e configurações como MAX DEGREE OF PARALLELISM. Ele também mostrou como esperas como CXPACKET podem ocorrer quando há alto grau de paralelismo, e demonstrou como analisar planos paralelos e identificar gargalos.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Um Mecanismo de Auto Elasticidade com base no Tempo de Resposta para Ambiente...EUBrasilCloudFORUM .
Congresso Sociedade Brasileira de Computação CSBC2016 Porto Alegre (Brazil)
Workshop on Cloud Networks & Cloudscape Brazil
Marcelo Abranches (CGU, Brazil), Priscila Solis (University of Brasilia, Brazil)
Unpublished, novel research work related to the latest challenges, technologies, solutions and techniques related to networking within the cloud and to the efficient and effective cloud deployment and hosting of the various emerging applications and services.
Effective solutions related to the placement, sizing, bursting, and migration of compute, storage, and data resources within the cloud network(s) become critical to the deployment of elastic and agile applications.
Veja além de primeira página: Aprenda a otimizar e utilizar as melhores práticas do Amazon Redshift, banco de dados colunar e de processamento paralelo massivo, para aumentar a capacidade de entregar performance em queries com alto volume de dados em segundos ou milisegundos. Esta sessão explica como migrar ambientes de Data Warehouses existentes, criar schemas otimizados, fazer carga de maneira eficiente, utilizar o workload management, e otimizar suas queries, utilizando o Amazon Redshift com features avançadas.
https://aws.amazon.com/pt/redshift/
Modelos e Sistemas para Computação Distribuída no Hadoop discute os desafios da computação distribuída e como diferentes modelos como MapReduce, BSP, Pregel e Spark abordam esses desafios. O documento também descreve sistemas como Hadoop, Giraph, Impala e Dremel que implementam esses modelos para processamento em batch, grafos e em tempo real.
O documento discute o Hadoop, uma plataforma de software de código aberto para processamento de grandes volumes de dados. Apresenta suas principais características como sistema de arquivos distribuído HDFS, modelo de programação MapReduce e framework YARN para gerenciamento de recursos. Também descreve onde é usado na prática por empresas como Yahoo, Facebook e LinkedIn para análises de big data.
● O documento discute a evolução de sistemas distribuídos na Movile ao longo de 6 anos, começando com o uso do Apache Cassandra para controlar assinaturas e tarifações e, posteriormente, armazenar dados de aplicativos e notificações push.
● Problemas como desempenho, disponibilidade e escalabilidade levaram a mudanças na arquitetura, como a migração de bancos de dados relacionais para o Cassandra.
● Lições aprendidas incluem evitar coleções do Cassandra, reparos ap
"O Amazon DynamoDB é um serviço de banco de dados NoSQL, totalmente gerenciado, para aplicativos que precisam de latência consistente de um dígito de milissegundos em qualquer escala. Nesta sessão iremos explorar as capacidades e benefícios do DynamoDB em detalhes e iremos discutir como obter o máximo do seu banco de dados DynamoDB. Examinaremos as melhores práticas de design de schema com o DynamoDB em vários casos de uso, incluindo jogos, AdTech, IoT e outros.
Também exploraremos o design de índices eficientes, scanning e queries, e detalharemos as funcionalidades lançadas recentemente, incluindo o suporte a documentos JSON, Streams, Time-to-Live (TTL) e muito mais."
https://aws.amazon.com/pt/dynamodb/
[I] O documento descreve a arquitetura do framework Apache Hadoop, incluindo seu histórico, conceitos-chave como MapReduce e HDFS, e como os componentes se encaixam e interagem uns com os outros. [II] Hadoop usa HDFS para armazenamento distribuído tolerante a falhas e YARN para gerenciar recursos e executar trabalhos em larga escala de forma paralela e confiável. [III] A arquitetura é baseada em um NameNode master que controla o HDFS e vários DataNodes que armazenam e
1) O documento discute bancos de dados analíticos open source como Citusdb e PostgreSQL para lidar com grandes volumes de dados na Movile.
2) A Movile enfrenta desafios com crescimento rápido de dados e necessidade de processamento paralelo.
3) Citusdb é uma boa opção porque é uma extensão do PostgreSQL que permite processamento massivamente paralelo através de sharding e replicação.
O documento analisa criticamente o NoSQL, questionando se ele é realmente novo e se é tão fácil e rápido quanto afirma. Também levanta dúvidas sobre se o NoSQL é a melhor opção para armazenamento de big data a longo prazo e se é sempre mais barato que bancos de dados tradicionais.
Desenvolvendo Aplicações baseadas em Big Data com PySparkVinícius Barros
Este documento fornece uma introdução ao processamento de Big Data com PySpark. Resume os principais conceitos como MapReduce, Apache Spark, Resilient Distributed Dataset (RDD), e demonstra exemplos práticos de transformações e ações com RDD usando PySpark.
O documento discute sobre otimização de desempenho em bancos de dados MySQL. Aborda tópicos como indexação de tabelas, particionamento de tabelas e otimização de consultas para melhorar a performance, como criar índices para campos frequentemente usados em consultas e usar o menor tipo de dados possível para economizar espaço.
O documento discute os serviços de banco de dados gerenciados da AWS, incluindo Amazon RDS para bancos de dados relacionais, DynamoDB para bancos de dados não relacionais e Amazon Redshift para data warehouses. Ele fornece detalhes sobre recursos, casos de uso, arquitetura e preços de cada serviço.
O documento discute as principais funcionalidades introduzidas nas versões 9.0 e 9.1 do PostgreSQL. A versão 9.0 introduziu recursos como hot standby, streaming replication, triggers por colunas e privilégios de usuários em massa. A versão 9.1 introduziu replicação síncrona, monitoramento de replicação e fontes de dados externas. O documento também discute porque usar o PostgreSQL e seus recursos avançados.
CouchDB é um banco de dados orientado a documentos escrito em Erlang. Ele armazena dados flexíveis em formato JSON e fornece recursos como views, replicação, segurança e validação através de JavaScript. CouchDB é usado por aplicativos do Facebook e BBC devido à sua escalabilidade e desempenho.
[TDC2016] Apache Cassandra Estratégias de Modelagem de DadosEiti Kimura
O documento discute estratégias de modelagem de dados no Apache Cassandra, incluindo modelagem orientada por consulta, séries temporais e particionamento de dados. O palestrante apresenta exemplos de como modelar dados para diferentes casos de uso e discute considerações importantes como validar o modelo de dados e respeitar os limites físicos de particionamento.
O documento apresenta uma introdução ao Apache Spark, incluindo sua visão geral como engine para processamento de dados em larga escala. Apresenta alguns conceitos-chave como RDDs, operações básicas e clusters Spark. Demonstra exemplos práticos de geração de regras de associação, clustering com K-Means e classificação com árvore de decisão usando Spark.
1) O documento discute melhores práticas para configurar e dimensionar clusters Amazon EMR.
2) É recomendado usar o Amazon S3 como fonte de dados primária e HDFS apenas para armazenamento temporário entre jobs para melhor aproveitar recursos do S3 como durabilidade, escalabilidade e custo.
3) O documento também discute tipos de instâncias EC2 para EMR, com m3/c3 geralmente oferecendo melhor custo-benefício em comparação com m1/c1, e instâncias de memória para workloads intensivos.
1. O documento apresenta o pgquarrel, uma ferramenta para refatoração e migração de esquemas no PostgreSQL.
2. Ele fornece características como comparação de esquemas, geração de scripts SQL e suporte a diversos objetos do PostgreSQL.
3. O documento explica como instalar e usar o pgquarrel, seja via arquivo de configuração ou linha de comando, e como ele pode ser usado para gerenciar mudanças no esquema do banco de dados.
Este documento apresenta o Apache CouchDB, um banco de dados não-relacional (NoSQL) que armazena dados em formato de documentos JSON. Ele descreve as principais características do CouchDB, incluindo armazenamento flexível em documentos, consultas em JavaScript, replicação e API RESTful. Além disso, explica as diferenças entre bancos de dados relacionais e documentais e fornece um exemplo simples de uso do MapReduce no CouchDB.
Desmistificando Replicação no PostgreSQLEuler Taveira
1. O documento apresenta os conceitos e ferramentas de replicação no PostgreSQL, incluindo os tipos de replicação física e lógica e as evoluções das funcionalidades de replicação no PostgreSQL ao longo das versões.
2. As ferramentas de replicação no PostgreSQL incluem replicação por arquivos, replicação por fluxo, cópia física usando rsync ou pg_basebackup e configurações como recovery.conf e synchronous_standby_names.
3. A apresentação discute conceitos como disponibilidade, failover, cascateamento e balanceamento
O documento discute o projeto Sloan Digital Sky Survey (SDSS), que mapeia o céu e mede distâncias e propriedades de objetos celestes. Os dados do SDSS precisam ser processados rapidamente usando Big Data para direcionar telescópios. O framework Hive é usado para armazenar e analisar os dados do SDSS usando a linguagem HiveQL.
1. COLETAR dados de acesso do servidor web usando Amazon Kinesis.
2. PROCESSAR os dados com Apache Spark no Amazon EMR, armazenando resultados no Amazon S3.
3. ANALISAR os dados no data warehouse Amazon Redshift usando consultas SQL.
Modelos e Sistemas para Computação Distribuída no Hadoop discute os desafios da computação distribuída e como diferentes modelos como MapReduce, BSP, Pregel e Spark abordam esses desafios. O documento também descreve sistemas como Hadoop, Giraph, Impala e Dremel que implementam esses modelos para processamento em batch, grafos e em tempo real.
O documento discute o Hadoop, uma plataforma de software de código aberto para processamento de grandes volumes de dados. Apresenta suas principais características como sistema de arquivos distribuído HDFS, modelo de programação MapReduce e framework YARN para gerenciamento de recursos. Também descreve onde é usado na prática por empresas como Yahoo, Facebook e LinkedIn para análises de big data.
● O documento discute a evolução de sistemas distribuídos na Movile ao longo de 6 anos, começando com o uso do Apache Cassandra para controlar assinaturas e tarifações e, posteriormente, armazenar dados de aplicativos e notificações push.
● Problemas como desempenho, disponibilidade e escalabilidade levaram a mudanças na arquitetura, como a migração de bancos de dados relacionais para o Cassandra.
● Lições aprendidas incluem evitar coleções do Cassandra, reparos ap
"O Amazon DynamoDB é um serviço de banco de dados NoSQL, totalmente gerenciado, para aplicativos que precisam de latência consistente de um dígito de milissegundos em qualquer escala. Nesta sessão iremos explorar as capacidades e benefícios do DynamoDB em detalhes e iremos discutir como obter o máximo do seu banco de dados DynamoDB. Examinaremos as melhores práticas de design de schema com o DynamoDB em vários casos de uso, incluindo jogos, AdTech, IoT e outros.
Também exploraremos o design de índices eficientes, scanning e queries, e detalharemos as funcionalidades lançadas recentemente, incluindo o suporte a documentos JSON, Streams, Time-to-Live (TTL) e muito mais."
https://aws.amazon.com/pt/dynamodb/
[I] O documento descreve a arquitetura do framework Apache Hadoop, incluindo seu histórico, conceitos-chave como MapReduce e HDFS, e como os componentes se encaixam e interagem uns com os outros. [II] Hadoop usa HDFS para armazenamento distribuído tolerante a falhas e YARN para gerenciar recursos e executar trabalhos em larga escala de forma paralela e confiável. [III] A arquitetura é baseada em um NameNode master que controla o HDFS e vários DataNodes que armazenam e
1) O documento discute bancos de dados analíticos open source como Citusdb e PostgreSQL para lidar com grandes volumes de dados na Movile.
2) A Movile enfrenta desafios com crescimento rápido de dados e necessidade de processamento paralelo.
3) Citusdb é uma boa opção porque é uma extensão do PostgreSQL que permite processamento massivamente paralelo através de sharding e replicação.
O documento analisa criticamente o NoSQL, questionando se ele é realmente novo e se é tão fácil e rápido quanto afirma. Também levanta dúvidas sobre se o NoSQL é a melhor opção para armazenamento de big data a longo prazo e se é sempre mais barato que bancos de dados tradicionais.
Desenvolvendo Aplicações baseadas em Big Data com PySparkVinícius Barros
Este documento fornece uma introdução ao processamento de Big Data com PySpark. Resume os principais conceitos como MapReduce, Apache Spark, Resilient Distributed Dataset (RDD), e demonstra exemplos práticos de transformações e ações com RDD usando PySpark.
O documento discute sobre otimização de desempenho em bancos de dados MySQL. Aborda tópicos como indexação de tabelas, particionamento de tabelas e otimização de consultas para melhorar a performance, como criar índices para campos frequentemente usados em consultas e usar o menor tipo de dados possível para economizar espaço.
O documento discute os serviços de banco de dados gerenciados da AWS, incluindo Amazon RDS para bancos de dados relacionais, DynamoDB para bancos de dados não relacionais e Amazon Redshift para data warehouses. Ele fornece detalhes sobre recursos, casos de uso, arquitetura e preços de cada serviço.
O documento discute as principais funcionalidades introduzidas nas versões 9.0 e 9.1 do PostgreSQL. A versão 9.0 introduziu recursos como hot standby, streaming replication, triggers por colunas e privilégios de usuários em massa. A versão 9.1 introduziu replicação síncrona, monitoramento de replicação e fontes de dados externas. O documento também discute porque usar o PostgreSQL e seus recursos avançados.
CouchDB é um banco de dados orientado a documentos escrito em Erlang. Ele armazena dados flexíveis em formato JSON e fornece recursos como views, replicação, segurança e validação através de JavaScript. CouchDB é usado por aplicativos do Facebook e BBC devido à sua escalabilidade e desempenho.
[TDC2016] Apache Cassandra Estratégias de Modelagem de DadosEiti Kimura
O documento discute estratégias de modelagem de dados no Apache Cassandra, incluindo modelagem orientada por consulta, séries temporais e particionamento de dados. O palestrante apresenta exemplos de como modelar dados para diferentes casos de uso e discute considerações importantes como validar o modelo de dados e respeitar os limites físicos de particionamento.
O documento apresenta uma introdução ao Apache Spark, incluindo sua visão geral como engine para processamento de dados em larga escala. Apresenta alguns conceitos-chave como RDDs, operações básicas e clusters Spark. Demonstra exemplos práticos de geração de regras de associação, clustering com K-Means e classificação com árvore de decisão usando Spark.
1) O documento discute melhores práticas para configurar e dimensionar clusters Amazon EMR.
2) É recomendado usar o Amazon S3 como fonte de dados primária e HDFS apenas para armazenamento temporário entre jobs para melhor aproveitar recursos do S3 como durabilidade, escalabilidade e custo.
3) O documento também discute tipos de instâncias EC2 para EMR, com m3/c3 geralmente oferecendo melhor custo-benefício em comparação com m1/c1, e instâncias de memória para workloads intensivos.
1. O documento apresenta o pgquarrel, uma ferramenta para refatoração e migração de esquemas no PostgreSQL.
2. Ele fornece características como comparação de esquemas, geração de scripts SQL e suporte a diversos objetos do PostgreSQL.
3. O documento explica como instalar e usar o pgquarrel, seja via arquivo de configuração ou linha de comando, e como ele pode ser usado para gerenciar mudanças no esquema do banco de dados.
Este documento apresenta o Apache CouchDB, um banco de dados não-relacional (NoSQL) que armazena dados em formato de documentos JSON. Ele descreve as principais características do CouchDB, incluindo armazenamento flexível em documentos, consultas em JavaScript, replicação e API RESTful. Além disso, explica as diferenças entre bancos de dados relacionais e documentais e fornece um exemplo simples de uso do MapReduce no CouchDB.
Desmistificando Replicação no PostgreSQLEuler Taveira
1. O documento apresenta os conceitos e ferramentas de replicação no PostgreSQL, incluindo os tipos de replicação física e lógica e as evoluções das funcionalidades de replicação no PostgreSQL ao longo das versões.
2. As ferramentas de replicação no PostgreSQL incluem replicação por arquivos, replicação por fluxo, cópia física usando rsync ou pg_basebackup e configurações como recovery.conf e synchronous_standby_names.
3. A apresentação discute conceitos como disponibilidade, failover, cascateamento e balanceamento
O documento discute o projeto Sloan Digital Sky Survey (SDSS), que mapeia o céu e mede distâncias e propriedades de objetos celestes. Os dados do SDSS precisam ser processados rapidamente usando Big Data para direcionar telescópios. O framework Hive é usado para armazenar e analisar os dados do SDSS usando a linguagem HiveQL.
1. COLETAR dados de acesso do servidor web usando Amazon Kinesis.
2. PROCESSAR os dados com Apache Spark no Amazon EMR, armazenando resultados no Amazon S3.
3. ANALISAR os dados no data warehouse Amazon Redshift usando consultas SQL.
As bases de dados ficam alojadas no servidor onde está instalado o MySQL/MariaDB. Normalmente encontram-se na pasta "data" dentro da instalação do MySQL/MariaDB.
Por exemplo, numa instalação padrão do MySQL no Linux, as bases de dados ficam na pasta "/var/lib/mysql/". Já no Windows, a pasta padrão é "C:\Program Files\MySQL\MySQL Server x.x\data\".
Portanto, resumindo, as bases de dados ficam fisicamente alojadas no servidor MySQL/MariaDB, na pasta de dados da sua instalação. O phpMyAdmin é
Apache Spark é um framework para processamento de dados distribuído que suporta processamento em lote e em streaming. Ele possui APIs para manipulação de dados estruturados e não estruturados de forma paralela em clusters. Apache Spark também fornece ferramentas para armazenamento, recuperação e análise de grandes volumes de dados.
O documento discute várias tecnologias para processamento de big data, incluindo MapReduce, Hadoop, Apache Kafka, Apache Ignite, e Apache Spark. Ele fornece exemplos de código e exercícios para cada tecnologia e conclui discutindo outras opções como Apache Parquet e Apache Mesos.
Este documento discute as aplicações da linguagem Tcl e Starkits. Ele explica como scripts podem ser interativos, de alto nível e portáteis. Também descreve a sintaxe básica de Tcl, como listas, arrays, dicionários e namespaces funcionam, e como criar aplicações encapsuladas em Starkits.
Hadoop map reduce and apache spark comparing performance for distributed wor...Rosangela Oliveira
O documento compara o desempenho do Hadoop MapReduce e do Apache Spark para cargas de trabalho distribuídas, usando duas tarefas: wordcount distribuído em um conjunto de dados de 18GB e clusterização K-means em um conjunto de dados de livros da Amazon de 15GB. O Spark mostrou desempenho superior, especialmente para tarefas iterativas como K-means. A configuração correta é importante para o desempenho, e o Spark se beneficiou do recurso de alocação dinâmica.
[Pereira, IC'2013] Uma nova abordagem para detecção e extracao de paralelismo...Marcio Machado Pereira
Este documento apresenta uma nova abordagem para detecção e extração de paralelismo em programas Java baseada em transações de software. A proposta encapsula partes do corpo de laços em transações para executá-las em paralelo, garantindo a semântica sequencial através de um modelo de transações ordenadas. Dois linhas de pesquisa são apresentadas: paralelização com suporte de STM e seleção e especulação de arestas críticas nos grafos de dependência para aumentar o paralelismo. Experimentos pretendem medir o ganho de
Introdução ao processamento paralelo com o Grand Central Dispatchflisolmaringa
O documento introduz o Grand Central Dispatch (GCD), uma biblioteca da Apple que facilita a programação paralela em aplicações. O GCD abstrai a criação e manutenção de threads, permitindo executar tarefas de forma assíncrona através de filas de processamento. O documento descreve conceitos como blocks, dispatch queues, dispatch groups e dispatch sources para sincronização e tratamento de eventos.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM
Este documento fornece diretrizes sobre melhores práticas para armazenamento e análise de dados no Amazon Redshift, incluindo arquitetura, ingestão de dados, recursos, dicas de migração e otimização.
Mini-curso Programação Paralela e DistribuídaDeivid Martins
O documento apresenta uma introdução à programação paralela e distribuída, discutindo arquiteturas paralelas, programação para sistemas com memória compartilhada usando CPAR e OpenMP, e programação para sistemas distribuídos usando MPI. Ferramentas como CPAR e MPI são apresentadas como meios para desenvolver aplicações paralelas e distribuídas.
Este documento discute como migrar workloads de big data para o Amazon EMR, incluindo: (1) identificando desafios com ambientes locais como super provisionamento e gerenciamento de problemas, (2) migrando componentes para serviços AWS como EMR e S3, (3) casos de uso como GuiaBolso que migrou para uma plataforma de dados escalável na AWS.
Design Patterns para Tuning Pentaho com Ctoolse-Setorial
Uma "receita de bolo" com os passos comumente seguidos para tunar um dashboard, incluindo boas práticas, ferramentas e configurações. Os fontes do exemplo podem ser baixados livremente de http://www.e-setorial.com.br/pentahoday2017/DesignPatternsPentaho 09-12-57-284.zip
O documento discute a ferramenta AWS CloudFormation, que permite gerenciar a infraestrutura na nuvem como código através de templates. Ele explica os componentes principais do CloudFormation, como templates, recursos, stacks e eventos, e discute como criar e atualizar stacks usando templates. Também aborda boas práticas como reutilização de templates e não incluir credenciais nos arquivos.
O documento descreve uma linguagem de programação chamada Pascal. O Pascal foi criado em 1971 por Niklaus Wirth para promover o uso de código estruturado. O Pascal foi muito popular na década de 1980 e é frequentemente usado para ensinar conceitos básicos de programação. O documento explica elementos-chave do Pascal como variáveis, constantes, operadores, estruturas de decisão e repetição.
O documento descreve a história e evolução da linguagem de programação Java. Apresenta os conceitos fundamentais da linguagem como sua portabilidade, máquina virtual Java, ambiente de desenvolvimento Java (JDK) e ferramentas como Eclipse. Explica também estruturas de dados como vetores e matrizes em Java.
O mercado de internet evolui em uma velocidade muito rápida, se não formos capazes de acompanhar as evoluções e apresentar inovações, ficamos para trás. Ruby e Rails vem trazer ao mundo do desenvolvimento web a produtividade e alegria necessária!
Semelhante a Exemplos de uso de apache spark usando aws elastic map reduce (20)
O documento discute a técnica de aprendizado de máquina chamada rotulação automática para prever tags em documentos. Ele apresenta três exemplos de algoritmos de aprendizado de máquina que podem ser usados: regressão linear, árvore de decisão e Naive Bayes. O documento também discute como lidar com problemas de aprendizado de máquina multi-rótulo.
First steps with Keras 2: A tutorial with ExamplesFelipe
In this presentation, we give a brief introduction to Keras and Neural networks, and use examples to explain how to build and train neural network models using this framework.
Talk given as part of an event by Rio Machine Learning Meetup.
Word embeddings introdução, motivação e exemplosFelipe
O documento apresenta uma introdução aos word embeddings, motivando sua utilização para representar palavras de forma distribuída e de baixa dimensionalidade. Explica como os modelos de linguagem neurais treinam embeddings de forma não supervisionada e como o Word2Vec tornou esse treinamento mais eficiente através de otimizações. Finalmente, discute aplicações e trabalhos futuros com embeddings.
This document provides an overview of popular cloud computing certifications from Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP), and vendor-neutral certifications. It describes the purpose and requirements for certifications like AWS Certified Solutions Architect - Associate, MCSA: Cloud Platform, GCP Cloud Architect, and CompTIA Cloud+. The document also notes that certifications focus on roles like cloud architect, software engineer, and DevOps engineer, and that newer certifications address specific cloud aspects such as security and analytics.
This document provides an overview of using Elasticsearch for data analytics. It discusses various aggregation techniques in Elasticsearch like terms, min/max/avg/sum, cardinality, histogram, date_histogram, and nested aggregations. It also covers mappings, dynamic templates, and general tips for working with aggregations. The main takeaways are that aggregations in Elasticsearch provide insights into data distributions and relationships similarly to GROUP BY in SQL, and that mappings and templates can optimize how data is indexed for aggregation purposes.
Cloudwatch: Monitoring your Services with Metrics and AlarmsFelipe
CloudWatch is AWS's monitoring and metrics service that collects data from AWS services and allows users to set alarms and view metrics. It collects both built-in metrics provided by AWS services as well as custom metrics defined by users. CloudWatch allows viewing metrics and setting alarms in the console, through APIs, and via integration with other AWS services. It provides visibility into applications and infrastructure to help with decisions around capacity planning and troubleshooting.
Cloudwatch: Monitoring your AWS services with Metrics and AlarmsFelipe
Brief intro to AWS Cloudwatch. Motivation, examples and use cases. Shows how you can collect and monitors metrics for all your AWS services to better control your applications and infrastructure. #cloud-computing #aws #amazon-web-services
Online Machine Learning: introduction and examplesFelipe
In this talk I introduce the topic of Online Machine Learning, which deals with techniques for doing machine learning in an online setting, i.e. where you train your model a few examples at a time, rather than using the full dataset (off-line learning).
Aws cost optimization: lessons learned, strategies, tips and toolsFelipe
A couple of useful resources that may help you lower your AWS bill at the end of the month. Includes AWS Resources, Third-party Solutions and general tips and lessons learned.
Boas práticas no desenvolvimento de softwareFelipe
Um pequeno conjunto de boas práticas para o desenvolvimento de software. O conteúdo é recomendado para desenvolvedores iniciantes ou intermediários. O foco é em desenvolvimento Web, baseado em Sistemas de Informação, com uma linguagem fracamente tipada. Os exemplos são dados na linguagem PHP.
Introducing Rachinations, a game execution engine and Ruby-based DSL that can be used to test out game designs and evaluate hypotheses and analyze gameplay. It is an implementation of Dr. J. Dormans' Machinations framework for game design.
A short introduction (with many examples) to the Scala programming language and also an introduction to using the Play! Framework for modern, safe, efffcient and reactive web applications.
Conceitos e exemplos em versionamento de códigoFelipe
Uma pequena apresentação dedicada a expôr desenvolvedores a conceitos e termos relacionados ao controle de versão de código em projetos de software; essa é uma prática essencial no desenvolvimento de software com a qual todos os desenvolvedores se depararão no decorrer de suas carreiras.
DevOps Series: Extending vagrant with Puppet for configuration managementFelipe
This is a short presentation on the reasons why you would augment your Vagrant installation with a full-fledged provisioner like Puppet and some examples of basic things you can do with it.
DevOps Series: Defining and Sharing Testable Machine Configurations with vagrantFelipe
Vagrant allows users to define reproducible and testable machine configurations using configuration files. It supports various operating systems and virtualization providers. The document outlines the basics of using Vagrant, including adding base boxes, creating Vagrantfiles to define configurations, provisioning machines, and commonly used commands. It is useful for developers who need consistent environments or who configure machines for others.
A small presentation with some quick explanation of what D3.js is and a few examples of what it can do for you. It can be used for a quick presentation (20-30 mins) after which you should have an idea of whether you can use D3.js for your project.
A linguagem C# aproveita conceitos de muitas outras linguagens,
mas especialmente de C++ e Java. Sua sintaxe é relativamente fácil, o que
diminui o tempo de aprendizado. Todos os programas desenvolvidos devem
ser compilados, gerando um arquivo com a extensão DLL ou EXE. Isso torna a
execução dos programas mais rápida se comparados com as linguagens de
script (VBScript , JavaScript) que atualmente utilizamos na internet
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
Exemplos de uso de apache spark usando aws elastic map reduce
1. Exemplos de Uso de
Apache Spark usando AWS
Elastic MapReduce
AWS Meetup Rio - April 2016
Felipe Almeida (falmeida1988@gmail.com | queirozf.com)
Project url: https://github.com/queirozfcom/aws-meetup-april-2016
2. Estrutura da palestra
● Introdução Spark
● Introdução EMR
● Casos de uso comuns do EMR
● Criação de um cluster no EMR
● Casos de uso Spark (batch)
● Exemplo para rodar no EMR
● Casos de uso Spark (streaming)
● Exemplo para rodar no EMR
2
5. Introdução Spark
● Ferramenta para processamento de dados distribuídos em
memória, feita na linguagem Scala
● Começou como uma alternativa ao Hadoop MapReduce, atacando
duas áreas principais, consideradas fraquezas do MapReduce:
○ Processamento iterativo (várias tarefas em sequência)
○ Processamento interativo (análise exploratória de dados)
5
6. Introdução Spark
● Ferramenta para processamento de dados distribuídos em
memória, feita na linguagem Scala
6
Este pequeno pedaço de código lê um arquivo texto do HDFS e
executa uma contagem de palavras no mesmo, de forma
distribuída
7. Introdução Spark
● Ferramenta para processamento de dados distribuídos em
memória, feita na linguagem Scala
7
Diferença no tempo de execução de duas tarefas de regressão
logística (um algoritmo de aprendizado de máquina) em Hadoop
MapReduce e Spark
Este pequeno pedaço de código lê um arquivo texto do HDFS e
executa uma contagem de palavras no mesmo, de forma
distribuída
8. Introdução Spark
● Atualmente (versão 1.6.1), o Spark:
○ Pode fazer quaisquer operações do tipo map/reduce
○ Tem módulo para tarefas de aprendizado de máquina
○ Tem módulo para processamento de streams de dados
○ Tem módulo para análise de dados com DataFrames, como
em R, Pandas (python) e similares
○ etc.
8
9. Introdução Spark
● Atualmente (versão 1.6.1), o Spark:
○ Pode fazer quaisquer operações do tipo map/reduce
○ Tem módulo para tarefas de aprendizado de máquina
○ Tem módulo para processamento de streams de dados
○ Tem módulo para análise de dados com DataFrames, como
em R, Pandas (python) e similares
○ etc.
● Tudo isso
○ de forma distribuída, em memória
○ com APIs amigáveis, em Scala, Java, Python e também R.
9
10. Introdução Spark
Há dois modos principais de execução:
● Batch
○ Você inicia o processamento de um arquivo ou dataset finito, o
Spark processa a(s) tarefa(s) configurada(s) e pára.
10
11. Introdução Spark
Há dois modos principais de execução
● Batch
○ Você inicia o processamento de um arquivo ou dataset finito, o
Spark processa a(s) tarefa(s) configurada(s) e pára.
● Streaming
○ Você processa um stream de dados contínuo; a execução não
pára até que haja algum erro ou você termine a aplicação
manualmente.
11
13. Introdução EMR
O AWS Elastic MapReduce (EMR) é um serviço gerenciado de clusters
Hadoop
● O AWS EMR também dá suporte ao Spark (desde 2015)
● O EMR é acessível pelo console AWS:
13
Detalhe: console AWS
14. Introdução EMR
Importante: Há dois modos de execução de clusters EMR.
● Cluster mode
○ Após a criação, o cluster só é desligado manualmente ou se
houver um erro
14
15. Introdução EMR
Importante: Há dois modos de execução de clusters EMR.
● Cluster mode
○ Após a criação, o cluster só é desligado manualmente ou se
houver um erro
● Step execution (ou autotermination)
○ Após a criação, o cluster executa as tarefas que você
configurou e é desligado automaticamente:
15
Escolha do modo de execução
16. Introdução EMR
Obs: Há também uma ferramenta de linha de comando (CLI) que lhe
permite fazer todas as ações que foram feitas pelo console da AWS.
16
17. Introdução EMR
Obs: Há também uma ferramenta de linha de comando (CLI) que lhe
permite fazer todas as ações que foram feitas pelo console da AWS:
Alguns comandos disponíveis:
● create-cluster
● add-steps
● list-clusters
● install-applications
● ssh
(Veja todos os comandos disponíveis neste neste link)
17
19. Casos de uso comuns do EMR
● Terceirizar custo e expertise de criação e manutenção de um
cluster (com dezenas ou até centenas de máquinas) para a AWS
19
20. Casos de uso comuns do EMR
● Terceirizar custo e expertise de criação e manutenção de um
cluster (com dezenas ou até centenas de máquinas) para a AWS
● Executar jobs esporádicos sem a necessidade de possuir um
cluster
○ No modo step execution, você só paga o tempo que a tarefa
está sendo executada
20
21. Casos de uso comuns do EMR
● Terceirizar custo e expertise de criação e manutenção de um
cluster (com dezenas ou até centenas de máquinas) para a AWS
● Executar jobs esporádicos sem a necessidade de possuir um
cluster
○ No modo step execution, você só paga o tempo que a tarefa
está sendo executada
● Conectar serviços da AWS, e.g. S3, Kinesis, DynamoDB.
21
22. Criação de um cluster no EMR
Na hora de criar um cluster, é bom se lembrar de algumas
coisas
22
23. Criação de um cluster no EMR
● O Spark não é incluído por default nos clusters. É preciso marcar a
opção correta:
23
Na tela de criação de cluster, selecione a opção que inclui o Spark
24. Criação de um cluster no EMR
● Se você quiser ter acesso à interface de administração do Spark e
do YARN, é necessário criar o cluster usando uma chave de
autenticação:
24
Opcionalmente, escolha uma chave de acesso que você tenha criado
26. Casos de uso Spark Batch
● Análise exploratória de grandes conjuntos de dados
26
27. Casos de uso Spark Batch
● Análise exploratória de grandes conjuntos de dados
● Fazer Data Warehousing em cima de um grande conjunto de
dados, estilo OLAP
27
28. Casos de uso Spark Batch
● Análise exploratória de grandes conjuntos de dados
● Fazer Data Warehousing em cima de um grande conjunto de
dados, estilo OLAP
● Treinar um modelo de aprendizado de máquina sobre um grande
conjunto de dados
28
29. Casos de uso Spark Batch
● Análise exploratória de grandes conjuntos de dados
● Fazer Data Warehousing em cima de um grande conjunto de
dados, estilo OLAP
● Treinar um modelo de aprendizado de máquina sobre um grande
conjunto de dados
● Qualquer tarefa de analytics que antes era feita via Hadoop
MapReduce
29
31. Exemplo Execução Spark Batch no EMR
As etapas para ter uma tarefa Spark Batch rodando no AWS EMR são:
● Escrita do código e empacotamento do mesmo em um JAR (Java
Archive File)
● Upload dos dados que serão analisados para o S3
● Upload do código (JAR) para o S3
● Criação do cluster em modo step, ou autotermination, configurado
para rodar o seu código
● Esperar o cluster subir e seu job completar
● Em caso de sucesso, pegar o resultado do seu job, caso tenha
sido salvo em algum meio externo (e.g. S3)
31
32. Exemplo Execução Spark Batch no EMR
O código de exemplo é o seguinte:
● Ler um arquivo em formato texto do S3 (tão grande quanto se
queira)
● Calcular, de forma distribuída, o número de palavras no arquivo
● Salvar o resultado (ou seja, o número de vezes que cada palavra
ocorre no arquivo inteiro) em outro bucket do S3
32
33. Exemplo Execução Spark Batch no EMR
Código completo: (disponível em http://bit.do/spark-batch-example-aws-meetup)
object WordCount{
def main(args:Array[String]){
if(args.length < 1){
System.err.println("Please set arguments for <s3_input_dir> <s3_output_dir>")
System.exit(1)
}
val inputDir = args(0)
val outputDir = args(1)
val cnf = new SparkConf().setAppName("Spark Distributed WordCount")
val sc = new SparkContext(cnf)
val textFile = sc.textFile(inputDir)
val counts = textFile.flatMap(line => line.split("s+")).map(word => (word, 1)).reduceByKey( (a,b) => a+b )
counts.saveAsTextFile(outputDir)
sc.stop()
}
}
33
34. Exemplo Execução Spark Batch no EMR
Código completo: (disponível em http://bit.do/spark-batch-example-aws-meetup)
object WordCount{
def main(args:Array[String]){
if(args.length < 1){
System.err.println("Please set arguments for <s3_input_dir> <s3_output_dir>")
System.exit(1)
}
val inputDir = args(0)
val outputDir = args(1)
val cnf = new SparkConf().setAppName("Spark Distributed WordCount")
val sc = new SparkContext(cnf)
val textFile = sc.textFile(inputDir)
val counts = textFile.flatMap(line => line.split("s+")).map(word => (word, 1)).reduceByKey( (a,b) => a+b )
counts.saveAsTextFile(outputDir)
sc.stop()
}
}
34
O endereço do bucket
de input e de output
são parâmetros do job
35. Exemplo Execução Spark Batch no EMR
Código completo: (disponível em http://bit.do/spark-batch-example-aws-meetup)
object WordCount{
def main(args:Array[String]){
if(args.length < 1){
System.err.println("Please set arguments for <s3_input_dir> <s3_output_dir>")
System.exit(1)
}
val inputDir = args(0)
val outputDir = args(1)
val cnf = new SparkConf().setAppName("Spark Distributed WordCount")
val sc = new SparkContext(cnf)
val textFile = sc.textFile(inputDir)
val counts = textFile.flatMap(line => line.split("s+")).map(word => (word, 1)).reduceByKey( (a,b) => a+b )
counts.saveAsTextFile(outputDir)
sc.stop()
}
}
35
Leitura do arquivo do
S3
36. Exemplo Execução Spark Batch no EMR
Código completo: (disponível em http://bit.do/spark-batch-example-aws-meetup)
object WordCount{
def main(args:Array[String]){
if(args.length < 1){
System.err.println("Please set arguments for <s3_input_dir> <s3_output_dir>")
System.exit(1)
}
val inputDir = args(0)
val outputDir = args(1)
val cnf = new SparkConf().setAppName("Spark Distributed WordCount")
val sc = new SparkContext(cnf)
val textFile = sc.textFile(inputDir)
val counts = textFile.flatMap(line => line.split("s+")).map(word => (word, 1)).reduceByKey( (a,b) => a+b )
counts.saveAsTextFile(outputDir)
sc.stop()
}
}
36
Essa linha faz todo o
processamento distribuído:
a partição do arquivo,
contagem de palavras e a
agregação
37. Exemplo Execução Spark Batch no EMR
Código completo: (disponível em http://bit.do/spark-batch-example-aws-meetup)
object WordCount{
def main(args:Array[String]){
if(args.length < 1){
System.err.println("Please set arguments for <s3_input_dir> <s3_output_dir>")
System.exit(1)
}
val inputDir = args(0)
val outputDir = args(1)
val cnf = new SparkConf().setAppName("Spark Distributed WordCount")
val sc = new SparkContext(cnf)
val textFile = sc.textFile(inputDir)
val counts = textFile.flatMap(line => line.split("s+")).map(word => (word, 1)).reduceByKey( (a,b) => a+b )
counts.saveAsTextFile(outputDir)
sc.stop()
}
}
37
O resultado do
processamento é salvo no
bucket S3 de destino
38. Exemplo Execução Spark Batch no EMR
38
Enquanto a tarefa está sendo executada, ela aparece assim
39. Exemplo Execução Spark Batch no EMR
39
Se ela foi completada sem erros, ela aparece assim
41. Casos de uso Spark Streaming
● Monitoramento de ativos, serviços
41
42. Casos de uso Spark Streaming
● Monitoramento de ativos, serviços
● Processamento de eventos em tempo real para alimentação de
dashboards
42
43. Casos de uso Spark Streaming
● Monitoramento de ativos, serviços
● Processamento de eventos em tempo real para alimentação de
dashboards
● Processamento de dados vindos de serviços como
○ AWS Kinesis
○ Apache Kafka
○ Apache Flume
○ Twitter
○ ZeroMQ
○ MQTT
43
44. Casos de uso Spark Streaming
● Monitoramento de ativos, serviços
● Processamento de eventos em tempo real para alimentação de
dashboards
● Processamento de dados vindos de serviços como
○ AWS Kinesis
○ Apache Kafka
○ Apache Flume
○ Twitter
○ ZeroMQ
○ MQTT
44
Há clientes oficiais do Spark
para todos esses serviços!
46. Exemplo de Execução Spark Streaming no EMR
As etapas para ter uma tarefa Spark Streaming rodando no AWS EMR
são:
● Criação do cluster em modo cluster
● Escrita do código e empacotamento do mesmo em um JAR (Java
Archive File)
● Upload do código (JAR) para o S3
● Adição do seu job no cluster
● Caso não tenha havido erro na inicialização, a aplicação vai ficar
rodando até haver algum erro ou ela ser finalizada manualmente.
46
47. Exemplo de Execução Spark Streaming no EMR
As etapas para ter uma tarefa Spark Streaming rodando no AWS EMR
são:
● Criação do cluster em modo cluster
● Escrita do código e empacotamento do mesmo em um JAR (Java
Archive File)
● Upload do código (JAR) para o S3
● Adição do seu job no cluster
● Caso não tenha havido erro na inicialização, a aplicação vai ficar
rodando até haver algum erro ou ela ser finalizada manualmente.
47
Note que, neste caso,
o cluster é criado
antes do envio do job
48. Exemplo de Execução Spark Streaming no EMR
● Exemplo: contar quantos tweets em português são criados a cada 10
segundos: (disponível em http://bit.do/spark-streaming-example-aws-meetup)
val config = new SparkConf().setAppName("aws-meetup-rio-2016-streaming")
val ssc = new StreamingContext(config,batchDuration)
val twitterConf = new ConfigurationBuilder()
twitterConf.setOAuthAccessToken(accessToken)
twitterConf.setOAuthAccessTokenSecret(accessTokenSecret)
twitterConf.setOAuthConsumerKey(apiKey)
twitterConf.setOAuthConsumerSecret(apiSecret)
val auth = AuthorizationFactory.getInstance(twitterConf.build())
val tweets = TwitterUtils.createStream(ssc,Some(auth))
val portuguesetweets = tweets.map(status => status.getLang) .filter(lang => lang == "pt" )
portuguesetweets.count().print()
ssc.start()
48
49. Exemplo de Execução Spark Streaming no EMR
● Exemplo: contar quantos tweets em português são criados a cada 10
segundos: (disponível em http://bit.do/spark-streaming-example-aws-meetup)
val config = new SparkConf().setAppName("aws-meetup-rio-2016-streaming")
val ssc = new StreamingContext(config,batchDuration)
val twitterConf = new ConfigurationBuilder()
twitterConf.setOAuthAccessToken(accessToken)
twitterConf.setOAuthAccessTokenSecret(accessTokenSecret)
twitterConf.setOAuthConsumerKey(apiKey)
twitterConf.setOAuthConsumerSecret(apiSecret)
val auth = AuthorizationFactory.getInstance(twitterConf.build())
val tweets = TwitterUtils.createStream(ssc,Some(auth))
val portuguesetweets = tweets.map(status => status.getLang).filter(lang => lang == "pt" )
portuguesetweets.count().print()
ssc.start()
49
Criação do
stream twitter
Filtragem pelo
idioma (“pt”)
Agregação (count) e impressão na saída padrão
50. Exemplo de Execução Spark Streaming no EMR
● O resultado é impresso na saída padrão:
50
Podemos ver telas de
logs, saída padrão e
erro do YARN no EMR
51. Exemplo de Execução Spark Streaming no EMR
51
Detalhe: na interface Spark UI (também acessível pelo EMR) é possível ver
que a tarefa está sendo executada sem erros até o momento