O documento discute como a Pentaho Big Data Analytics pode orquestrar Hadoop, Cassandra e MongoDB. Apresenta as principais características e usos de Hadoop, Cassandra, MongoDB e da plataforma Pentaho para integrar e analisar dados em ambientes de Big Data.
Apresentação que contempla conceitos e arquitetura de Big Data, processamento e análise de dados em tempo real com Kafka, ElasticSearch e Python. Apresentada no GDG DevFest Cerrado 2019.
Apresentação mostrando como o Spark é muito útil no dia-a-dia na globo.como, como usamos Spark para processar bilhões de eventos e incentivando a migração para o Spark 2.0.
Apresentação na QCon São Paulo 2018 sobre Data engineering e casos de arquiteturas com grande volume de dados usando Cassandra, Elasticsearch e Postgresql
Big Data: Seus problemas estão apenas começandoThiago Gonzaga
Uma breve introdução ao termo Big Data e soluções disponíveis, assim como algumas leituras recomendadas.
Palestra apresentada na Fatec Rio Preto no encontro mensal do Java Noroeste (Grupo De Usuários Java do Noroeste Paulista)
Apresentação sobre como conseguimos criar um perfil sobre a navegação dos usuários usando as técnicas de Big Data e de Web Semântica com tempos sempre na casa dos ms.
Você já ouviu falar de banco de dados NoSQL? Já desenvolveu alguma aplicação Java com NoSQL? Nesta palestra iremos estudar um exemplo básico de como utilizar JPA e Spring Data para desenvolver com o banco NoSQL MongoDB.
TDC - Auditoria com Go, ElasticSearch e KibanaGabriel Feitosa
Slides da talk Criando um Sistema de auditoria com Go, ElasticSearch e Kibana. A talk ocorreu no The Developers Conference em Porto Alegre. Link http://www.thedevelopersconference.com.br/#descricao-122
Como a ideia de um app bem simples com Go, junto com o ElasticSearch e Kibana, ajudou na economia de tempo e recurso na construção de um mecanismo de auditoria de eventos trafegados em um message broker.
O app tinha como função realizar a leitura de mensagens em uma fila e enviá-las ao ElasticSearch. O Kibana foi usado ler os dados do ElasticSearch e criar métricas de forma dinâmica.
Curta apresentação sobre a arquitetura de big data na globo.com.
Essa apresentação visa mostrar como Big Data auxiliou recomendação e analytics na empresa, bem como conseguimos construir uma plataforma (pipeline) para distribuir os dados pela empresa.
Essa apresentação será feita no TDC - Florianópolis.
A apresentação tem como objetivo demonstrar uma arquitetura para solução Big Data utilizando componentes Open Source, a mesma foi apresentada no TDC 2014 em Porto Alegre.
Apresentação que contempla conceitos e arquitetura de Big Data, processamento e análise de dados em tempo real com Kafka, ElasticSearch e Python. Apresentada no GDG DevFest Cerrado 2019.
Apresentação mostrando como o Spark é muito útil no dia-a-dia na globo.como, como usamos Spark para processar bilhões de eventos e incentivando a migração para o Spark 2.0.
Apresentação na QCon São Paulo 2018 sobre Data engineering e casos de arquiteturas com grande volume de dados usando Cassandra, Elasticsearch e Postgresql
Big Data: Seus problemas estão apenas começandoThiago Gonzaga
Uma breve introdução ao termo Big Data e soluções disponíveis, assim como algumas leituras recomendadas.
Palestra apresentada na Fatec Rio Preto no encontro mensal do Java Noroeste (Grupo De Usuários Java do Noroeste Paulista)
Apresentação sobre como conseguimos criar um perfil sobre a navegação dos usuários usando as técnicas de Big Data e de Web Semântica com tempos sempre na casa dos ms.
Você já ouviu falar de banco de dados NoSQL? Já desenvolveu alguma aplicação Java com NoSQL? Nesta palestra iremos estudar um exemplo básico de como utilizar JPA e Spring Data para desenvolver com o banco NoSQL MongoDB.
TDC - Auditoria com Go, ElasticSearch e KibanaGabriel Feitosa
Slides da talk Criando um Sistema de auditoria com Go, ElasticSearch e Kibana. A talk ocorreu no The Developers Conference em Porto Alegre. Link http://www.thedevelopersconference.com.br/#descricao-122
Como a ideia de um app bem simples com Go, junto com o ElasticSearch e Kibana, ajudou na economia de tempo e recurso na construção de um mecanismo de auditoria de eventos trafegados em um message broker.
O app tinha como função realizar a leitura de mensagens em uma fila e enviá-las ao ElasticSearch. O Kibana foi usado ler os dados do ElasticSearch e criar métricas de forma dinâmica.
Curta apresentação sobre a arquitetura de big data na globo.com.
Essa apresentação visa mostrar como Big Data auxiliou recomendação e analytics na empresa, bem como conseguimos construir uma plataforma (pipeline) para distribuir os dados pela empresa.
Essa apresentação será feita no TDC - Florianópolis.
A apresentação tem como objetivo demonstrar uma arquitetura para solução Big Data utilizando componentes Open Source, a mesma foi apresentada no TDC 2014 em Porto Alegre.
Muitos desenvolvedores se preocupam bastante com os aspectos estáticos dos sistemas que constroem, tais como se o código está bonito, se está idiomático, se está seguindo um determinado styleguide, entre outros bullet points do bom design de código; e isso é muito bom. Mas isso não é tudo. Há ainda o aspecto real da coisa, o Runtime. É no Runtime que ômis e mininus se sobressaem. E essa apresentação é sobre com o que os ômis mais se preocupam quanto estão escrevendo sistemas críticos – para o Mundo Real, é lógico.
Desenvolvendo para o Windows Azure e SQL AzureLuciano Condé
Conhecendo os principais recursos e como desenvolver para estes dois serviços da plataforma Windows Azure.
Esta palestra foi apresentada para o Encontro de Parceiros na Microsoft Brasil.
Evento: MVP ShowCast 2014
Tema: O que há de novo no Microsoft Azure IaaS
Palestrante: Lucas A. Romão
Tipo: Online
Vídeo: Sim
Descrição: Principais novidades no primeiro quarter de 2014 sobre todo o IaaS do Microsoft Azure, grande foco em VMs, novos tipos de VMs, exemplos de alta escalabilidade (Olimpíadas de Inverno na Rússia e Jogo para XBoxOne Titan Fall), IPs reservados e públicos, múltiplas VNets e Disaster Recovery
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
Palestra apresentada no FISL 16 - Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação. Uma visão geral sobre Hadoop, Cassandra, MongoDB, noSQL, BI, Data Mining e Analitycs entre outros conceitos emergentes da área de governança de dados será repassada aos participantes.
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
A palestra apresenta o conceito de data lakes e big data, e como estas arquiteturas são formadas para o armazenamento e consumo de grande volumes de dados, sua relação com as arquiteturas distribuídas como é o caso do ecosistema Hadoop e como o a suíte Pentaho pode ajudar na gestão e extração de informações para tomada de decisão com recursos de big data analitycs.
Palestra sobre Big Data e o ecossitema hadoop, com seus conceitos e suas ferramentas, incluindo trilhas de aprendizagem e algumas certificações ministrada online no Canal Coders In Rio: https://www.youtube.com/watch?v=-pCwSkNoRY4&t=1s
Caderno de Resumos XVIII ENPFil UFU, IX EPGFil UFU E VII EPFEM.pdfenpfilosofiaufu
Caderno de Resumos XVIII Encontro de Pesquisa em Filosofia da UFU, IX Encontro de Pós-Graduação em Filosofia da UFU e VII Encontro de Pesquisa em Filosofia no Ensino Médio
proposta curricular da educação de jovens e adultos da disciplina geografia, para os anos finais do ensino fundamental. planejamento de unidades, plano de curso da EJA- GEografia
para o professor que trabalha com a educação de jovens e adultos- anos finais do ensino fundamental.
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o Pentaho Big Data Analytics
1. Orquestrando Hadoop, Cassandra e MongoDB
com o Pentaho Big Data Analytics.
Trilha: Big Data
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2. Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em Congressos relacionados a FLOSS tais como: CONISLI,
SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day,
TDC São Paulo.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● CEO da Ambiente Livre.
● Data Scientist, Instrutor e Consultor de Big Data
3. Nosso Ecosistema
● Fundada em 2004 com atuação em
consultoria para o mercado de gestão
empresarial com Free Software/Open Source.
● 14 soluções para geração de negócios.
4. Impacto – IoT (Big Data)
● U$ 4 a 11 trilhões a partir de 2025
6. Fundação Apache
● Big Data = Apache = Open Source
● Apache é líder e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark” e “Apache Cassandra”
7. Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuído.
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum (Commodity cluster computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas (hardware,
software, rede)
9. MapReduce
Programação Distribuída
● modelo de programação para processar
grandes volumes de dados em paralelo,
dividindo o trabalho em um conjunto de
tarefas independentes.
10. MongoDB
● Banco de dados não relacional ( NoSQL ) Orientado a
Documentos
● Baseado am JSON onde os documentos (registros) são
representados por “chave:valor“ BSON
● Escrito em C++ e Open Source
● Schema Dinâmico: Permite dados complexos não
estruturados
● Documentos auto-contidos e arrays reduzem a
necessidade de join’s
● Multiplataforma e com Alta Performance
11. MongoDB Inc
● 10 Milhões de Downloads.
● Mais de 1.000 parceiros.
● Milhares e clientes!
12. Apache Cassandra
● É um tipo de banco NoSQL que originalmente
foi criado pelo Facebook e atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no Dynamo da
Amazon
13. Características
● Nenhum ponto único de falha
● Escreve em Tempo Real ( real-time) com análise de
dados operacional ao vivo
● Modelos de dados, facilmente alterados flexíveis
● Horizontalmente Escala ( Near-linear ) entre os
servidores de commodities
● Replicação de confiança entre data centers distribuídos
● Esquema de tabela claramente definido em um
ambiente NoSQL
14. Cassandra
Escalabilidade Linear
● A Capacidade pode ser facilmente aumentada
simplesmente por adicionar novos nós.
● Exemplo: Se 2 nós pode lidar com 100.000
transações por segundo, 4 nós apoiará
200.000 transações/s e 8 nós vai enfrentar
400.000 transações/s
16. Modelagem de Dados
Cassandra Query Language (CQL)
● Fornece uma, linha-coluna, a abordagem SQL-like
familiarizado: CREATE, ALTER, DROP, SELECT,
INSERT, UPDATE, DELETE
● Substituiu o complexo
Thrift API (utilizado
em versões anteriores)
● Fornece definições de
esquema claros num contexto
flexível esquema (NoSQL)
18. Pentaho
● Plataforma completa para Business
Intelligence e Business Analytics e Big Data
Analytics.
● ETL, Reporting,
Data Mining,
OLAP e Dashbards.
19. 3 Pilares do Pentaho
● Plataforma abrangente para integração de
dados e Business Analytics.
21. Pentaho Data Integration
● Ferramenta completa de ETL
● “Programação e Fluxo Visual”
● Aproximadamente 350 steps diferentes
22. Pentaho Report Designer
● Web
● Assistente de relatório
● Amplo suporte de fonte de dados, incluindo
relacionais, OLAP, XMLe Pentaho Analysis,
arquivos flat, objetos Java e ...
● Big Data Reports ( integra-se com PDI )
32. Comunidade Brasileira
● Maior comunidade do Mundo!
● Lista de Discussão com + de 1900 membros
● Organiza a 5 anos o Pentaho Day Brasil
● Composta por desenvolvedores, usuários , empresas e
acadêmia.
● Utilizado em mais de 185 países.
● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
● + 4 milhões de Downloads
● Em 2015 +- 60.000 downloads dia
41. Pentaho e Pig
● Linguagem de fluxo de dados e ambiente
de execução para explorar grandes
conjuntos de dados.
● Executado no HDFS e
grupos MapReduce.
42. Pentaho e Hbase
● BD colunar e distribuído.
● Usa o HDFS para armazenamento
e suporta os cálculos
usando MapReduce
e pontos de consultas
43. Pentaho e HBase
● Decodificados de chave
e dados valor que é
emitido pelo TableInputFormat
44. Pentaho e Hive
● interface SQL-like para dados estruturados
armazenados no HDFS
● facilita a consulta e gerenciamento
● de grandes conjuntos de dados que
residem em armazenamento
distribuído.
● Hive fornece um mecanismo para projetar a
estrutura para esses dados e consultar os dados
usando uma linguagem SQL, chamado HiveQL
45. Mongo DB
● Acessível via PDI (ETL)
● Acessível via PRD
( Report )
● Suporte a Mongo 3.0
47. Pentaho e CounchDB
● Foca na facilidade de uso
e na filosofia de ser "um banco de dados que
abrange a Web"
● NoSQL, usa JSON para armazenar os dados,