Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
Differentiate Big Data vs Data Warehouse use cases for a cloud solutionJames Serra
It can be quite challenging keeping up with the frequent updates to the Microsoft products and understanding all their use cases and how all the products fit together. In this session we will differentiate the use cases for each of the Microsoft services, explaining and demonstrating what is good and what isn't, in order for you to position, design and deliver the proper adoption use cases for each with your customers. We will cover a wide range of products such as Databricks, SQL Data Warehouse, HDInsight, Azure Data Lake Analytics, Azure Data Lake Store, Blob storage, and AAS as well as high-level concepts such as when to use a data lake. We will also review the most common reference architectures (“patterns”) witnessed in customer adoption.
Differentiate Big Data vs Data Warehouse use cases for a cloud solutionJames Serra
It can be quite challenging keeping up with the frequent updates to the Microsoft products and understanding all their use cases and how all the products fit together. In this session we will differentiate the use cases for each of the Microsoft services, explaining and demonstrating what is good and what isn't, in order for you to position, design and deliver the proper adoption use cases for each with your customers. We will cover a wide range of products such as Databricks, SQL Data Warehouse, HDInsight, Azure Data Lake Analytics, Azure Data Lake Store, Blob storage, and AAS as well as high-level concepts such as when to use a data lake. We will also review the most common reference architectures (“patterns”) witnessed in customer adoption.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
Palestra apresentada no FISL 16 - Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação. Uma visão geral sobre Hadoop, Cassandra, MongoDB, noSQL, BI, Data Mining e Analitycs entre outros conceitos emergentes da área de governança de dados será repassada aos participantes.
A palestra apresenta o conceito de data lakes e big data, e como estas arquiteturas são formadas para o armazenamento e consumo de grande volumes de dados, sua relação com as arquiteturas distribuídas como é o caso do ecosistema Hadoop e como o a suíte Pentaho pode ajudar na gestão e extração de informações para tomada de decisão com recursos de big data analitycs.
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
Palestra apresentada na CONFLOSS 2021
Resumo da palestra:
Apresentaremos como podemos usar e tratar dados para executa-los e capturar seus resultados de forma automatizada para automação corporativa de processos de IA ou ML usando as ferramenta Pentaho Data Integration e a Weka/PMI ( Pentaho Machine Intelligence) e um case será desenvolvido ao vivo.
Palestra apresentada no TDC 2018 - São Paulo com uma visão geral do Apache Flink e suas características , assim como uma comparação com apache Spark e Map Reduce e como montar um cluster com Flink.
Informações sobre treinamento em Apache Flnk acesse: http://www.ambientelivre.com.br/treinamento/hadoop/apache-flink.html
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
Nesta palestra será apresentado como podemos construir uma plataforma para geração de insights significativos usando apenas tecnologias open source e free softwares. Desafios do uso do Open Source e diferenciais competitivos e estratégicos. Serão detalhadas também questões técnicas da funções das ferramentas de integração de dados, carga de lotes, qualidade dos dados, segurança dos dados, estrutura distribuída, data warehouse, fluxo de dados em tempo real, processamento e visualização de dados todas open source para que possa se implementar uma plataforma Open Source para Data Science. Um destaque especial do uso do Pentaho nesta plataforma será abordado.
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
Palestra apresentada no TDC Florianópolis 2018 na Trilha Data Science.
AEL é o futuro das aplicação a partir de motores emergentes. Hoje você pode desenvolver visualmente o aplicativo para o motor Pentaho em um cluster Spark. À medida que surgem novas tecnologias, a AEL será implementada para outros motores, de modo que os desenvolvedores não precisam reescrever sua aplicação. Esta abordagem também permite que Cientistas de Dados usem das melhores praticas tecnologias sem conhecer detalhes mais aprofundados de arquiteturas de big data e consigam executar seu tratamento de dados com pouco esforço ( ou nenhum ) de codificação. Atualmente o Pentaho e a única ferramenta de ETL que implementa o conceito de AEL no mundo e me parece uma tendência clara.
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
Nesta palestra será apresentado como podemos construir uma plataforma para geração de insights significativos usando apenas tecnologias open source e free softwares. Desafios do uso do Open Source e diferenciais competitivos e estratégicos. Serão detalhadas também questões técnicas da funções das ferramentas de integração de dados, carga de lotes, qualidade dos dados, segurança dos dados, estrutura distribuída, data warehouse, fluxo de dados em tempo real, processamento e visualização de dados todas open source para que possa se implementar uma plataforma Open Source para Data Science. Um destaque especial do uso do Pentaho nesta plataforma será abordado.
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
O Kettle, também conhecido como Pentaho Data Integration é uma ferramenta de ETL Open Source. A mesma faz parte da suíte de Pentaho Business Intelligence para integração de dados e migração de dados. A função de um ETL é o processo de Extração de dados, Transformação e Carga conforme regras de negócios para um Data Mart ou um Data Warehouse, contudo, ETL pode ser aplicado a um processo de carga de qualquer base de dados.
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
Apresentar as principais funcionalidades do Software Moodle e como o mesmo pode ajudar na gestão de aprendizagem. Serão apresentadas todas as características do software: Fóruns Gestão de conteúdos (Recursos) Questionários e pesquisas com diversos formatos Blogs Wikis Geração e gestão de Base de Dados Sondagens Chat Glossários Suporte multi-idioma (mais de sessenta idiomas são suportados pelo interface atual)
Criando e consumindo webservice REST com PHP e JSON
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
1. PostgreSQL
em um Ambiente Híbrido de Big Data Analytics
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2.
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador e CEO da Ambiente Livre Tecnologia.
● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e
MongoDB.
3.
Sobre a Ambiente Livre
● Fundada em 2004 com foco de atuar em
consultoria com software livre.
● 2009 ampliou sua soluções para atender ao
mercado de gestão empresarial com software
livre.
● Tem 14 soluções distintas para geração de
negócios com software livre.
10.
IoT- Internet of Things
● Internet das Coisas se aplica a comunicação
entre objetos e entre estes e a internet, sejam
eles físicos ou virtuais.
11.
Elementos do IOT
● Rede de sensores sem fio (RSSF);
● Radio Frequency Identification (RFID);
● Gateway;
● Banco de dados;
● Protocolos de rede;
● Gerência de processos;
● Gerência de rede.
15.
Os 4 V's
● Velocidade, Volume, Variedade e Valor
16.
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
18.
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
19.
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
20.
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
21.
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
22.
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
23.
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
28.
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
33.
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
39.
PostgreSQL
em nossos Projetos
● Datawarehouse em Projetos de BI
● Bases de negócios Transacionais ( Telefonia,
Monitoramento com Zabbix , Redes de
Supemercados, Redes de Varejo )
● Sistema de Gestão de Simuladores de
Transito Brasileiro ( MySQL com PostgreSQL )
● Sistemas bancários de analise de crédito
41.
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
42.
HBase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
43.
Hive
● Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
44.
PIG
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
45.
Mahout
● O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
● Diversidade de algorítimos
46.
Sqoop
● Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
47.
Apache Spark
● 100x mais rápido que Hadoop
● Programação com Scala,
Java, Python ou R
48.
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
49.
MongoDB
● MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
50.
Titan Grafh
● É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
51.
BigSQL
● Projeto Hibrido de Integração de Tecnologias
de Big Data com PostgreSQL
52.
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
58.
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
59.
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
60.
Big Data
● “Big Data hoje é o que era a
Linux em 1991. Sabemos que
será algo revolucionário, mas
não sabemos o quanto...”
Marcio Junior Vieira
61.
Contatos
● www.ambientelivre.com.br
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre ou @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre