Marcio Junior Vieira apresenta sobre dominando o Big Data com software livre. Ele discute o que é Big Data e os 4 V's (volume, velocidade, variedade e valor). Também apresenta ferramentas de software livre populares para Big Data como Hadoop, HDFS, MapReduce, HBase, Hive, PIG e Apache Spark.
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
O Kettle, também conhecido como Pentaho Data Integration é uma ferramenta de ETL Open Source. A mesma faz parte da suíte de Pentaho Business Intelligence para integração de dados e migração de dados. A função de um ETL é o processo de Extração de dados, Transformação e Carga conforme regras de negócios para um Data Mart ou um Data Warehouse, contudo, ETL pode ser aplicado a um processo de carga de qualquer base de dados.
Modelos de Processos de Software, Modelo Cascata (waterfall), Desenvolvimento incremental, Engenharia de Software Orientada a Reuso, Atividades do Processo, Especificação, Prototipação
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
O Kettle, também conhecido como Pentaho Data Integration é uma ferramenta de ETL Open Source. A mesma faz parte da suíte de Pentaho Business Intelligence para integração de dados e migração de dados. A função de um ETL é o processo de Extração de dados, Transformação e Carga conforme regras de negócios para um Data Mart ou um Data Warehouse, contudo, ETL pode ser aplicado a um processo de carga de qualquer base de dados.
Modelos de Processos de Software, Modelo Cascata (waterfall), Desenvolvimento incremental, Engenharia de Software Orientada a Reuso, Atividades do Processo, Especificação, Prototipação
Aula de introdução ao GitHub. Método tutorial.
Git para iniciantes. (push, pull, commit)
Sistema de Controle de Versão e Configuração
UTFPR Campo Mourão
Projeto Integrador I - 2015/2
Aula 2 - POO: Fundamentos da linguagem JavaDaniel Brandão
Aula 2 da disciplina Programação Orientada a Objetos, onde é apresentando o conceito inicial da linguagem JAVA, que será a base da aplicação prática na disciplina.
Data Con LA 2020
Description
Apache Druid is a cloud-native open-source database that enables developers to build highly-scalable, low-latency, real-time interactive dashboards and apps to explore huge quantities of data. This column-oriented database provides the microsecond query response times required for ad-hoc queries and programmatic analytics. Druid natively streams data from Apache Kafka (and more) and batch loads just about anything. At ingestion, Druid partitions data based on time so time-based queries run significantly faster than traditional databases, plus Druid offers SQL compatibility. Druid is used in production by AirBnB, Nielsen, Netflix and more for real-time and historical data analytics. This talk provides an introduction to Apache Druid including: Druid's core architecture and its advantages, Working with streaming and batch data in Druid, Querying data and building apps on Druid and Real-world examples of Apache Druid in action
Speaker
Matt Sarrel, Imply Data, Developer Evangelist
Slide da disciplina de linguagem de programação para a web do curso técnico em informática do IFPE - Campus Garanhuns. Apresenta como é realizada a criação de tabelas utilizando HTML
O que é business intelligence.
Esse é o conteúdo de uma palestra que eu deveria ter feito no dia 20/10/2009, mas por um motivo pessoal não consegui ministrar.
Nessa palestra falo um pouco sobre os conceitos de BI e suas ferramentas, etc.
Mais informações em
www.cetax.com.br
Obrigado,
Marco.
Top 5 Trending Business Intelligence Tools | EdurekaEdureka!
YouTube Link: https://youtu.be/eEwq_mPd1iI
Edureka BI Certification Training Courses: https://www.edureka.co/bi-and-visualization-certification-courses
Receiving insights and finding trends is absolutely critical for businesses to scale and adapt as the years go on. This is exactly what business intelligence does and the best thing about these software solutions is that their potential uses are practically unlimited.
Follow us to never miss an update in the future.
YouTube: https://www.youtube.com/user/edurekaIN
Instagram: https://www.instagram.com/edureka_learning/
Facebook: https://www.facebook.com/edurekaIN/
Twitter: https://twitter.com/edurekain
LinkedIn: https://www.linkedin.com/company/edureka
Castbox: https://castbox.fm/networks/505?country=in
Aula de introdução ao GitHub. Método tutorial.
Git para iniciantes. (push, pull, commit)
Sistema de Controle de Versão e Configuração
UTFPR Campo Mourão
Projeto Integrador I - 2015/2
Aula 2 - POO: Fundamentos da linguagem JavaDaniel Brandão
Aula 2 da disciplina Programação Orientada a Objetos, onde é apresentando o conceito inicial da linguagem JAVA, que será a base da aplicação prática na disciplina.
Data Con LA 2020
Description
Apache Druid is a cloud-native open-source database that enables developers to build highly-scalable, low-latency, real-time interactive dashboards and apps to explore huge quantities of data. This column-oriented database provides the microsecond query response times required for ad-hoc queries and programmatic analytics. Druid natively streams data from Apache Kafka (and more) and batch loads just about anything. At ingestion, Druid partitions data based on time so time-based queries run significantly faster than traditional databases, plus Druid offers SQL compatibility. Druid is used in production by AirBnB, Nielsen, Netflix and more for real-time and historical data analytics. This talk provides an introduction to Apache Druid including: Druid's core architecture and its advantages, Working with streaming and batch data in Druid, Querying data and building apps on Druid and Real-world examples of Apache Druid in action
Speaker
Matt Sarrel, Imply Data, Developer Evangelist
Slide da disciplina de linguagem de programação para a web do curso técnico em informática do IFPE - Campus Garanhuns. Apresenta como é realizada a criação de tabelas utilizando HTML
O que é business intelligence.
Esse é o conteúdo de uma palestra que eu deveria ter feito no dia 20/10/2009, mas por um motivo pessoal não consegui ministrar.
Nessa palestra falo um pouco sobre os conceitos de BI e suas ferramentas, etc.
Mais informações em
www.cetax.com.br
Obrigado,
Marco.
Top 5 Trending Business Intelligence Tools | EdurekaEdureka!
YouTube Link: https://youtu.be/eEwq_mPd1iI
Edureka BI Certification Training Courses: https://www.edureka.co/bi-and-visualization-certification-courses
Receiving insights and finding trends is absolutely critical for businesses to scale and adapt as the years go on. This is exactly what business intelligence does and the best thing about these software solutions is that their potential uses are practically unlimited.
Follow us to never miss an update in the future.
YouTube: https://www.youtube.com/user/edurekaIN
Instagram: https://www.instagram.com/edureka_learning/
Facebook: https://www.facebook.com/edurekaIN/
Twitter: https://twitter.com/edurekain
LinkedIn: https://www.linkedin.com/company/edureka
Castbox: https://castbox.fm/networks/505?country=in
Entenda o contexto da modelagem de software e sistemas, descubra a importância e as principais características da orientação a objetos, incluindo discussão de um case.
Seminário feito para a disciplina de Sistemas Distribuídos da Universidade Federal de São Paulo, ministrada pelo Prof. Dr. Arlindo Flávio da Conceição.
Texto sobre Big Data extraído do blog bigdatabrazil.blogspot.com com informações básicas sobre hadoop, mapreduce, hdfs e hive. Contém indicações de livros e links que detalham o assunto.
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
A palestra apresenta o conceito de data lakes e big data, e como estas arquiteturas são formadas para o armazenamento e consumo de grande volumes de dados, sua relação com as arquiteturas distribuídas como é o caso do ecosistema Hadoop e como o a suíte Pentaho pode ajudar na gestão e extração de informações para tomada de decisão com recursos de big data analitycs.
Palestra sobre Big Data e o ecossitema hadoop, com seus conceitos e suas ferramentas, incluindo trilhas de aprendizagem e algumas certificações ministrada online no Canal Coders In Rio: https://www.youtube.com/watch?v=-pCwSkNoRY4&t=1s
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
Palestra apresentada na CONFLOSS 2021
Resumo da palestra:
Apresentaremos como podemos usar e tratar dados para executa-los e capturar seus resultados de forma automatizada para automação corporativa de processos de IA ou ML usando as ferramenta Pentaho Data Integration e a Weka/PMI ( Pentaho Machine Intelligence) e um case será desenvolvido ao vivo.
Palestra apresentada no TDC 2018 - São Paulo com uma visão geral do Apache Flink e suas características , assim como uma comparação com apache Spark e Map Reduce e como montar um cluster com Flink.
Informações sobre treinamento em Apache Flnk acesse: http://www.ambientelivre.com.br/treinamento/hadoop/apache-flink.html
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
Nesta palestra será apresentado como podemos construir uma plataforma para geração de insights significativos usando apenas tecnologias open source e free softwares. Desafios do uso do Open Source e diferenciais competitivos e estratégicos. Serão detalhadas também questões técnicas da funções das ferramentas de integração de dados, carga de lotes, qualidade dos dados, segurança dos dados, estrutura distribuída, data warehouse, fluxo de dados em tempo real, processamento e visualização de dados todas open source para que possa se implementar uma plataforma Open Source para Data Science. Um destaque especial do uso do Pentaho nesta plataforma será abordado.
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
Palestra apresentada no TDC Florianópolis 2018 na Trilha Data Science.
AEL é o futuro das aplicação a partir de motores emergentes. Hoje você pode desenvolver visualmente o aplicativo para o motor Pentaho em um cluster Spark. À medida que surgem novas tecnologias, a AEL será implementada para outros motores, de modo que os desenvolvedores não precisam reescrever sua aplicação. Esta abordagem também permite que Cientistas de Dados usem das melhores praticas tecnologias sem conhecer detalhes mais aprofundados de arquiteturas de big data e consigam executar seu tratamento de dados com pouco esforço ( ou nenhum ) de codificação. Atualmente o Pentaho e a única ferramenta de ETL que implementa o conceito de AEL no mundo e me parece uma tendência clara.
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
Nesta palestra será apresentado como podemos construir uma plataforma para geração de insights significativos usando apenas tecnologias open source e free softwares. Desafios do uso do Open Source e diferenciais competitivos e estratégicos. Serão detalhadas também questões técnicas da funções das ferramentas de integração de dados, carga de lotes, qualidade dos dados, segurança dos dados, estrutura distribuída, data warehouse, fluxo de dados em tempo real, processamento e visualização de dados todas open source para que possa se implementar uma plataforma Open Source para Data Science. Um destaque especial do uso do Pentaho nesta plataforma será abordado.
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
Apresentar as principais funcionalidades do Software Moodle e como o mesmo pode ajudar na gestão de aprendizagem. Serão apresentadas todas as características do software: Fóruns Gestão de conteúdos (Recursos) Questionários e pesquisas com diversos formatos Blogs Wikis Geração e gestão de Base de Dados Sondagens Chat Glossários Suporte multi-idioma (mais de sessenta idiomas são suportados pelo interface atual)
Cientista de Dados – Dominando o Big Data com Software Livre
1. Cientista de Dados – Dominando o Big Data
com Software Livre
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2.
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
11.
Os 4 V's
● Velocidade, Volume, Variedade e Valor
12.
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
14.
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
15.
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
16.
O novo V: Veracidade
Veracidade refere-se a confiabilidade dos dados. Com muitas
formas de grandes qualidades e precisão dos dados são menos
controláveis (basta pensar em posts no Twitter com hash tags,
abreviações, erros de digitação e linguagem coloquial, bem como
a confiabilidade e a precisão do conteúdo), mas agora a
tecnologia permite-nos trabalhar com este tipo de dados .
18.
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
19.
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
20.
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
21.
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
25.
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
33.
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
34.
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
35.
Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
36.
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
38.
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
39.
Características do HDFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
● Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas
de arquivos do sistema operacional subjacente.
41.
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
42.
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
45.
HBase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
46.
Hive
● Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
47.
PIG
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
48.
Mahout
● O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
● Diversidade de algorítimos
49.
ZooKeeper
● Serviço de coordenação altamente disponível
e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a
construção de aplicações distribuídas.
50.
Sqoop
● Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
51.
Apache Spark
● 100x mais rápido que Hadoop
● Programação com Scala,
Java, Python ou R
●
52.
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
53.
Apache Hama
● Apache HamaTM é uma estrutura para análise de
Big Data, que usa o modelo de computação
paralela Synchronous Parallel (BSP), que foi
criada em 2012 como um projeto de nível superior
da Apache Software Foundation.
● Ele fornece não só modelo de programação BSP
pura, mas também vértice
e neurônio modelos de
programação centrada, inspirado
por Pregel e DistBelief do Google.
54.
Apacha CounchDB
● É um banco de dados de código-aberto
que foca na facilidade de uso e na filosofia
de ser "um banco de dados que abrange a Web"
● NoSQL, usa JSON para armazenar os dados,
● JavaScript como sua linguagem de consulta usando o
MapReduce, e HTTP como API1 .
● Facilidade na replicação.
● Cada banco de dados é uma coleção de documentos
independentes, e cada documento mantém seus
próprios dados e esquemas.
55.
MongoDB
● MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
56.
Titan Grafh
● É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
57.
Neo4J
● É um banco de dados gráfico open-source,
implementado em Java. Integrado, totalmente
com transacional e persistência Java.
Armazena dados estruturados de grafos ao
invés de tabelas.
● Neo4j é o banco de dados gráfico mais
popular.
58.
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
67.
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
68.
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
69.
Big Data
● “Big Data hoje é o que era a
Linux em 1991.
● Sabemos que será algo
revolucionário, mas não
sabemos o quanto...”