O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
Texto sobre Big Data extraído do blog bigdatabrazil.blogspot.com com informações básicas sobre hadoop, mapreduce, hdfs e hive. Contém indicações de livros e links que detalham o assunto.
Palestra sobre Big Data e o ecossitema hadoop, com seus conceitos e suas ferramentas, incluindo trilhas de aprendizagem e algumas certificações ministrada online no Canal Coders In Rio: https://www.youtube.com/watch?v=-pCwSkNoRY4&t=1s
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
Texto sobre Big Data extraído do blog bigdatabrazil.blogspot.com com informações básicas sobre hadoop, mapreduce, hdfs e hive. Contém indicações de livros e links que detalham o assunto.
Palestra sobre Big Data e o ecossitema hadoop, com seus conceitos e suas ferramentas, incluindo trilhas de aprendizagem e algumas certificações ministrada online no Canal Coders In Rio: https://www.youtube.com/watch?v=-pCwSkNoRY4&t=1s
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
BIG DATA, O PODER DA INFORMAÇÃO, SEUS CASOS DE USO E PRINCIPAIS ARQUITETURAS.
Palestra sobre o poder da Informação e como os dados estão revolucionando o mundo. Quais os principais casos de uso dos gigantes de Telecom e E-Comerce, e arquiteturas que eles utilizam.
A apresentação tem como objetivo demonstrar uma arquitetura para solução Big Data utilizando componentes Open Source, a mesma foi apresentada no TDC 2014 em Porto Alegre.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
Nem sempre é de interesse das empresas prender suas soluções de bigdata em serviços de cloud. Algumas empresa preferem ter autonomia tecnológica e construir sua solução própria solução de data Lake de forma agnóstica as clouds que utilizam. O objetivo dessa palestra é presentar por que algumas empresas fazem isso, quais os benefícios e desafios a serem enfrentados quando optamos por construir nosso data Lake usando Apache Hadoop. E nada mais interessante do que ter todas essas informações com base em um case real.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
BIG DATA, O PODER DA INFORMAÇÃO, SEUS CASOS DE USO E PRINCIPAIS ARQUITETURAS.
Palestra sobre o poder da Informação e como os dados estão revolucionando o mundo. Quais os principais casos de uso dos gigantes de Telecom e E-Comerce, e arquiteturas que eles utilizam.
A apresentação tem como objetivo demonstrar uma arquitetura para solução Big Data utilizando componentes Open Source, a mesma foi apresentada no TDC 2014 em Porto Alegre.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
Nem sempre é de interesse das empresas prender suas soluções de bigdata em serviços de cloud. Algumas empresa preferem ter autonomia tecnológica e construir sua solução própria solução de data Lake de forma agnóstica as clouds que utilizam. O objetivo dessa palestra é presentar por que algumas empresas fazem isso, quais os benefícios e desafios a serem enfrentados quando optamos por construir nosso data Lake usando Apache Hadoop. E nada mais interessante do que ter todas essas informações com base em um case real.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Esta sessão visa mostrar as ferramentas front-end do pacote de BI da Microsoft, com foco no SharePoint 2013. Apresentando cada uma das ferramentas, bem como, seus prós e contras em cada tipo de projeto. O conhecimento das ferramentas disponíveis vai lhe ajudar no processo de avaliação e escolha da ferramenta que será usada para exibir os dados do BI, seja de um CUBO OLAP, OLTP ou TABULAR.
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceDiego Nogare
Palestra realizada no Microsoft Insights Powered by TechEd. Veja os slides e conheça as novidades do SQL Server 2016 para Business Intelligence na prática e com incontáveis demos: Datazen, PowerBI, Polybase, integração JSON e R, novos pacotes SSIS para Blog Storage do Azure e HDInsight.
Industry leading
Build mission-critical, intelligent apps with breakthrough scalability, performance, and availability.
Security + performance
Protect data at rest and in motion. SQL Server is the most secure database for six years running in the NIST vulnerabilities database.
End-to-end mobile BI
Transform data into actionable insights. Deliver visual reports on any device—online or offline—at one-fifth the cost of other self-service solutions.
In-database advanced analytics
Analyze data directly within your SQL Server database using R, the popular statistics language.
Consistent experiences
Whether data is in your datacenter, in your private cloud, or on Microsoft Azure, you’ll get a consistent experience.
Apresentação sobre como utilizar as diferentes features da plataforma Microsoft em projetos de BI e as diferentes opções de visualização de informações podem ser usadas e em que cenários (Reporting Services, família Power, SharePoint, Performance Point, etc.).
SQL Server 2016 is now in review! The newest version promises to deliver new real-time, built-in advanced analytics, advanced security technology, hybrid cloud scenarios as well as amazing rich visualizations on mobile devices.
There are many great reasons to move to SQL 2016, however if you are still working on SQL Server 2005 you may have another good motivator - the end-of-life clock of SQL 2005 is ticking down and support is about to end April 12, 2016.
In this deck we review the significant licensing changes introduced with SQL 2012. If our experience as Microsoft's Gold Certified Member has taught us anything - it is one thing. During migrations many of our clients get outright lost when trying to figure out the number of licenses they have or need. This often leads to under-deployment, and subsequently serious compliance issues with Microsoft. And yes, in some cases over-deployment means big savings back to your department.
Business Intelligence, Data Visualization and Data ScienceDiego Nogare
Palestra de Business Intelligence, Data Visualization and Data Science para o PASS Chapter #SQLManiacs de São Paulo. Cobre assuntos como SQL Server, Analysis Services, Integration Services, Datazen, PowerBI, Azure Machine Learning, Linguagem R
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
Palestra apresentada no FISL 16 - Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação. Uma visão geral sobre Hadoop, Cassandra, MongoDB, noSQL, BI, Data Mining e Analitycs entre outros conceitos emergentes da área de governança de dados será repassada aos participantes.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
Como são as ferramentas mais utilizadas do ecossistema do Hadoop.
- Quem sou eu?
- O que é um BigData?
- Hadoop.
- Hadoop Yanr | Apache Storm
Fontes de informação:
Fontes de integração:
- Flume | Kafka | Sqoop
Camadas de armazenamento:
- HDFS | Hive
- HBase
- Cassandra
Camadas de processamento:
- Hadoop - MapReduce
Ferramentas de busca:
- Solr
Camada de análise:
- Pig | Apache Spark | GraphX | SparkMLLib
Ferramentas de análise:
- Apache mahout
Ferramentas de administração:
- Apache ambari | Oozie
Ferramentas de diagnóstico:
- Zookeeper
Ecossistema do Apache Hadoop
Conclusões
Dúvidas?
Contatos
Agradecimento
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
O objetivo é apresentar os conceitos e tecnologias de BigData e IOT aplicadas ao campo da engenharia. Atualmente temos diversos tipos de aplicações
que já utilizam essas tecnologia , é de grande importância que profissionais da área tenha uma visão de como aplicar essas tecnologias. Focaremos em
cases e aplicações práticas, apresentado cases reais em áreas como mobilidade urbana, planejamento de transito, monitoramento e segurança, arquitetura e o uso de
bigdata em smartcities entre outros tipos de aplicações.
palestra realizada no IEP - Institudo de Engenharia do Paraná no dia 29/10/2016
Resumo
A palestra oferece uma visão abrangente e aprofundada sobre como Big Data e IoT estão remodelando a forma como interagimos com o mundo ao nosso redor. Binhara compartilha seu conhecimento técnico e experiências práticas, demonstrando a aplicabilidade dessas tecnologias em diferentes contextos e enfatizando a necessidade de uma gestão de dados eficaz para extrair o máximo valor das informações. A apresentação não apenas destaca o potencial de Big Data e IoT para impulsionar inovações em diversos setores, mas também aborda os desafios associados, especialmente em termos de segurança e privacidade dos dados.
Descrição Detalhada
A apresentação inicia-se definindo o conceito de IoT como dispositivos conectados à internet que comunicam, armazenam e processam dados com mínima interferência humana. Essa integração entre dispositivos gera um volume imenso de dados, os quais, quando analisados e interpretados através de tecnologias de Big Data, como Hadoop, MapReduce, Mahout, entre outros, podem fornecer insights valiosos para tomadas de decisão mais assertivas.
Binhara enfatiza a Cadeia de Valor do Big Data, que inclui etapas como coleta, ingestão, limpeza, integração, análise e entrega de dados, e discute os desafios relacionados à segurança, privacidade e gerenciamento de dados. Ele também destaca a diversidade das fontes de dados, desde sensores até redes sociais, reforçando a ideia de que dados podem ser capturados de qualquer lugar, a qualquer momento.
O palestrante apresenta exemplos práticos de aplicação de Big Data e IoT, incluindo cidades inteligentes (Smart Cities), onde a tecnologia é aplicada para melhorar a gestão urbana, e o uso do Hadoop em grandes empresas como Yahoo e Facebook para processamento de dados em larga escala.
O aumento da complexidade e evolução dos softwares nos leva a querer melhores formas de consultar e inserir informações. Atualmente existem dois modelos de armazenamento de dados: noSQL e Relacional, o primeiro devido ao alto desempenho na manipulação de grandes quantias de dados está presente nas aplicações de empresas de sucesso mundial como as de redes sociais, e-commerce,etc, e o segundo amplamente utilizado por ser seguro e confiável. Diante dessas informações é comum ter dúvida de qual modelo utilizar. Nessa palestra você aprenderá sobre persistência poliglota que propõe a coexistência de vários modelos na mesma aplicação e demonstraremos um case de uso em um e-commerce.
Semelhante a Interoperabilidade com BigData Hadoop para Windows Azure (20)
Uma breve introdução ao Big Data e Inteligência Artificial.pptxAlessandro Binhara
A palestra "Uma breve introdução ao Big Data e Inteligência Artificial" aborda conceitos fundamentais, histórico e aplicações de Big Data e Inteligência Artificial (IA), destacando a importância dessas tecnologias no mundo atual e seu impacto em diversos setores. Inicia apresentando os palestrantes Leonardo de Souza Marques e Alessandro de Oliveira Binhara, profissionais com vasta experiência em dados, IA e sistemas computacionais.
A palestra destaca a evolução do Big Data, citando o aumento exponencial do volume de dados gerados, de 9 zettabytes em 2013 para 120 zettabytes em 2023, e a capacidade atual de processamento e análise de grandes volumes de dados, possibilitada pela computação em nuvem e avanços tecnológicos. Destaca-se a transformação digital em áreas como a genômica, onde o custo de sequenciamento de genes reduziu significativamente, permitindo avanços científicos e médicos.
Profissionais de dados são fundamentais nesse contexto, com a palestra elucidando as funções e a importância do cientista e do engenheiro de dados, além de apresentar dados salariais dos EUA para essas profissões em 2023. A discussão se estende para o mercado de Big Data, projetando um crescimento significativo para 2024, com o mercado de big data analytics alcançando $34956 bilhões.
Sobre a Inteligência Artificial, a palestra percorre desde suas bases filosóficas e matemáticas até aplicações modernas, como reconhecimento de padrões e aprendizado de máquina. Destaca marcos históricos da IA, como o Teste de Turing, a Conferência de Dartmouth, o desenvolvimento de sistemas especialistas, até avanços recentes em deep learning e linguagem natural processamento.
Aspectos técnicos são abordados, como a definição e funcionamento de neurônios artificiais, redes neurais, e o processo de treinamento de redes neurais, incluindo conceitos como feedforward, backpropagation e ajuste de pesos. A palestra também trata do aprendizado de máquina, diferenciando entre seus tipos (supervisionado, não supervisionado e por reforço) e destacando sua importância para o desenvolvimento de sistemas inteligentes.
O ChatGPT, desenvolvido pela OpenAI, é apresentado como exemplo de aplicação da IA, com ênfase em sua capacidade de gerar conversações realistas e aplicar conhecimentos em matemática e interpretação de imagem. A aplicação de IA em sistemas de recomendação é exemplificada pelo caso da Netflix, onde 75% das visualizações são baseadas em recomendações, evidenciando o impacto da tecnologia no entretenimento e na tomada de decisões comerciais.
A palestra conclui questionando a preparação das empresas para a integração da IA em suas operações e a abertura para perguntas, promovendo a discussão sobre o impacto das tecnologias apresentadas no futuro das organizações e da sociedade
As máquinas de aprendizado e sistemas de recomendação tem mudado o processo de como as pessoas compram produtos e serviços, aumentando, muitas vezes, em mais de 70% a assertividade do conteúdo que as pessoas buscam na internet.
Como a realidade virtual pode ser impactada pelo uso das tecnologias de inteligência artificial e como o comportamento do usuário pode ser completamente analisado.
No sentido literal é possível entender o que o usuário olha e o que ele sente.
As máquinas de aprendizado e sistemas de recomendação tem mudado o processo de como as pessoas compram produtos e serviços, aumentando, muitas vezes, em mais de 70% a assertividade do conteúdo que as pessoas buscam na internet.
Como a realidade virtual pode ser impactada pelo uso das tecnologias de inteligência artificial e como o comportamento do usuário pode ser completamente analisado.
No sentido literal é possível entender o que o usuário olha e o que ele sente.
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...Alessandro Binhara
O aumento da demanda por novos produtos e serviços pela sociedade abre perspectivas sobre crescimento e inovaçao nas empresas de maneira acentuada, apresentando-se como um requisito de sucesso na atual sociedade globalizada. As empresas que aprenderem a viver e respirar a inovação serão capazes de participar deste mundo globalizado de novas oportunidades. Neste contexto a gestão de projetos tecnológico inovadores torna-se vital para atingir com sucesso este objetivo.A demanda das empresa por produtos de software que atendam suas necessidades para atingir o mercado globalizado torna-se cada vez mais intenso e, neste sentido, produzir software com qualidade nos requitos de prazos, tempo e custo são vitais para o sucesso das empresas. A gestão de projetos de software com metodologias adequadas ao atual contexto tecnológico são essencias para a gestão de projetos tecnológicos inovadores. Metodologias de gerência de desenvolvimento de projeto de software como o RUP e outras tradicionalmente utilizadas tem se monstrado ineficientes na gestão de projetos inovadores com o atual contexto globalizado. Os projetos de software livre tem atingido um alto grau de sucesso, por serem capazes de gerir grande quantidade de pessoas, tratando problemas vindos do ambiente globalizado como distribuição de equipes, diferenças culturais, multidiciplinariedade e interdiciplinariedade através de seu funcionamento participativo em uma cmunidade de indivíduos, voltados para a prática e a interação entre seus membros. Para obervar melhor o que ocorre neste tipo de projeto, foi realizado o estudo de caso de um projeto de software livre de sucesso, o Projeto MONO. Realizou-se uma análise de dados que visa encontrar elementos de participação que apresentem indicadores sobre como a comunidade envolvida no projeto se comporta, e de que forma esta nova forma de gestão interfere no processo de desenvolvimento. Desta analise, pode-se apresentar ferramentas, metricas e mecanimos que auxiliam na gestão de projeto tecnológicos inovadores
Introdução a Robótica
Construção e operação de Robôs
Estimulo do raciocínio lógico e matemática para solução de problemas.
Montagem de um carro Bot
Montagem de um Braço Robótico
Atividades com realidade virtual
Construção de um óculos de realidade virtual
E várias outras atividades divertidas.
Esta palestra é voltada a desenvolvedores e gerentes que desejam conhecer todos os recursos que a plataforma Xamarin pode oferecer dentro do Visual Studio. Conhecendo desde o re-uso de código legado, re-uso de código nativo, xamarin.forms para re-uso de GUI, BuildServer, profiler, gestão de código, automação de teste, deploy automatizado, rastramento e monitoramento de apps.
Games um dos mercados bilionários da área de tecnologia. Atualmente empresas com jogos simples desenvolvidos com 1 ou 2 pessoas tem feito sucesso enorme e faturado milhões como por exemplo o jogo Angry Birds, recentemente um desenvolvedor causou irá de seus usuários ao retirar o jogo TapBird, alegando que já estava cansado de desenvolver e que o faturamento de 50mil dólares por dia já não o interessava mais. Venha conhecer as ferramentas mais avançadas da atualidade como MonoGame e Unity, e entender como entrar nesse mercado milionário.
Games Imersivos são a nova onda do momento com várias empresas lançando dispositivos para esse fim. Venha conhecer nessa palestra as principais ferramentas e possibilidades para criar novas experiencias para os usuários em ambientes de realidade virtual
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.
3. Agenda
O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
4.
5. Por que??? BigData ??? CloudComputing??
Em 2001 : Centenas de milhares de dólares para
sequenciar um Gene
Atualmente: menos de 6 mil dólares por Gene
Atualmente o sequenciamento gerar cerca de
50petabyte de dados.
1 semana para decodificar 1 Gene
Atualmente: Se Faz o sequenciamento de 100 Gene
por dia
7. O que é Um Cientista de Dados ?
O cientista de dados é um especialista em análise de
informações. A característica mais importante desse
profissional, portanto, é a capacidade analítica. Por isso,
quem tem uma sólida formação em matemática e lógica,
como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
“Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito para
preencher a lacuna", diz o professor Renato Souza,
responsável pelo mestrado de modelagem matemática da
informação, da Fundação Getulio Vargas do Rio de Janeiro
(FGV-RJ), lançado em 2011. Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.
9. Não confunda os conceitos
CloudComputing – computação em nuvem
BigData – Armazenamento e Processamento de Grandes
Volumes de Dados
BI Businnes Inteligence – Apresentar a informações de
forma clara, sendo a fonte de inteligencia para os
negocios
Cientista de Dados – é a pessoa capaz de orquestrar todos
esses conceitos apresentando o valor que a empresa quer
das informações
10.
11. O que é Hadoop ?
O Apache Hadoop é um projeto desenvolvimento como
open-source software para escalável , confiável e com
processamento distribuído. Um sistema escalável e
confiável para armazenamento compartilhado e análises.
Ele automaticamente trata da replicação de dados e das
falhas em cada nó. Ele faz o trabalho duro, o
desenvolvedor pode se concentrar em processamento da
lógica de dados Permite que os aplicativos usem petabytes
de dados em paralelo.
12. Por que ?
Requisitos
500M+ usuário únicos por mês
Bilhões de eventos interessantes por
dia
Necessidade de scalabilidade massiva
PB’s de storage, milhares de
arquivos, 1000’s de nós
Necessidade de ter baixo custo
Uso de hardware comum
Compartilhar recursos com vários
projetos
Fornecer escala quando necessário
Precisa de infraestrutura
confiável
Deve ser capaz de lidar com falhas
- hardware, software, networking
A falha é esperada, e não uma
exceção
Transparente para as aplicações
muito caro para construir
confiabilidade em cada aplicação
A infra-estrutura do Hadoop
prove essas capacidade.
13. Características
Um sistema escalável e confiável para armazenamento
compartilhado e análises.
Ele automaticamente trata da replicação de dados e da
falhas em cada nó.
Ele faz o trabalho duro - desenvolvedor pode se
concentrar em processamento da lógica de dados
Permite que os aplicativos usem petabytes de dados em
paralelo
14. Eco Sistema
Hadoop Core
Distributed File System
MapReduce Framework
Pig (criado pelo Yahoo!)
Parallel Programming Language e Runtime
Hbase (criado pelo Powerset)
Table storage for semi-structured data
Zookeaper (criado pelo Yahoo!)
Coordinating distributed systems
Hive (criado pelo Facebook)
SQL-like query language and metastore
15. Hadoop no FaceBook
Cluster em produção
4800 cores, 600 máquina, 16GB por máquina – Abril/2009
8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009
4 SATA discos de 1 TB por máquina
2 níveis de rede hierarquica, 40 máquinas por rack
Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB
raw storage.
Atualmente eles moveram 30PB de para um novo Cluster
Todos os dias o Facebook recebe 380milhões de novas fotos
16. Cluster no Yahoo
É investidor da HortonWorks
Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
17. HDFS – Hadoop File System
Inspirado em GFS
Projetado para
trabalhar com arquivos
muito grandes
Executado
em hardware commodity
Streaming de acesso a
dados
Replicação e localidade
19. O que é MapReduce
MapReduce é um modelo de programação e
implementação associados para o processamento e
geração de grandes conjuntos de dados (Jeffrey Dean e
Sanjay Ghemawat, 2004)
A ideia tem mais de 40 anos
Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
Processamento de dados base em batch
A abstração limpa para programadores
Paralelização automática e distribuição
Tolerância a falhas
20. Exemplo Simplifica de Map/Reduce
map (String key, String value):
// key: nome documento
// value: Conteudo documento
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a palavra
// values: a lista de valores
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
23. HDP: Enterprise Hadoop Distribution
Hortonworks
Data Platform (HDP)
Enterprise Hadoop
A única 100% open source e
completa
Classe empresarial, provado e
testado em escala
Ecossistema endossado para
garantir a interoperabilidade
24. Uso Comum do Hadoop
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
25. Demonstração HortonWorks
Gera sentimento em relação o IronMan 3
Coleta do Stream do Twitter
Dados do Twiter são salvos pelo flume no hadoop
Com uma tabela de classificação de sentimento
É processada a base e gerar informações a respeito do filme
26.
27. Por que Hadoop no Windows
De acordo com a IDC Windows Server tem 73% em 2012
Hadoop foi tradicionalmente construído para servidores Linux de
forma que há um grande número de organizações carentes
De acordo com o estudo de 2012 Barclays CIO big data supera
Virtualização como tendência N º 1 iniciativas de gastos
Crescimento de dados não estruturados superior a 80% ano / ano
na maioria das empresas
Apache Hadoop é a plataforma de dados defato grande. Para o
processamento de grandes quantidades de dados não estruturados
Complementar às tecnologias existentes da Microsoft
Há uma enorme comunidade de desenvolvedores do Windows
inexplorado e parceiros do ecossistema
Forte parceria Microsoft-Hortonworks e 18 meses de
desenvolvimento
28. HortonWorks Data Platform for Windows
HDP é a primeira e únição hadoop para Windows e Linux
Empresa de suporte Apache Hadoop no Windows
Permite mesma experiência para Hadoop no Windows e Linux
Mais parceiros, mais desenvolvedores para Hadoop
Nativa Apache Hadoop disponível para o Windows ecossistema
Mais opções para o Windows focada organizações
Hortonworks foco: Empresa Apache Hadoop para todas as
plataformas
Distribuição pronta para produção confiável Confiável para on-premise
Hadoop em implantações do Windows
Construído com investimentos conjuntos e com contribuições da
Microsoft
Relacionamento engenharia profunda garante integração e desempenho
máximo
29. Interoperability com Microsoft Tools
Integrado com ferramentas da Microsoft
para análise de dados grande nativa
Conectores bidirecionais para SQL Server e
SQL Azure através Sqoop
Integração ODBC Excel através Hive
Dirigindo-se a demanda por Hadoop no
Windows
Ideal para clientes Windows com? Hadoop
experiência operacional
Permite que as cargas de trabalho do
Hadoop mais comuns na empresa
Refinamento de dados e ETL para
descarregar? De grande volume de dados de
desembarque
Exploração de dados para a descoberta de
novas oportunidades de negócios
Enriquecimento de dados para entrega
sintonizado multado e mecanismos de
recomendação
30.
31. Por dentro do HDP for Windows
Hortonworks
Data Platform (HDP)
For Windows
100% Open Source Enterprise
Hadoop
Component and version
compatible with HDInsight
Availability
Beta release available now
GA early 2Q 2013
32. Treinamentos
Presencias, On-line e Semipresenciais
Curso: Apache Hadoop Essencial
(8horas )
Curso: Introdução ao Futuro Cientista
de Dados (8h)
Curso: DataScientist e BigData for
Bussines (16h)
Curso: Apache Hadoop Fundamental
(24h)
Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
Treinamento Apache Sqoop (8h)
Treinamento Apache Cassandra (16h)
Treinamento HBase (16h)
Treinamento Hive (16h)
Treimento Mahout (16h)
Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
Curso de Splunk (16h)
Curso Pig e Pig Latin (16h)
Curos de Programaçao em MapReduce
com Java e C# (16h)
Curso de Flume (16h)
51. Maximise sua escolha para o Hadoop
Use HDP para Windows para no local de implantação no Windows Server
Ideal para usuários de Windows com experiência Hadoop
Perfeito próximo passo para aqueles que estão prontos para se deslocar de POC
para produção
Use HDInsight para Microsoft ferramentas e gerenciamento e
provisionamento
Serviço HDInsight que oferece todos os benefícios do Windows Azure (por exemplo,
elasticidade e de baixo custo) - disponível em Visualizar hoje
HDInsight Servidor para a plena integração do Hadoop com ferramentas da
Microsoft no local - Developer Preview disponível hoje
Escolha completa interoperabilidade e implantação em todas as
plataformas
Implementar aplicações de dados grandes que funcionam on-premise e nuvem
Ao alavancar open source HDP, permite a interoperabilidade transparente entre
ambientes: Linux, Windows, Windows Azure
53. Sistema de Recomendação
Sistema de Recomendação de Produtos
Vitrines inteligentes para lojas online
Aumento em 60% o volume de faturamento das lojas
Cluster com 70nós
Mais de 1.5 milhões de transações por segundo
54. Case Uniter
45 mil alunos
Crescimento da Base 1GB por dia
Preocessamento do dados 2 semanas
Com upload para cloud diários 1 hora
Processamento em 12 maquinas com PIG
Tempo de processamento baixou para 1 horas por
dia
57. Captura e Processamento dos Vídeos
As imagens são capturadas e processadas em
tempo real.
Podemos notar as marcações realizadas pelo
software de análise.
Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
Velocidade acima de 10% do limite
Velocidade acima de 20% do limite
Avanço de Sinal
Caminhão fora de horário
Sobre a faixa de pedestre
62. Etapa 6 – Construção dos relatórios
Foram construídos uma série de relatórios:
Número de Eventos por câmera
Número de Eventos por mês
Numero de Eventos por semana
Número de eventos por Infrações
Por tipo de evento
Por Posição geográfica no mapa