SlideShare uma empresa Scribd logo
1 de 68
Baixar para ler offline
Interoperabilidade com
BigData Hadoop para
Windows Azure
Alessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
Agenda
 O que é BigData e BI ?
 O que é um Cientista de Dados ?
 O que é Hadoop ?
 O que é a HortonWoks Haddoop ?
 Criando um Cluster Hadoop no Windows Azure?
 Integrando com Power BI
 Apresentação de Case de uso.
Por que??? BigData ??? CloudComputing??
 Em 2001 : Centenas de milhares de dólares para
sequenciar um Gene
 Atualmente: menos de 6 mil dólares por Gene
 Atualmente o sequenciamento gerar cerca de
50petabyte de dados.
 1 semana para decodificar 1 Gene
 Atualmente: Se Faz o sequenciamento de 100 Gene
por dia
O que é BigData ?
O que é Um Cientista de Dados ?
 O cientista de dados é um especialista em análise de
informações. A característica mais importante desse
profissional, portanto, é a capacidade analítica. Por isso,
quem tem uma sólida formação em matemática e lógica,
como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
 “Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito para
preencher a lacuna", diz o professor Renato Souza,
responsável pelo mestrado de modelagem matemática da
informação, da Fundação Getulio Vargas do Rio de Janeiro
(FGV-RJ), lançado em 2011. Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.
Curiosidades sobre ZetaBytes
Não confunda os conceitos
 CloudComputing – computação em nuvem
 BigData – Armazenamento e Processamento de Grandes
Volumes de Dados
 BI Businnes Inteligence – Apresentar a informações de
forma clara, sendo a fonte de inteligencia para os
negocios
 Cientista de Dados – é a pessoa capaz de orquestrar todos
esses conceitos apresentando o valor que a empresa quer
das informações
O que é Hadoop ?
 O Apache Hadoop é um projeto desenvolvimento como
open-source software para escalável , confiável e com
processamento distribuído. Um sistema escalável e
confiável para armazenamento compartilhado e análises.
Ele automaticamente trata da replicação de dados e das
falhas em cada nó. Ele faz o trabalho duro, o
desenvolvedor pode se concentrar em processamento da
lógica de dados Permite que os aplicativos usem petabytes
de dados em paralelo.
Por que ?
 Requisitos
 500M+ usuário únicos por mês
 Bilhões de eventos interessantes por
dia
 Necessidade de scalabilidade massiva
 PB’s de storage, milhares de
arquivos, 1000’s de nós
 Necessidade de ter baixo custo
 Uso de hardware comum
 Compartilhar recursos com vários
projetos
 Fornecer escala quando necessário
 Precisa de infraestrutura
confiável
 Deve ser capaz de lidar com falhas
- hardware, software, networking
 A falha é esperada, e não uma
exceção
 Transparente para as aplicações
 muito caro para construir
confiabilidade em cada aplicação
 A infra-estrutura do Hadoop
prove essas capacidade.
Características
 Um sistema escalável e confiável para armazenamento
compartilhado e análises.
 Ele automaticamente trata da replicação de dados e da
falhas em cada nó.
 Ele faz o trabalho duro - desenvolvedor pode se
concentrar em processamento da lógica de dados
 Permite que os aplicativos usem petabytes de dados em
paralelo
Eco Sistema
 Hadoop Core
 Distributed File System
 MapReduce Framework
 Pig (criado pelo Yahoo!)
 Parallel Programming Language e Runtime
 Hbase (criado pelo Powerset)
 Table storage for semi-structured data
 Zookeaper (criado pelo Yahoo!)
 Coordinating distributed systems
 Hive (criado pelo Facebook)
 SQL-like query language and metastore
Hadoop no FaceBook
 Cluster em produção
 4800 cores, 600 máquina, 16GB por máquina – Abril/2009
 8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009
 4 SATA discos de 1 TB por máquina
 2 níveis de rede hierarquica, 40 máquinas por rack
 Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
 Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB
raw storage.
 Atualmente eles moveram 30PB de para um novo Cluster
 Todos os dias o Facebook recebe 380milhões de novas fotos
Cluster no Yahoo
 É investidor da HortonWorks
 Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
HDFS – Hadoop File System
 Inspirado em GFS
 Projetado para
trabalhar com arquivos
muito grandes
 Executado
em hardware commodity
 Streaming de acesso a
dados
 Replicação e localidade
HDFS- MapReduce Data Flow
O que é MapReduce
 MapReduce é um modelo de programação e
implementação associados para o processamento e
geração de grandes conjuntos de dados (Jeffrey Dean e
Sanjay Ghemawat, 2004)
 A ideia tem mais de 40 anos
 Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
 Processamento de dados base em batch
 A abstração limpa para programadores
 Paralelização automática e distribuição
 Tolerância a falhas
Exemplo Simplifica de Map/Reduce
map (String key, String value):
// key: nome documento
// value: Conteudo documento
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a palavra
// values: a lista de valores
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
Funcionamento do Map/Reduce
Arquitetura Moderna
HDP: Enterprise Hadoop Distribution
Hortonworks
Data Platform (HDP)
Enterprise Hadoop
 A única 100% open source e
completa
 Classe empresarial, provado e
testado em escala
 Ecossistema endossado para
garantir a interoperabilidade
Uso Comum do Hadoop
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
Demonstração HortonWorks
 Gera sentimento em relação o IronMan 3
 Coleta do Stream do Twitter
 Dados do Twiter são salvos pelo flume no hadoop
 Com uma tabela de classificação de sentimento
 É processada a base e gerar informações a respeito do filme
Por que Hadoop no Windows
 De acordo com a IDC Windows Server tem 73% em 2012
 Hadoop foi tradicionalmente construído para servidores Linux de
forma que há um grande número de organizações carentes
 De acordo com o estudo de 2012 Barclays CIO big data supera
Virtualização como tendência N º 1 iniciativas de gastos
 Crescimento de dados não estruturados superior a 80% ano / ano
na maioria das empresas
 Apache Hadoop é a plataforma de dados defato grande. Para o
processamento de grandes quantidades de dados não estruturados
 Complementar às tecnologias existentes da Microsoft
 Há uma enorme comunidade de desenvolvedores do Windows
inexplorado e parceiros do ecossistema
 Forte parceria Microsoft-Hortonworks e 18 meses de
desenvolvimento
HortonWorks Data Platform for Windows
 HDP é a primeira e únição hadoop para Windows e Linux
 Empresa de suporte Apache Hadoop no Windows
 Permite mesma experiência para Hadoop no Windows e Linux
 Mais parceiros, mais desenvolvedores para Hadoop
 Nativa Apache Hadoop disponível para o Windows ecossistema
 Mais opções para o Windows focada organizações
 Hortonworks foco: Empresa Apache Hadoop para todas as
plataformas
 Distribuição pronta para produção confiável Confiável para on-premise
Hadoop em implantações do Windows
 Construído com investimentos conjuntos e com contribuições da
Microsoft
 Relacionamento engenharia profunda garante integração e desempenho
máximo
Interoperability com Microsoft Tools
 Integrado com ferramentas da Microsoft
para análise de dados grande nativa
 Conectores bidirecionais para SQL Server e
SQL Azure através Sqoop
 Integração ODBC Excel através Hive
 Dirigindo-se a demanda por Hadoop no
Windows
 Ideal para clientes Windows com? Hadoop
experiência operacional
 Permite que as cargas de trabalho do
Hadoop mais comuns na empresa
 Refinamento de dados e ETL para
descarregar? De grande volume de dados de
desembarque
 Exploração de dados para a descoberta de
novas oportunidades de negócios
 Enriquecimento de dados para entrega
sintonizado multado e mecanismos de
recomendação
Por dentro do HDP for Windows
 Hortonworks
Data Platform (HDP)
 For Windows
 100% Open Source Enterprise
Hadoop
 Component and version
compatible with HDInsight
 Availability
 Beta release available now
 GA early 2Q 2013
Treinamentos
Presencias, On-line e Semipresenciais
 Curso: Apache Hadoop Essencial
(8horas )
 Curso: Introdução ao Futuro Cientista
de Dados (8h)
 Curso: DataScientist e BigData for
Bussines (16h)
 Curso: Apache Hadoop Fundamental
(24h)
 Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
 Treinamento Apache Sqoop (8h)
 Treinamento Apache Cassandra (16h)
 Treinamento HBase (16h)
 Treinamento Hive (16h)
 Treimento Mahout (16h)
 Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
 Curso de Splunk (16h)
 Curso Pig e Pig Latin (16h)
 Curos de Programaçao em MapReduce
com Java e C# (16h)
 Curso de Flume (16h)
Criando Cluster
no Azure
O que é windows Azure
 É plataforma de hardware e Software da microsoft
Data Center Azure
HDInsight – Hadoop Eco System
Azure Blob
Criando seu Cluster Hadoop no Azure
Definido o Tamanho do Cluster
Interface Administrativa
Interface Administrativa
Interface Administrativa
InterFace Hive
Jobs
Job Info
Exemplo de Hadoop no Azure
Map Reduce em C#
Map
Reduce
Maximise sua escolha para o Hadoop
 Use HDP para Windows para no local de implantação no Windows Server
 Ideal para usuários de Windows com experiência Hadoop
 Perfeito próximo passo para aqueles que estão prontos para se deslocar de POC
para produção
 Use HDInsight para Microsoft ferramentas e gerenciamento e
provisionamento
 Serviço HDInsight que oferece todos os benefícios do Windows Azure (por exemplo,
elasticidade e de baixo custo) - disponível em Visualizar hoje
 HDInsight Servidor para a plena integração do Hadoop com ferramentas da
Microsoft no local - Developer Preview disponível hoje
 Escolha completa interoperabilidade e implantação em todas as
plataformas
 Implementar aplicações de dados grandes que funcionam on-premise e nuvem
 Ao alavancar open source HDP, permite a interoperabilidade transparente entre
ambientes: Linux, Windows, Windows Azure
Cases !
Sistema de Recomendação
 Sistema de Recomendação de Produtos
 Vitrines inteligentes para lojas online
 Aumento em 60% o volume de faturamento das lojas
 Cluster com 70nós
 Mais de 1.5 milhões de transações por segundo
Case Uniter
 45 mil alunos
 Crescimento da Base 1GB por dia
 Preocessamento do dados 2 semanas
 Com upload para cloud diários 1 hora
 Processamento em 12 maquinas com PIG
 Tempo de processamento baixou para 1 horas por
dia
Sistema
BigData China
Arquitetura
ODBC
DRIVER
HBASE
HDFS
HCATOLOG
MAPREDUCE
HIVE
PIG
Apache
Tomcat
WEB Service
StarGATE
EXCEL
FLUME
Server Local
De Captura
Server Local
De Captura
Server Local
De Captura
Captura e Processamento dos Vídeos
 As imagens são capturadas e processadas em
tempo real.
 Podemos notar as marcações realizadas pelo
software de análise.
 Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
 Velocidade acima de 10% do limite
 Velocidade acima de 20% do limite
 Avanço de Sinal
 Caminhão fora de horário
 Sobre a faixa de pedestre
Etapa 2 – Transmissão Via WebServices
Gravando dados no Hadoop
Etapa 5 - Consulta dos dados
 Usando PowerPivot , geramos os relatórios que são consultas diretamente na
base do HBASE , via ODBC da HortonWorks.
Tabelas do HBase vista pelo Excel via
ODBC
Etapa 6 – Construção dos relatórios
 Foram construídos uma série de relatórios:
 Número de Eventos por câmera
 Número de Eventos por mês
 Numero de Eventos por semana
 Número de eventos por Infrações
 Por tipo de evento
 Por Posição geográfica no mapa
Exemplo de Relatório
 asd
Exemplo de Relatório
 asd
Exemplo de Relatório
 asd
Exemplo de Relatório
 asd
Fotos Georeferenciados
Perguntas ???
Binhara@azuris.com.br
@binhara
www.azuris.com.br

Mais conteúdo relacionado

Mais procurados

TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...José Renato Pequeno
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Thiago Santiago
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e HadoopThiago Santiago
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoThiago Santiago
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Felipe Schimith Batista
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemOtávio Carvalho
 

Mais procurados (20)

Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Seminário Hadoop
Seminário HadoopSeminário Hadoop
Seminário Hadoop
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e Hadoop
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Hadoop
HadoopHadoop
Hadoop
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
 

Destaque

Workshop SQL Server 2012
Workshop SQL Server 2012Workshop SQL Server 2012
Workshop SQL Server 2012Viviane_ribeiro
 
Sql saturday325
Sql saturday325Sql saturday325
Sql saturday325demetrioi
 
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceTechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceDiego Nogare
 
Criando um baseline de seu ambiente completo utilizando ssis e ssrs
Criando um baseline de seu ambiente completo utilizando ssis e ssrsCriando um baseline de seu ambiente completo utilizando ssis e ssrs
Criando um baseline de seu ambiente completo utilizando ssis e ssrsMarcos Freccia
 
Microsoft SQL Server 2016 - Everything Built In
Microsoft SQL Server 2016 - Everything Built InMicrosoft SQL Server 2016 - Everything Built In
Microsoft SQL Server 2016 - Everything Built InDavid J Rosenthal
 
BI - Padrões de arquitetura e uso recursos
BI - Padrões de arquitetura e uso recursosBI - Padrões de arquitetura e uso recursos
BI - Padrões de arquitetura e uso recursosGiulianoCardoso
 
Everything you need to know about SQL Server 2016
Everything you need to know about SQL Server 2016Everything you need to know about SQL Server 2016
Everything you need to know about SQL Server 2016Softchoice Corporation
 
Business Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data ScienceBusiness Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data ScienceDiego Nogare
 
SQL Server 2016 SSRS and BI
SQL Server 2016 SSRS and BISQL Server 2016 SSRS and BI
SQL Server 2016 SSRS and BIMSDEVMTL
 
SQL server 2016 New Features
SQL server 2016 New FeaturesSQL server 2016 New Features
SQL server 2016 New Featuresaminmesbahi
 
Ssis 2016 RC3
Ssis 2016 RC3Ssis 2016 RC3
Ssis 2016 RC3MSDEVMTL
 

Destaque (12)

Ms & sap
Ms & sapMs & sap
Ms & sap
 
Workshop SQL Server 2012
Workshop SQL Server 2012Workshop SQL Server 2012
Workshop SQL Server 2012
 
Sql saturday325
Sql saturday325Sql saturday325
Sql saturday325
 
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceTechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
 
Criando um baseline de seu ambiente completo utilizando ssis e ssrs
Criando um baseline de seu ambiente completo utilizando ssis e ssrsCriando um baseline de seu ambiente completo utilizando ssis e ssrs
Criando um baseline de seu ambiente completo utilizando ssis e ssrs
 
Microsoft SQL Server 2016 - Everything Built In
Microsoft SQL Server 2016 - Everything Built InMicrosoft SQL Server 2016 - Everything Built In
Microsoft SQL Server 2016 - Everything Built In
 
BI - Padrões de arquitetura e uso recursos
BI - Padrões de arquitetura e uso recursosBI - Padrões de arquitetura e uso recursos
BI - Padrões de arquitetura e uso recursos
 
Everything you need to know about SQL Server 2016
Everything you need to know about SQL Server 2016Everything you need to know about SQL Server 2016
Everything you need to know about SQL Server 2016
 
Business Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data ScienceBusiness Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data Science
 
SQL Server 2016 SSRS and BI
SQL Server 2016 SSRS and BISQL Server 2016 SSRS and BI
SQL Server 2016 SSRS and BI
 
SQL server 2016 New Features
SQL server 2016 New FeaturesSQL server 2016 New Features
SQL server 2016 New Features
 
Ssis 2016 RC3
Ssis 2016 RC3Ssis 2016 RC3
Ssis 2016 RC3
 

Semelhante a Interoperabilidade com BigData Hadoop para Windows Azure

Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesAlessandro Binhara
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaAlessandro Binhara
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Finaljcaroso
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 

Semelhante a Interoperabilidade com BigData Hadoop para Windows Azure (20)

Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Big Data
Big DataBig Data
Big Data
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  Aplicações
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Persitência Poliglota TDC Recife 2019
Persitência Poliglota TDC Recife 2019Persitência Poliglota TDC Recife 2019
Persitência Poliglota TDC Recife 2019
 

Mais de Alessandro Binhara

Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxAlessandro Binhara
 
Latinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jediLatinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jediAlessandro Binhara
 
2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtual2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtualAlessandro Binhara
 
Realidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinowareRealidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinowareAlessandro Binhara
 
Realidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de DadosRealidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de DadosAlessandro Binhara
 
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...Alessandro Binhara
 
Introduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebIntroduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebAlessandro Binhara
 
Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.Alessandro Binhara
 
Curso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto BasicoCurso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto BasicoAlessandro Binhara
 
Apresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasicApresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasicAlessandro Binhara
 
App CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhoneApp CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhoneAlessandro Binhara
 
Xamarin Interop - hands on android -
Xamarin Interop - hands on android - Xamarin Interop - hands on android -
Xamarin Interop - hands on android - Alessandro Binhara
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 

Mais de Alessandro Binhara (20)

Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
 
Latinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jediLatinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jedi
 
2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtual2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtual
 
Realidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinowareRealidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinoware
 
Realidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de DadosRealidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de Dados
 
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
 
Curso de Férias - Robótica
Curso de Férias -  Robótica Curso de Férias -  Robótica
Curso de Férias - Robótica
 
Introduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebIntroduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação Web
 
Xamarin plataform
Xamarin plataformXamarin plataform
Xamarin plataform
 
Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.
 
Games imersivos
Games imersivosGames imersivos
Games imersivos
 
Abertura - interopmix2014
Abertura - interopmix2014Abertura - interopmix2014
Abertura - interopmix2014
 
Curso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto BasicoCurso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto Basico
 
Treinamento csharp mono
Treinamento csharp monoTreinamento csharp mono
Treinamento csharp mono
 
Int305 projeto mono-final
Int305 projeto mono-finalInt305 projeto mono-final
Int305 projeto mono-final
 
Apresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasicApresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasic
 
App CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhoneApp CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhone
 
Xamarin Interop - hands on android -
Xamarin Interop - hands on android - Xamarin Interop - hands on android -
Xamarin Interop - hands on android -
 
Quarto Encontro GUX
Quarto Encontro GUX Quarto Encontro GUX
Quarto Encontro GUX
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 

Interoperabilidade com BigData Hadoop para Windows Azure

  • 1.
  • 2. Interoperabilidade com BigData Hadoop para Windows Azure Alessandro de Oliveira Binhara Data Scientist – Horton Works System Integrator
  • 3. Agenda  O que é BigData e BI ?  O que é um Cientista de Dados ?  O que é Hadoop ?  O que é a HortonWoks Haddoop ?  Criando um Cluster Hadoop no Windows Azure?  Integrando com Power BI  Apresentação de Case de uso.
  • 4.
  • 5. Por que??? BigData ??? CloudComputing??  Em 2001 : Centenas de milhares de dólares para sequenciar um Gene  Atualmente: menos de 6 mil dólares por Gene  Atualmente o sequenciamento gerar cerca de 50petabyte de dados.  1 semana para decodificar 1 Gene  Atualmente: Se Faz o sequenciamento de 100 Gene por dia
  • 6. O que é BigData ?
  • 7. O que é Um Cientista de Dados ?  O cientista de dados é um especialista em análise de informações. A característica mais importante desse profissional, portanto, é a capacidade analítica. Por isso, quem tem uma sólida formação em matemática e lógica, como engenheiros, economistas, estatísticos e matemáticos, é forte candidato a se sair bem na carreira.  “Ter um consistente background em matemática é fundamental, senão a pessoa tem que suar muito para preencher a lacuna", diz o professor Renato Souza, responsável pelo mestrado de modelagem matemática da informação, da Fundação Getulio Vargas do Rio de Janeiro (FGV-RJ), lançado em 2011. Salário mediano anual em milhares de dólares dividido pelos grupos identificados. Fonte: O'Reilly.
  • 9. Não confunda os conceitos  CloudComputing – computação em nuvem  BigData – Armazenamento e Processamento de Grandes Volumes de Dados  BI Businnes Inteligence – Apresentar a informações de forma clara, sendo a fonte de inteligencia para os negocios  Cientista de Dados – é a pessoa capaz de orquestrar todos esses conceitos apresentando o valor que a empresa quer das informações
  • 10.
  • 11. O que é Hadoop ?  O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído. Um sistema escalável e confiável para armazenamento compartilhado e análises. Ele automaticamente trata da replicação de dados e das falhas em cada nó. Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados Permite que os aplicativos usem petabytes de dados em paralelo.
  • 12. Por que ?  Requisitos  500M+ usuário únicos por mês  Bilhões de eventos interessantes por dia  Necessidade de scalabilidade massiva  PB’s de storage, milhares de arquivos, 1000’s de nós  Necessidade de ter baixo custo  Uso de hardware comum  Compartilhar recursos com vários projetos  Fornecer escala quando necessário  Precisa de infraestrutura confiável  Deve ser capaz de lidar com falhas - hardware, software, networking  A falha é esperada, e não uma exceção  Transparente para as aplicações  muito caro para construir confiabilidade em cada aplicação  A infra-estrutura do Hadoop prove essas capacidade.
  • 13. Características  Um sistema escalável e confiável para armazenamento compartilhado e análises.  Ele automaticamente trata da replicação de dados e da falhas em cada nó.  Ele faz o trabalho duro - desenvolvedor pode se concentrar em processamento da lógica de dados  Permite que os aplicativos usem petabytes de dados em paralelo
  • 14. Eco Sistema  Hadoop Core  Distributed File System  MapReduce Framework  Pig (criado pelo Yahoo!)  Parallel Programming Language e Runtime  Hbase (criado pelo Powerset)  Table storage for semi-structured data  Zookeaper (criado pelo Yahoo!)  Coordinating distributed systems  Hive (criado pelo Facebook)  SQL-like query language and metastore
  • 15. Hadoop no FaceBook  Cluster em produção  4800 cores, 600 máquina, 16GB por máquina – Abril/2009  8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009  4 SATA discos de 1 TB por máquina  2 níveis de rede hierarquica, 40 máquinas por rack  Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009  Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw storage.  Atualmente eles moveram 30PB de para um novo Cluster  Todos os dias o Facebook recebe 380milhões de novas fotos
  • 16. Cluster no Yahoo  É investidor da HortonWorks  Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
  • 17. HDFS – Hadoop File System  Inspirado em GFS  Projetado para trabalhar com arquivos muito grandes  Executado em hardware commodity  Streaming de acesso a dados  Replicação e localidade
  • 19. O que é MapReduce  MapReduce é um modelo de programação e implementação associados para o processamento e geração de grandes conjuntos de dados (Jeffrey Dean e Sanjay Ghemawat, 2004)  A ideia tem mais de 40 anos  Baseado em um modelo de programação funcional (como Lisp, Ml, etc)  Processamento de dados base em batch  A abstração limpa para programadores  Paralelização automática e distribuição  Tolerância a falhas
  • 20. Exemplo Simplifica de Map/Reduce map (String key, String value): // key: nome documento // value: Conteudo documento for each word w in value: EmitIntermediate(w, "1"); reduce(String key, Iterator values): // key: a palavra // values: a lista de valores int result = 0; for each v in values: result += ParseInt(v); Emit(AsString(result));
  • 23. HDP: Enterprise Hadoop Distribution Hortonworks Data Platform (HDP) Enterprise Hadoop  A única 100% open source e completa  Classe empresarial, provado e testado em escala  Ecossistema endossado para garantir a interoperabilidade
  • 24. Uso Comum do Hadoop 1. Social Entenda como seus clientes se sentem sobre a sua marca e produtos – agora 2. Clickstream Capturar e analisar as pistas de dados visitantes do site e otimizar seu site 3. Sensor/Machine Descobrir padrões nos dados que fluem automaticamente a partir de sensores e máquinas remotas 4. Geolocation Analisar dados baseados em localização para gerenciar as operações onde ocorrem 5. Server Logs Log de pesquisa para diagnosticar falhas no processo e prevenir violações de segurança 6. Unstructured (text, video, pictures, etc..) Compreender padrões de texto através de milhões de produtos de trabalho não estruturados: páginas web, e- mails, vídeos, fotos e documentos Valor
  • 25. Demonstração HortonWorks  Gera sentimento em relação o IronMan 3  Coleta do Stream do Twitter  Dados do Twiter são salvos pelo flume no hadoop  Com uma tabela de classificação de sentimento  É processada a base e gerar informações a respeito do filme
  • 26.
  • 27. Por que Hadoop no Windows  De acordo com a IDC Windows Server tem 73% em 2012  Hadoop foi tradicionalmente construído para servidores Linux de forma que há um grande número de organizações carentes  De acordo com o estudo de 2012 Barclays CIO big data supera Virtualização como tendência N º 1 iniciativas de gastos  Crescimento de dados não estruturados superior a 80% ano / ano na maioria das empresas  Apache Hadoop é a plataforma de dados defato grande. Para o processamento de grandes quantidades de dados não estruturados  Complementar às tecnologias existentes da Microsoft  Há uma enorme comunidade de desenvolvedores do Windows inexplorado e parceiros do ecossistema  Forte parceria Microsoft-Hortonworks e 18 meses de desenvolvimento
  • 28. HortonWorks Data Platform for Windows  HDP é a primeira e únição hadoop para Windows e Linux  Empresa de suporte Apache Hadoop no Windows  Permite mesma experiência para Hadoop no Windows e Linux  Mais parceiros, mais desenvolvedores para Hadoop  Nativa Apache Hadoop disponível para o Windows ecossistema  Mais opções para o Windows focada organizações  Hortonworks foco: Empresa Apache Hadoop para todas as plataformas  Distribuição pronta para produção confiável Confiável para on-premise Hadoop em implantações do Windows  Construído com investimentos conjuntos e com contribuições da Microsoft  Relacionamento engenharia profunda garante integração e desempenho máximo
  • 29. Interoperability com Microsoft Tools  Integrado com ferramentas da Microsoft para análise de dados grande nativa  Conectores bidirecionais para SQL Server e SQL Azure através Sqoop  Integração ODBC Excel através Hive  Dirigindo-se a demanda por Hadoop no Windows  Ideal para clientes Windows com? Hadoop experiência operacional  Permite que as cargas de trabalho do Hadoop mais comuns na empresa  Refinamento de dados e ETL para descarregar? De grande volume de dados de desembarque  Exploração de dados para a descoberta de novas oportunidades de negócios  Enriquecimento de dados para entrega sintonizado multado e mecanismos de recomendação
  • 30.
  • 31. Por dentro do HDP for Windows  Hortonworks Data Platform (HDP)  For Windows  100% Open Source Enterprise Hadoop  Component and version compatible with HDInsight  Availability  Beta release available now  GA early 2Q 2013
  • 32. Treinamentos Presencias, On-line e Semipresenciais  Curso: Apache Hadoop Essencial (8horas )  Curso: Introdução ao Futuro Cientista de Dados (8h)  Curso: DataScientist e BigData for Bussines (16h)  Curso: Apache Hadoop Fundamental (24h)  Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)  Treinamento Apache Sqoop (8h)  Treinamento Apache Cassandra (16h)  Treinamento HBase (16h)  Treinamento Hive (16h)  Treimento Mahout (16h)  Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout (30h)  Curso de Splunk (16h)  Curso Pig e Pig Latin (16h)  Curos de Programaçao em MapReduce com Java e C# (16h)  Curso de Flume (16h)
  • 34. O que é windows Azure  É plataforma de hardware e Software da microsoft
  • 36.
  • 37. HDInsight – Hadoop Eco System
  • 39. Criando seu Cluster Hadoop no Azure
  • 40. Definido o Tamanho do Cluster
  • 45. Jobs
  • 47. Exemplo de Hadoop no Azure
  • 49. Map
  • 51. Maximise sua escolha para o Hadoop  Use HDP para Windows para no local de implantação no Windows Server  Ideal para usuários de Windows com experiência Hadoop  Perfeito próximo passo para aqueles que estão prontos para se deslocar de POC para produção  Use HDInsight para Microsoft ferramentas e gerenciamento e provisionamento  Serviço HDInsight que oferece todos os benefícios do Windows Azure (por exemplo, elasticidade e de baixo custo) - disponível em Visualizar hoje  HDInsight Servidor para a plena integração do Hadoop com ferramentas da Microsoft no local - Developer Preview disponível hoje  Escolha completa interoperabilidade e implantação em todas as plataformas  Implementar aplicações de dados grandes que funcionam on-premise e nuvem  Ao alavancar open source HDP, permite a interoperabilidade transparente entre ambientes: Linux, Windows, Windows Azure
  • 53. Sistema de Recomendação  Sistema de Recomendação de Produtos  Vitrines inteligentes para lojas online  Aumento em 60% o volume de faturamento das lojas  Cluster com 70nós  Mais de 1.5 milhões de transações por segundo
  • 54. Case Uniter  45 mil alunos  Crescimento da Base 1GB por dia  Preocessamento do dados 2 semanas  Com upload para cloud diários 1 hora  Processamento em 12 maquinas com PIG  Tempo de processamento baixou para 1 horas por dia
  • 57. Captura e Processamento dos Vídeos  As imagens são capturadas e processadas em tempo real.  Podemos notar as marcações realizadas pelo software de análise.  Ele consegue identificar os carros em movimentos e verificar várias infrações, como :  Velocidade acima de 10% do limite  Velocidade acima de 20% do limite  Avanço de Sinal  Caminhão fora de horário  Sobre a faixa de pedestre
  • 58. Etapa 2 – Transmissão Via WebServices
  • 60. Etapa 5 - Consulta dos dados  Usando PowerPivot , geramos os relatórios que são consultas diretamente na base do HBASE , via ODBC da HortonWorks.
  • 61. Tabelas do HBase vista pelo Excel via ODBC
  • 62. Etapa 6 – Construção dos relatórios  Foram construídos uma série de relatórios:  Número de Eventos por câmera  Número de Eventos por mês  Numero de Eventos por semana  Número de eventos por Infrações  Por tipo de evento  Por Posição geográfica no mapa