BigData e IOT
Alessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
binhara@azuris.com.br
Alessandro Binhara
Data Scientist & Mobile Expert
Mestre em Tecnologia (UTFPR)
Bacharel em TIC, Técnico Eletrônica (CEFET-PR)
Mono Hacker desde 2003
Fundador Projeto MonoBrasil
Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ...
BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra,
Hive, Sqoop,
Consultor Autorizado Xamarin
Consultor BigData pela Hortonhorks
O que é ?
 Coisas” que se comunicam, armazenam e
processam dados com o mínimo de interferência
humana, integradas a rede mundial de
computadores.
IOT e Bigdata ???
 Dispositivos vestíveis pelas pessoas. Máquinas que
coletam dados e atuam sobre às pessoas
IOT e Bidata
Cadeia de Valor do BigData
 Coleção - Dados estruturados, não estruturados e semi-estruturados de múltiplas fontes
 Ingestão - carregamento de grandes quantidades de dados em um único armazenamento de dados
 Discovery & Cleansing - compreensão do formato e conteúdo; Limpeza e formatação
 Integração - vinculação, extração de entidade, resolução de entidade, indexação e fusão de dados
 Análise - Inteligência, estatística, análise preditiva e de texto, aprendizado de máquina
 Entrega - consulta, visualização, entrega em tempo real com disponibilidade de classe empresarial
Collection Ingestion
Discovery
&
Cleansing
Integratio
n
Analysis Delivery
Porque e Quando ?
Considerações para a grande
padronização de dados
 Variedade de Casos de Uso
 Mobilidade
 Segurança e privacidade
 Gerenciamento do ciclo de vida e
qualidade dos dados
 Gerenciamento do sistema e outros
problemas
 Características dos dados
 Distribuído / Centralizado
 Os 4 V's: Volume, Velocidade,
Variedade, Veracidade
 Coleção de dados
 Visualização de dados
 Qualidade dos dados
 Análise de dados e ação
DataSource
Source
 Sensores
 Aplicações
 Agentes de software
 Indivíduos
 Organizações
 Recursos de hardware
 Fontes de dados publicas
 Sites internet
 Redes Sociais
Any*
 A qualquer momento
 Qualquer coisa
 Qualquer Dispositivo
 Qualquer Contexto
 Qualquer lugar
 Qualquer lugar
 Alguém
IOT Aplicado a SmartCitys ???
 Como pode funcionar ?
 Como Coletar os dados ?
 Como Armazenar ???
 Como processar ???
 Como Tornar uma cidade inteligente ??

Cluster no Hadoop no Yahoo
 Atualmente o Yahoo tem 3 cluster com mais de 42mil máquinas para testes
Facebook Data Center
Uso Comum do Hadoop – Case ...
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
O que é Hadoop ?
 O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído.
 Um sistema escalável e confiável para armazenamento
compartilhado e análises.
 Ele automaticamente trata da replicação de dados e das falhas
em cada nó.
 Ele faz o trabalho duro, o desenvolvedor pode se concentrar
em processamento da lógica de dados
 Permite que os aplicativos usem petabytes de dados em
paralelo.
O que é BigData ?
Curiosidades sobre ZetaBytes
Camadas
Compartivo
 SQL
 Banco Relacional
 Escalabilidade vertical
 Terabytes
 RAID, HDs rápidos
 Mais dados, troque o servidor
 BigTable
 Escalabilidade horizontal
 Petabytes
 CPU Rápida/ Baixo custo
 Padrão, HDs duráveis
 Mais dados, adicione mais
servidores
Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES
O que map reduce ?
 Estratégia de dividir para conquistar
 MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
 Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
 Processamento de dados base em batch
 A abstração limpa para programadores
 Paralelização automática e distribuição
 Tolerância a falhas
MapReduce
Bigdata é o mundo do cobertor curto...
Processamento
 MapReduce 2 (yarn)
 Apache Spark
 Apache TEZ
 Apache Storm
SQL/DB
 Spark SQL
 Impala
 Hive
 Presto
Data Flow
 Flume (logs, files)
 Sqoop (sync,sql)
 Kafka (msg)
 Nifi (proc/dist)
Suporte e administração
 Oozie (workflow,sched)
 Zookeeper(coord,config)
 Ambari (monitor, managing)
Outros
 PIG, jaql, hive
 Mahout, Mlib, H2O
 Solar
 Zepelin
Casos em SmartCitys
Casos TomTom
 Empresa de GPS
 Vendendo os hábitos dos motoristas para a policia
local para chegar em casa mais rápido
 A policia passou a colocar radares e fiscalizar
essas rodas
 Aplicando multas aos motoristas
Sistema
BigData China
Captura e Processamento dos Vídeos
 As imagens são capturadas e processadas em
tempo real.
 Podemos notar as marcações realizadas pelo
software de análise.
 Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
 Velocidade acima de 10% do limite
 Velocidade acima de 20% do limite
 Avanço de Sinal
 Caminhão fora de horário
 Sobre a faixa de pedestre
Case
AGENT - Central inteligente de
Trânsito Semáforo inteligente
Exemplo de Relatório
 asd
Prótotipo
Passeio Virtual
Sala de Operações
Produto Brasileiro
Startup Paranaense
Lançamento na CES em Las Vegas
http://beenoculus.com.br/
‘
Monitoramento de Transito
Sala de Operações
Este é nosso quarto operacional. Projeção
de realidade estendido usando o Novell.
Este quarto tem favoritos em toda a sua
volta. No chão, temos um mapa da cidade
de Curitiba, onde com a utilização de um
óculos de realidade aumentada. A
informação recolhida é projetada para
câmeras. Imagens são processadas em um
cluster de Hadoop
Imagine....
Como deixo minha meu Sistema
Inteligente ???
 Processamento em Realtime
 Bases de conhecimento
 Maquinas de Aprendizado
 Sistema de Recomendação .
Treinamentos
Presencias, On-line e Semipresenciais
 Curso: Apache Hadoop Essencial
(8horas )
 Curso: Introdução ao Futuro Cientista
de Dados (8h)
 Curso: DataScientist e BigData for
Bussines (16h)
 Curso: Apache Hadoop Fundamental
(24h)
 Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
 Treinamento Apache Sqoop (8h)
 Treinamento Apache Cassandra (16h)
 Treinamento HBase (16h)
 Treinamento Hive (16h)
 Treimento Mahout (16h)
 Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
 Curso de Splunk (16h)
 Curso Pig e Pig Latin (16h)
 Curos de Programaçao em MapReduce
com Java e C# (16h)
 Curso de Flume (16h)
Perguntas ???
Binhara@azuris.com.br
@binhara
www.azuris.com.br

BigData e internte das coisas aplicada a engenharia

  • 1.
    BigData e IOT Alessandrode Oliveira Binhara Data Scientist – Horton Works System Integrator binhara@azuris.com.br
  • 2.
    Alessandro Binhara Data Scientist& Mobile Expert Mestre em Tecnologia (UTFPR) Bacharel em TIC, Técnico Eletrônica (CEFET-PR) Mono Hacker desde 2003 Fundador Projeto MonoBrasil Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ... BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra, Hive, Sqoop, Consultor Autorizado Xamarin Consultor BigData pela Hortonhorks
  • 3.
    O que é?  Coisas” que se comunicam, armazenam e processam dados com o mínimo de interferência humana, integradas a rede mundial de computadores.
  • 4.
    IOT e Bigdata???  Dispositivos vestíveis pelas pessoas. Máquinas que coletam dados e atuam sobre às pessoas
  • 5.
  • 8.
    Cadeia de Valordo BigData  Coleção - Dados estruturados, não estruturados e semi-estruturados de múltiplas fontes  Ingestão - carregamento de grandes quantidades de dados em um único armazenamento de dados  Discovery & Cleansing - compreensão do formato e conteúdo; Limpeza e formatação  Integração - vinculação, extração de entidade, resolução de entidade, indexação e fusão de dados  Análise - Inteligência, estatística, análise preditiva e de texto, aprendizado de máquina  Entrega - consulta, visualização, entrega em tempo real com disponibilidade de classe empresarial Collection Ingestion Discovery & Cleansing Integratio n Analysis Delivery
  • 9.
  • 10.
    Considerações para agrande padronização de dados  Variedade de Casos de Uso  Mobilidade  Segurança e privacidade  Gerenciamento do ciclo de vida e qualidade dos dados  Gerenciamento do sistema e outros problemas  Características dos dados  Distribuído / Centralizado  Os 4 V's: Volume, Velocidade, Variedade, Veracidade  Coleção de dados  Visualização de dados  Qualidade dos dados  Análise de dados e ação
  • 11.
    DataSource Source  Sensores  Aplicações Agentes de software  Indivíduos  Organizações  Recursos de hardware  Fontes de dados publicas  Sites internet  Redes Sociais Any*  A qualquer momento  Qualquer coisa  Qualquer Dispositivo  Qualquer Contexto  Qualquer lugar  Qualquer lugar  Alguém
  • 12.
    IOT Aplicado aSmartCitys ???  Como pode funcionar ?  Como Coletar os dados ?  Como Armazenar ???  Como processar ???  Como Tornar uma cidade inteligente ?? 
  • 13.
    Cluster no Hadoopno Yahoo  Atualmente o Yahoo tem 3 cluster com mais de 42mil máquinas para testes
  • 15.
  • 16.
    Uso Comum doHadoop – Case ... 1. Social Entenda como seus clientes se sentem sobre a sua marca e produtos – agora 2. Clickstream Capturar e analisar as pistas de dados visitantes do site e otimizar seu site 3. Sensor/Machine Descobrir padrões nos dados que fluem automaticamente a partir de sensores e máquinas remotas 4. Geolocation Analisar dados baseados em localização para gerenciar as operações onde ocorrem 5. Server Logs Log de pesquisa para diagnosticar falhas no processo e prevenir violações de segurança 6. Unstructured (text, video, pictures, etc..) Compreender padrões de texto através de milhões de produtos de trabalho não estruturados: páginas web, e- mails, vídeos, fotos e documentos Valor
  • 17.
    O que éHadoop ?  O Apache Hadoop é um projeto desenvolvimento como open- source software para escalável , confiável e com processamento distribuído.  Um sistema escalável e confiável para armazenamento compartilhado e análises.  Ele automaticamente trata da replicação de dados e das falhas em cada nó.  Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados  Permite que os aplicativos usem petabytes de dados em paralelo.
  • 18.
    O que éBigData ?
  • 19.
  • 20.
  • 21.
    Compartivo  SQL  BancoRelacional  Escalabilidade vertical  Terabytes  RAID, HDs rápidos  Mais dados, troque o servidor  BigTable  Escalabilidade horizontal  Petabytes  CPU Rápida/ Baixo custo  Padrão, HDs duráveis  Mais dados, adicione mais servidores
  • 22.
    Bigatable is asparse, distributed persistence multidimensional sorted map. PETABYTES
  • 23.
    O que mapreduce ?  Estratégia de dividir para conquistar  MapReduce é um modelo de programação e implementação associados para o processamento e geração de grandes conjuntos de dados (Jeffrey Dean e Sanjay Ghemawat, 2004)  Baseado em um modelo de programação funcional (como Lisp, Ml, etc)  Processamento de dados base em batch  A abstração limpa para programadores  Paralelização automática e distribuição  Tolerância a falhas
  • 24.
  • 25.
    Bigdata é omundo do cobertor curto...
  • 27.
    Processamento  MapReduce 2(yarn)  Apache Spark  Apache TEZ  Apache Storm
  • 28.
    SQL/DB  Spark SQL Impala  Hive  Presto
  • 29.
    Data Flow  Flume(logs, files)  Sqoop (sync,sql)  Kafka (msg)  Nifi (proc/dist)
  • 30.
    Suporte e administração Oozie (workflow,sched)  Zookeeper(coord,config)  Ambari (monitor, managing)
  • 31.
    Outros  PIG, jaql,hive  Mahout, Mlib, H2O  Solar  Zepelin
  • 32.
  • 33.
    Casos TomTom  Empresade GPS  Vendendo os hábitos dos motoristas para a policia local para chegar em casa mais rápido  A policia passou a colocar radares e fiscalizar essas rodas  Aplicando multas aos motoristas
  • 34.
  • 35.
    Captura e Processamentodos Vídeos  As imagens são capturadas e processadas em tempo real.  Podemos notar as marcações realizadas pelo software de análise.  Ele consegue identificar os carros em movimentos e verificar várias infrações, como :  Velocidade acima de 10% do limite  Velocidade acima de 20% do limite  Avanço de Sinal  Caminhão fora de horário  Sobre a faixa de pedestre
  • 36.
    Case AGENT - Centralinteligente de Trânsito Semáforo inteligente
  • 37.
  • 38.
    Prótotipo Passeio Virtual Sala deOperações Produto Brasileiro Startup Paranaense Lançamento na CES em Las Vegas http://beenoculus.com.br/ ‘
  • 39.
    Monitoramento de Transito Salade Operações Este é nosso quarto operacional. Projeção de realidade estendido usando o Novell. Este quarto tem favoritos em toda a sua volta. No chão, temos um mapa da cidade de Curitiba, onde com a utilização de um óculos de realidade aumentada. A informação recolhida é projetada para câmeras. Imagens são processadas em um cluster de Hadoop
  • 40.
  • 41.
    Como deixo minhameu Sistema Inteligente ???  Processamento em Realtime  Bases de conhecimento  Maquinas de Aprendizado  Sistema de Recomendação .
  • 42.
    Treinamentos Presencias, On-line eSemipresenciais  Curso: Apache Hadoop Essencial (8horas )  Curso: Introdução ao Futuro Cientista de Dados (8h)  Curso: DataScientist e BigData for Bussines (16h)  Curso: Apache Hadoop Fundamental (24h)  Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)  Treinamento Apache Sqoop (8h)  Treinamento Apache Cassandra (16h)  Treinamento HBase (16h)  Treinamento Hive (16h)  Treimento Mahout (16h)  Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout (30h)  Curso de Splunk (16h)  Curso Pig e Pig Latin (16h)  Curos de Programaçao em MapReduce com Java e C# (16h)  Curso de Flume (16h)
  • 43.