BigData e internte das coisas aplicada a engenharia

BigData e IOT
Alessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
binhara@azuris.com.br

Alessandro Binhara
Data Scientist & Mobile Expert
Mestre em Tecnologia (UTFPR)
Bacharel em TIC, Técnico Eletrônica (CEFET-PR)
Mono Hacker desde 2003
Fundador Projeto MonoBrasil
Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ...
BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra,
Hive, Sqoop,
Consultor Autorizado Xamarin
Consultor BigData pela Hortonhorks

O que é ?
 Coisas” que se comunicam, armazenam e
processam dados com o mínimo de interferência
humana, integradas a rede mundial de
computadores.

IOT e Bigdata ???
 Dispositivos vestíveis pelas pessoas. Máquinas que
coletam dados e atuam sobre às pessoas

Cadeia de Valor do BigData
 Coleção - Dados estruturados, não estruturados e semi-estruturados de múltiplas fontes
 Ingestão - carregamento de grandes quantidades de dados em um único armazenamento de dados
 Discovery & Cleansing - compreensão do formato e conteúdo; Limpeza e formatação
 Integração - vinculação, extração de entidade, resolução de entidade, indexação e fusão de dados
 Análise - Inteligência, estatística, análise preditiva e de texto, aprendizado de máquina
 Entrega - consulta, visualização, entrega em tempo real com disponibilidade de classe empresarial
Collection Ingestion
Discovery
&
Cleansing
Integratio
n
Analysis Delivery

Considerações para a grande
padronização de dados
 Variedade de Casos de Uso
 Mobilidade
 Segurança e privacidade
 Gerenciamento do ciclo de vida e
qualidade dos dados
 Gerenciamento do sistema e outros
problemas
 Características dos dados
 Distribuído / Centralizado
 Os 4 V's: Volume, Velocidade,
Variedade, Veracidade
 Coleção de dados
 Visualização de dados
 Qualidade dos dados
 Análise de dados e ação

DataSource
Source
 Sensores
 Aplicações
 Agentes de software
 Indivíduos
 Organizações
 Recursos de hardware
 Fontes de dados publicas
 Sites internet
 Redes Sociais
Any*
 A qualquer momento
 Qualquer coisa
 Qualquer Dispositivo
 Qualquer Contexto
 Qualquer lugar
 Qualquer lugar
 Alguém

IOT Aplicado a SmartCitys ???
 Como pode funcionar ?
 Como Coletar os dados ?
 Como Armazenar ???
 Como processar ???
 Como Tornar uma cidade inteligente ??


Cluster no Hadoop no Yahoo
 Atualmente o Yahoo tem 3 cluster com mais de 42mil máquinas para testes

Uso Comum do Hadoop – Case ...
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor

O que é Hadoop ?
 O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído.
 Um sistema escalável e confiável para armazenamento
compartilhado e análises.
 Ele automaticamente trata da replicação de dados e das falhas
em cada nó.
 Ele faz o trabalho duro, o desenvolvedor pode se concentrar
em processamento da lógica de dados
 Permite que os aplicativos usem petabytes de dados em
paralelo.

Compartivo
 SQL
 Banco Relacional
 Escalabilidade vertical
 Terabytes
 RAID, HDs rápidos
 Mais dados, troque o servidor
 BigTable
 Escalabilidade horizontal
 Petabytes
 CPU Rápida/ Baixo custo
 Padrão, HDs duráveis
 Mais dados, adicione mais
servidores

Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES

O que map reduce ?
 Estratégia de dividir para conquistar
 MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
 Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
 Processamento de dados base em batch
 A abstração limpa para programadores
 Paralelização automática e distribuição
 Tolerância a falhas

Bigdata é o mundo do cobertor curto...

Processamento
 MapReduce 2 (yarn)
 Apache Spark
 Apache TEZ
 Apache Storm

SQL/DB
 Spark SQL
 Impala
 Hive
 Presto

Data Flow
 Flume (logs, files)
 Sqoop (sync,sql)
 Kafka (msg)
 Nifi (proc/dist)

Suporte e administração
 Oozie (workflow,sched)
 Zookeeper(coord,config)
 Ambari (monitor, managing)

Outros
 PIG, jaql, hive
 Mahout, Mlib, H2O
 Solar
 Zepelin

Casos TomTom
 Empresa de GPS
 Vendendo os hábitos dos motoristas para a policia
local para chegar em casa mais rápido
 A policia passou a colocar radares e fiscalizar
essas rodas
 Aplicando multas aos motoristas

Captura e Processamento dos Vídeos
 As imagens são capturadas e processadas em
tempo real.
 Podemos notar as marcações realizadas pelo
software de análise.
 Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
 Velocidade acima de 10% do limite
 Velocidade acima de 20% do limite
 Avanço de Sinal
 Caminhão fora de horário
 Sobre a faixa de pedestre

Case
AGENT - Central inteligente de
Trânsito Semáforo inteligente

Prótotipo
Passeio Virtual
Sala de Operações
Produto Brasileiro
Startup Paranaense
Lançamento na CES em Las Vegas
http://beenoculus.com.br/
‘

Monitoramento de Transito
Sala de Operações
Este é nosso quarto operacional. Projeção
de realidade estendido usando o Novell.
Este quarto tem favoritos em toda a sua
volta. No chão, temos um mapa da cidade
de Curitiba, onde com a utilização de um
óculos de realidade aumentada. A
informação recolhida é projetada para
câmeras. Imagens são processadas em um
cluster de Hadoop

Como deixo minha meu Sistema
Inteligente ???
 Processamento em Realtime
 Bases de conhecimento
 Maquinas de Aprendizado
 Sistema de Recomendação .

Treinamentos
Presencias, On-line e Semipresenciais
 Curso: Apache Hadoop Essencial
(8horas )
 Curso: Introdução ao Futuro Cientista
de Dados (8h)
 Curso: DataScientist e BigData for
Bussines (16h)
 Curso: Apache Hadoop Fundamental
(24h)
 Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
 Treinamento Apache Sqoop (8h)
 Treinamento Apache Cassandra (16h)
 Treinamento HBase (16h)
 Treinamento Hive (16h)
 Treimento Mahout (16h)
 Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
 Curso de Splunk (16h)
 Curso Pig e Pig Latin (16h)
 Curos de Programaçao em MapReduce
com Java e C# (16h)
 Curso de Flume (16h)

Perguntas ???
Binhara@azuris.com.br
@binhara
www.azuris.com.br

BigData e internte das coisas aplicada a engenharia

Mais conteúdo relacionado

Semelhante a BigData e internte das coisas aplicada a engenharia

Mais de Alessandro Binhara

BigData e internte das coisas aplicada a engenharia