O documento descreve uma arquitetura big data para um comparador de preços que coleta dados de produtos de vários sites, os compara e exibe os resultados. A arquitetura propõe usar Apache Kafka para receber dados, Apache Flume para coletá-los, Apache Spark para análise e comparação dos produtos, e armazenamento dos resultados.
2. Caso de uso de aplicaçãoCaso de uso de aplicação
de comparador de preçosde comparador de preços
com Big Datacom Big Data
3. Globalcode – Open4education
Motivação
O comércio
eletrônico paulista
registrou
faturamento real
(já descontada a
inflação) de R$
3,8 bilhões no
primeiro trimestre
de 2017.
O comércio
eletrônico paulista
registrou
faturamento real
(já descontada a
inflação) de R$
3,8 bilhões no
primeiro trimestre
de 2017.
Fonte: Webshopers / Fecomercio
Em 2016:
8. Apache Kafka
Fonte:http://kafka.apache.org/intro
Ele permite que você publique
e se inscreva em fluxos de
registros
É semelhante a uma fila de
mensagens ou sistema de
mensagens corporativas.
Ele permite armazenar fluxos
de registros de uma maneira
tolerável a falhas.
Ele permite que você processe
fluxos de registros à medida
que eles ocorrem.
10. Apache Spark
Fonte: Stoica (2013)
Apache Spark é uma engine
rápida para processamento em
larga escala desenvolvido em
linguagem Scala.
Em memória, tolerante a falha,
baixa latência.
Fácil de combinar batch,
streaming e processamento
interativo.
Modo fácil de desenvolver
algorítmos sofisticados.
11. Engine (Spark)
Fonte: https://pt.wikipedia.org/wiki/Dist%C3%A2ncia_Levenshtein
Comparar produtos de sitesComparar produtos de sites
diferentes é uma arte!diferentes é uma arte!
Alguns produtos possuem uma
codificação específica do
fabricante
Quando não se tem um padrão de
cruzamento a distância
Levenshtein pode ser uma boa
alternativa. É a distância entre
duas"strings" (duas sequências de
caracteres) é dada pelo número
mínimo de operações necessárias
para transformar um string no
outro.
13. Globalcode – Open4education
Resultado
Loja Produto Cor Tam Status Preço Loja Produto Cor Tamanho Status Preço
A Tênis Fiveblu Norton Highway DVB8012 Marrom 38D 119,9 B Tênis Fiveblu Norton Highway DVB80123 Marrom 38I 119,9
A Tênis Fiveblu Norton Highway DVB8012 Marrom 39D 119,9 B Tênis Fiveblu Norton Highway DVB80123 Marrom 39D 119,9
A Tênis Fiveblu Norton Highway DVB8012 Marrom 40D 119,9 B Tênis Fiveblu Norton Highway DVB80123 Marrom 40I 119,9
A Tênis Fiveblu Norton Highway DVB8012 Marrom 41D 119,9 B Tênis Fiveblu Norton Highway DVB80123 Marrom 41D 119,9
A Tênis Fiveblu Norton Highway DVB8012 Marrom 42D 119,9 B Tênis Fiveblu Norton Highway DVB80123 Marrom 42D 119,9
A Tênis Fiveblu Norton Highway DVB8012 Marrom 43D 119,9 B Tênis Fiveblu Norton Highway DVB80123 Marrom 43D 119,9
D Tênis Mizuno Wave Creation 18 Azul Azul 38I 589,89 E Tênis Mizuno Wave Creation 18 Azul 38D 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 39D 589,89 E Tênis Mizuno Wave Creation 18 Azul 39D 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 40I 589,89 E Tênis Mizuno Wave Creation 18 Azul 40D 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 41I 589,89 E Tênis Mizuno Wave Creation 18 Azul 41D 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 42I 589,89 E Tênis Mizuno Wave Creation 18 Azul 42D 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 43I 589,89 E Tênis Mizuno Wave Creation 18 Azul 43I 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 44I 589,89 E Tênis Mizuno Wave Creation 18 Azul 44I 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 45I 589,89
D Tênis Mizuno Wave Creation 18 Azul Azul 46I 589,89
14. Considerações Finais
Enriquecer com dados de transações e dados dos
clientes
Realizar a captura dos dados requer alguns controles
Uma abordagem near-real time pode ser interessante
Expor dados como serviço