Hepsistream veri analitik platformu, Hepsiburada platformuna desktop, mobile, mobile-site kanalları üzerinden erişen kullanıcıların gerçekleştirdikleri ürün görüntüleme, sayfa görüntüleme, sepete ekleme vs. gibi aksiyonları gerçek zamanlı olarak toplayıp, lambda mimarisi ile büyük veri altyapısı üzerinde işlemektedir. Hepsistream büyük veri altyapısına değinilerek, Efsane Cuma gibi büyük bir ölçekte gerçek zamanlı veri keşif ve izleme aracının geliştirilmesi sürecinde kullanılan teknolojiler ve kazanılan deneyimler sunulmustur.
2. 2
Salih Şen
› 8 yıldır yazılımcı olarak çalışıyorum.
› 4 yıldır Big Data üzerinde çalışıyorum.
› Öncesinde Apache Solr, Web Development
› Eylül 2018’de Hepsiburada’ya katıldım
Hasan Ali Aygün
› 6 yıldır yazılımcı olarak çalışıyorum
› Yaklaşık 4 yıl Big Data
› Yaklaşık 1 yıldır Hepsiburada da Senior Data
Engineer
7. 7
Hepsistream Veri Hacmi
› 120M/ay ziyaret
› 30M/ay tekil cihaz
› 3000 event/sn
› 5TB/ay
› Efsane Cuma x15
8. 8
› Ürün geliştirmeye girdi
› Ürün tavsiye sistemi
› Arama kelime-kategori öneri sistemi
› Satıcı Portalları - müşteri kullanım istatistikleri
› Müşteri churn modelleri
› Ürün fiyat takibi, talep tahmini ve anomali tespiti modülleri
› Kategori - pazarlama vb ekiplere özelleşmiş etkileşimli dashboardlar
› Ürün başarım metrikleri
› Arama tıklanma oranları (Search CTR)
› Banner tıklanma oranları
› Ürün tavsiyelerinin tıklanma oranları
› Farklı algoritmaların (öneri vb.) A/B testleri
Hepsistream Nerede Kullanılıyor?
9. 9
› Kullanıcı davranışı keşif
› Başarılı / başarısız arama sonuçları, kullanıcı arama alışkanlıkları
› Yeni üye kayıt sayfasındaki vazgeçme oranları
› UX odağında kullanımı düşük tasarımların/bileşenlerin belirlenmesi
› UX odağında MVP kapsamında geliştirilen yeni özelliklerin incelenmesi
› Pazarlama (İleride)
› Karmaşık veri zenginleştirme ihtiyacı olan durumlar -> Google
Analytics’den Hepsistream’e
Hepsistream Nerede Kullanılıyor?
18. 18
› NSA tarafından geliştirilmeye başlandı
› Sistemler arası veri aktarımı
› Veri dönüştürme
› Veri zenginleştirme
› Grafik arayüzü
› Dağıtık çalışabilme
› Genişletilebilir
› Data Provenance (Veri takibi)
Apache NiFi
33. 33
› 100’den fazla farklı event
› Bir event için birden fazla kaynak
› Event yapılarının ortaklaştırılması
› Event’lerin validasyonu
› Event yapılarının versiyonlanmasi
› Aynı event birden fazla versiyonla gelebilir
Event Yapılarının Yönetilmesi
40. 40
› Bir süre veri iki tarafa da gönderildi
› Google Cloud Storage download yavaş
› BigQuery sorgulama daha hızlı
› API geliştirilip bütün veri sorgu olarak Hadoop
ortamına aktarıldı
Google Cloud - Hadoop Geçişi
41. 41
› Hala gerçek zamanlı veriyi göremiyoruz
› Sitede kaç aktif kullanıcı var?
› Hangi kategorilerde en çok hangi aramalar yapılıyor?
› Hangi kategoriler, satıcılar, ürünler en çok görüntüleniyor?
› Görüntülemeler hangi kaynaklardan ve kanallardan geliyor?
› Müşteriler hangi sayfalarda yoğunlaşmış durumda?
› Zaman serisi olarak gerçek zamanlı trend ne?
› Veriyi gerçek zamanlı işleyip analitik sorgu atabileceğimiz,
istediğimiz gibi özelleştirebileceğimiz, etkileşimli kullanılabilecek
bir sistem gerekiyordu
Lambda Stream Layer
49. 49
› Açık Kaynaklı
› Streaming Analitik Uygulamaları için tasarım,
geliştirme, deploy ve yönetimi
› aggregations over window,pattern matching vs.
› Sürükle bırak
› Sıfır Kod
Stream Analytic Manager
58. 58
› Spark Executor sayisi 2 ye dusuruldu
› Executor Memory 1GB
Efsane Cuma Sonrası
59. 59
› Modern, enterprise-ready business intelligence
› Web Interface
› Druid Integration
› RDBMS Integration (SQL Alchemy)
› Interactive Dashboard
› Developed by Airbnb
Superset
60. 60
› HDP üzerinde geliyor
› Versiyon güncellendi (daha iyi görselleştirme)
› Beraberinde SQLite ile geliyor
› Bir süre SQLite ile kullandık fakat kullanıcı sayısı
artınca yetersiz kaldı.
› Postgresql’e geçiş yaptık.
Superset-Druid Entegrasyonu
61. 61
› Yetkilendirme özellikleri biraz kısıtlı
› LDAP entegrasyonu yok.
› Dashboard bazlı yetkilendirme yok
› Datasource bazlı yetkilendirme var.
› NGINX Proxy
Superset-Druid Entegrasyonu