SlideShare uma empresa Scribd logo
1 de 28
Berkeley
Data Analytics Stack
(BDAS)
•
•
•
•

Ajanda
Techbase
Veri Analizinin Amaçları
Berkeley AMPLab Project
Berkeley Data Analytics Stack (BDAS)
– Mesos
– Spark
– Spark Streaming
– Shark
– Tachyon, BlinkDB, Graphx, MLbase
techbase 2013
Ajanda

www.techbase.com.tr

techbase 2013
• Big Data

Ajanda
– Hadoop

• Realtime Big Data – Storm - Spark
• NoSql
– Cassandra – MongoDB
• NodeJS

• kpi.io
– Custom Analytics Backend as a Service
– www.kpi.io

techbase 2013
Ajanda
• Referanslar – Big Data
– TurkCell Global Bilgi – sniffactor.com
• Storm - Gerçek Zamanlı Sosyal Medya Analizi

– 2014 …
• kpi.io v2.0
• Çoklu Veri Merkezli Cassandra Cluster
• Gerçek Zamanlı Lokasyon Tabanlı Servisler

techbase 2013
Veri Analiz Etmenin Amacı
Ajanda
• Daha iyi kararlar verebilmek
– Veriyi gerçek zamanlı analiz ederek
– Var olan veriyi hızlı sorgulayarak
– Karmaşık Veri Analizleri yaparak
• Makine öğrenmesi, veri madenciliği

techbase 2013
Ajanda
Var Olan Yöntem
• Gerçek zamanlı veri analizi
– Storm

• Hızlı sorgulama
– Hbase – Impala

• Karmaşık Veri Analizleri
– Hadoop
– Hive
– Pig
techbase 2013
Ajanda
Var Olan Yöntem - Zorluklar
• 3 farklı alanda uzmanlık gerekmektedir.
• Farklı kurulumlar, farklı clusterlar gerektirir
– Bakımı zordur
– Ayrı ayrı geliştirme yapmak gerekir
– Aynı işi, farklı şekillerde bütün alanlarda yapmak
gerekir

• Ortak veriyi kullanmaları zahmetlidir

techbase 2013
BDAS – Yaklaşım -1
• Hızlı Veri Analizi
– Mümkün olduğu kadar işlemleri memory de
gerçekleştirmek
– Neden Memory?
• Memory hızı >> ssd hızı >> disk hızı
• Birçok dataset memory ye sığabilir büyüklüktedir
– Facebook ( %90 dataset )

techbase 2013
BDAS – Yaklaşım - 2
• Bütün ihtiyaçlar için tek platform
– gerçek zamanlı veri analizi
– batch veri analizi
– hızlı sorgulama

• Var olan sistemlerle entegrasyon
– Hadoop, HDFS, Hbase, Flume, Graphlab, Hive

techbase 2013
BDAS – Yaklaşım - 3
• Karmaşık algoritmaların
– Kolay geliştirilir hale getirilmesi
• ML algoritmaları için abstraction
• Güçlü Scala ve Python veri analiz metotları

– Aynı algoritmanın gerçek zamanlı, batch ve hızlı
sorgulama ortamlarında kullanılabilmesi.

techbase 2013
lgorithms

achines

techbase 2013

eople
Berkeley Data Analytics Stack

techbase 2013
Mesos
• Cluster Kaynak Yönetimi Platformu
– Aynı cluster üzerinde Hadoop, Storm, Spark, MPI

• Java, Python ve C++ API leri
• Aktif Kullanıcılar
– Twitter
• 3500+ server

– Airbnb

techbase 2013
Spark
• Memory tabanlı, çok hızlı veri analizi altyapısı
– Hadoop’tan 100 kata kadar hızlı
– Aynı algoritmayı 5-10 kat daha az kodla
yazabilirsiniz
– Basit Scala, Python ve Java API ları ile kolay
uygulama geliştirme imkanı sunar
– Genel Amaçlı Veri Analizleri
– Recursive Algoritmalar
– Makine Öğrenmesi Algoritmaları
techbase 2013
Spark – Sınırlı Memory Kullanımı

30

41

60

58

80

69

40

12

Execution time (s)

100

20

0
• Uzmanlıklar
Cache
25%
75%
• Referanslar ve Projeler 50%
disabled
• KPI.IO
% of working set in cache

techbase 2013

Fully
cached
Spark vs Hadoop - 1

• Uzmanlıklar
• Referanslar ve Projeler
• KPI.IO

techbase 2013
Spark vs Hadoop - 2

• Uzmanlıklar
• Referanslar ve Projeler
• KPI.IO

techbase 2013
Spark Streaming
• Gerçek Zamanlı Streaming Veri Analizi
Altyapısı
• Belirlenen belli aralıklarla(saniyeler
seviyesinde) batch işlemleri gerçekleştirir.
• Bir mesajın sadece bir kere işlenmesini garanti
eder
• Spark için kullandığınız kodla stream
processing yapın
• Kafka, Flume, ZeroMQ entegrasyonu
techbase 2013
Throughput per node
(MB/s)

Spark Streaming vs Storm
30

WordCount

20

Spark

10

Storm

0
100
1000
Record Size (bytes)
techbase 2013
Spark Streaming vs Storm
Spark
Streaming

35

25
20
15

Storm

Throughput (MB/s/node)

30

10
5
0

techbase 2013
Shark
• Spark üzerinde Hive çalıştırır.
• Hive’a oranla…
– Memory üzerindeki data ile 100 kata kadar daha
hızlı çalışır
– Disk üzerindeki data ile 10 kata kadar daha hızlı
çalışır

• Sql2RDD – Yazılan Hql scriptlerinin sonucunu
Spark RDD lere çevrilmesini sağlar.

techbase 2013
70

Hive

Shark vs Hive vs Impala

50
40

20

• Uzmanlıklar
10
• Referanslar ve Projeler
0
• KPI.IO

techbase 2013

Shark

30

Impala

Response Time (s)

60
Tachyon – BlinkDB
• Tachyon
– Cluster altyapılarının kullanması için cluster genelinde
dosya paylaşımı sağlar.
– HDFS desteği

• BlinkDB
– Shark ve Spark üzerinde çalışır
– Çok büyük veri üzerinde çok hızlı çalışan fakat belli bir hata
payına sahip sonuçlar getiren Sql benzeri sorguları
destekler.
– Performansını data üzerinden aldığı örnekler üzerinde
çalışması ile sağlar.

• O

techbase 2013
MLBase – Graphx
• MLBase
– Kolay ve ölçeklenebilir makine öğrenmesi geliştirmesi
– Dağıtık ortamda çalışan kullanıcı dostu makine öğrenmesi
• ML uzmanı olmaya gerek yok

• Graphx
– Spark üzerinde Graf Veri Analizi
– GraphLab’e göre daha yavaş - şimdilik
Hadoop

1340
165

GraphX
GraphLab

22
0

200

400

600

800

1000

1200

1400

1600

Runtime (in seconds, PageRank for 10 iterations)
techbase 2013
Bize Ulaşın
• www.techbase.com.tr
• techbase@techbase.com.tr
• http://www.linkedin.com/company/techbase
• https://twitter.com/techbasetech
• https://www.facebook.com/techbasetech

techbase 2013
Referanslar
• https://amplab.cs.berkeley.edu/
• http://spark.incubator.apache.org/
• http://ampcamp.berkeley.edu/3/

techbase 2013
Teşekkürler

techbase 2013

Mais conteúdo relacionado

Mais procurados

Apache Kafka Nedir?
Apache Kafka Nedir?   Apache Kafka Nedir?
Apache Kafka Nedir? AnkaraCloud
 
Hadoop @ devveri.com
Hadoop @ devveri.comHadoop @ devveri.com
Hadoop @ devveri.comHakan Ilter
 
Büyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve HadoopBüyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve HadoopCenk Derinozlu
 
Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2
Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2
Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2Hakan Ilter
 
Sunucularımızı Gözleyelim
Sunucularımızı GözleyelimSunucularımızı Gözleyelim
Sunucularımızı GözleyelimOguz Yarimtepe
 
Pig ve Hive ile Hadoop üzerinde Veri Analizi
Pig ve Hive ile Hadoop üzerinde Veri AnaliziPig ve Hive ile Hadoop üzerinde Veri Analizi
Pig ve Hive ile Hadoop üzerinde Veri AnaliziHakan Ilter
 

Mais procurados (7)

NoSQL Sunumu
NoSQL SunumuNoSQL Sunumu
NoSQL Sunumu
 
Apache Kafka Nedir?
Apache Kafka Nedir?   Apache Kafka Nedir?
Apache Kafka Nedir?
 
Hadoop @ devveri.com
Hadoop @ devveri.comHadoop @ devveri.com
Hadoop @ devveri.com
 
Büyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve HadoopBüyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve Hadoop
 
Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2
Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2
Pig ve Hive ile Hadoop Üzerinde Veri Analizi v2
 
Sunucularımızı Gözleyelim
Sunucularımızı GözleyelimSunucularımızı Gözleyelim
Sunucularımızı Gözleyelim
 
Pig ve Hive ile Hadoop üzerinde Veri Analizi
Pig ve Hive ile Hadoop üzerinde Veri AnaliziPig ve Hive ile Hadoop üzerinde Veri Analizi
Pig ve Hive ile Hadoop üzerinde Veri Analizi
 

Destaque

Practica 1 - Materiales cotidianos
Practica 1 - Materiales cotidianosPractica 1 - Materiales cotidianos
Practica 1 - Materiales cotidianosArturo Andrés
 
Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...
Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...
Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...Sara Marabiso
 
Presentation on scott
Presentation on scottPresentation on scott
Presentation on scottHarmeet Kaur
 
Tesina finale del corso di Letteratura Inglese Contemporanea
Tesina finale del corso di Letteratura Inglese ContemporaneaTesina finale del corso di Letteratura Inglese Contemporanea
Tesina finale del corso di Letteratura Inglese ContemporaneaSara Marabiso
 
Apuntes sobre columnas mixtas de acero y hormigã³n
Apuntes sobre columnas mixtas de acero y hormigã³nApuntes sobre columnas mixtas de acero y hormigã³n
Apuntes sobre columnas mixtas de acero y hormigã³nrobert andy wood
 
Práctica 3.- Ensayo de tracción II
Práctica 3.- Ensayo de tracción IIPráctica 3.- Ensayo de tracción II
Práctica 3.- Ensayo de tracción IImaaleson
 

Destaque (13)

Tics
TicsTics
Tics
 
Practica 1 - Materiales cotidianos
Practica 1 - Materiales cotidianosPractica 1 - Materiales cotidianos
Practica 1 - Materiales cotidianos
 
Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...
Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...
Presentazione "Ballo ma non mi sballo" - Campagna di comunicazione contro l'a...
 
Presentation on scott
Presentation on scottPresentation on scott
Presentation on scott
 
2mas
2mas2mas
2mas
 
Proceso constructivo
Proceso constructivoProceso constructivo
Proceso constructivo
 
Tesina finale del corso di Letteratura Inglese Contemporanea
Tesina finale del corso di Letteratura Inglese ContemporaneaTesina finale del corso di Letteratura Inglese Contemporanea
Tesina finale del corso di Letteratura Inglese Contemporanea
 
Apuntes sobre columnas mixtas de acero y hormigã³n
Apuntes sobre columnas mixtas de acero y hormigã³nApuntes sobre columnas mixtas de acero y hormigã³n
Apuntes sobre columnas mixtas de acero y hormigã³n
 
Mantenimiento
MantenimientoMantenimiento
Mantenimiento
 
ApSoldad
ApSoldadApSoldad
ApSoldad
 
Curso rigging
Curso riggingCurso rigging
Curso rigging
 
SALUD_ETS
SALUD_ETSSALUD_ETS
SALUD_ETS
 
Práctica 3.- Ensayo de tracción II
Práctica 3.- Ensayo de tracción IIPráctica 3.- Ensayo de tracción II
Práctica 3.- Ensayo de tracción II
 

Semelhante a Berkeley Data Analytics Stack Genel Bakış

MLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesMLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesCihan Özhan
 
AnkaraJUG Haziran 2013 - No SQL / Big Data
AnkaraJUG Haziran 2013 - No SQL / Big DataAnkaraJUG Haziran 2013 - No SQL / Big Data
AnkaraJUG Haziran 2013 - No SQL / Big DataAnkara JUG
 
Istanbul Datascience Academy Talks
Istanbul Datascience Academy TalksIstanbul Datascience Academy Talks
Istanbul Datascience Academy TalksMetin Uslu
 
DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04
DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04
DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04Önder Değer
 
Veri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkVeri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkHakan Sarıbıyık
 
Bilgisayar Mimarisi 06, Feza BUZLUCA
Bilgisayar Mimarisi 06, Feza BUZLUCABilgisayar Mimarisi 06, Feza BUZLUCA
Bilgisayar Mimarisi 06, Feza BUZLUCAFeza BUZLUCA
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data AnalyticsMudur Alkan
 
WordPress ile buyuk olcekli siteler
WordPress ile buyuk olcekli sitelerWordPress ile buyuk olcekli siteler
WordPress ile buyuk olcekli sitelerMustafa UYSAL
 
veri tabanları . sql vs nosql
veri tabanları . sql vs nosqlveri tabanları . sql vs nosql
veri tabanları . sql vs nosqlOrçun Çolak
 
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStack
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStackOpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStack
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStackHuseyin Cotuk
 
Blockchain : Decentralized Application Development (Turkish)
Blockchain : Decentralized Application Development (Turkish)Blockchain : Decentralized Application Development (Turkish)
Blockchain : Decentralized Application Development (Turkish)Cihan Özhan
 
Apache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - Türkçe
Apache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - TürkçeApache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - Türkçe
Apache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - TürkçeEmre Akış
 
Kod günleri veritabnı
Kod günleri veritabnıKod günleri veritabnı
Kod günleri veritabnıMustafa Tepe
 

Semelhante a Berkeley Data Analytics Stack Genel Bakış (20)

Sukru_TRSUG2016
Sukru_TRSUG2016Sukru_TRSUG2016
Sukru_TRSUG2016
 
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesMLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
 
Nosql & MongoDB
Nosql & MongoDBNosql & MongoDB
Nosql & MongoDB
 
MongoDB Overview
MongoDB OverviewMongoDB Overview
MongoDB Overview
 
AnkaraJUG Haziran 2013 - No SQL / Big Data
AnkaraJUG Haziran 2013 - No SQL / Big DataAnkaraJUG Haziran 2013 - No SQL / Big Data
AnkaraJUG Haziran 2013 - No SQL / Big Data
 
Istanbul Datascience Academy Talks
Istanbul Datascience Academy TalksIstanbul Datascience Academy Talks
Istanbul Datascience Academy Talks
 
DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04
DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04
DP:900 Azure Data Fundamentals - Modern veri ambarı analitiği-04
 
Veri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkVeri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan Sarıbıyık
 
Bilgisayar Mimarisi 06, Feza BUZLUCA
Bilgisayar Mimarisi 06, Feza BUZLUCABilgisayar Mimarisi 06, Feza BUZLUCA
Bilgisayar Mimarisi 06, Feza BUZLUCA
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Riak ve RiakCS
Riak ve RiakCSRiak ve RiakCS
Riak ve RiakCS
 
WordPress ile buyuk olcekli siteler
WordPress ile buyuk olcekli sitelerWordPress ile buyuk olcekli siteler
WordPress ile buyuk olcekli siteler
 
MongoDB ve C# Driver'ı
MongoDB ve C# Driver'ıMongoDB ve C# Driver'ı
MongoDB ve C# Driver'ı
 
Linkle mimari
Linkle mimariLinkle mimari
Linkle mimari
 
veri tabanları . sql vs nosql
veri tabanları . sql vs nosqlveri tabanları . sql vs nosql
veri tabanları . sql vs nosql
 
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStack
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStackOpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStack
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStack
 
Blockchain : Decentralized Application Development (Turkish)
Blockchain : Decentralized Application Development (Turkish)Blockchain : Decentralized Application Development (Turkish)
Blockchain : Decentralized Application Development (Turkish)
 
Apache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - Türkçe
Apache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - TürkçeApache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - Türkçe
Apache Kafka - Yüksek Performanslı Dağıtık Mesajlaşma Sistemi - Türkçe
 
Kod günleri veritabnı
Kod günleri veritabnıKod günleri veritabnı
Kod günleri veritabnı
 
Kod günleri veritabnı
Kod günleri veritabnıKod günleri veritabnı
Kod günleri veritabnı
 

Berkeley Data Analytics Stack Genel Bakış

  • 2. • • • • Ajanda Techbase Veri Analizinin Amaçları Berkeley AMPLab Project Berkeley Data Analytics Stack (BDAS) – Mesos – Spark – Spark Streaming – Shark – Tachyon, BlinkDB, Graphx, MLbase techbase 2013
  • 4. • Big Data Ajanda – Hadoop • Realtime Big Data – Storm - Spark • NoSql – Cassandra – MongoDB • NodeJS • kpi.io – Custom Analytics Backend as a Service – www.kpi.io techbase 2013
  • 5. Ajanda • Referanslar – Big Data – TurkCell Global Bilgi – sniffactor.com • Storm - Gerçek Zamanlı Sosyal Medya Analizi – 2014 … • kpi.io v2.0 • Çoklu Veri Merkezli Cassandra Cluster • Gerçek Zamanlı Lokasyon Tabanlı Servisler techbase 2013
  • 6. Veri Analiz Etmenin Amacı Ajanda • Daha iyi kararlar verebilmek – Veriyi gerçek zamanlı analiz ederek – Var olan veriyi hızlı sorgulayarak – Karmaşık Veri Analizleri yaparak • Makine öğrenmesi, veri madenciliği techbase 2013
  • 7. Ajanda Var Olan Yöntem • Gerçek zamanlı veri analizi – Storm • Hızlı sorgulama – Hbase – Impala • Karmaşık Veri Analizleri – Hadoop – Hive – Pig techbase 2013
  • 8. Ajanda Var Olan Yöntem - Zorluklar • 3 farklı alanda uzmanlık gerekmektedir. • Farklı kurulumlar, farklı clusterlar gerektirir – Bakımı zordur – Ayrı ayrı geliştirme yapmak gerekir – Aynı işi, farklı şekillerde bütün alanlarda yapmak gerekir • Ortak veriyi kullanmaları zahmetlidir techbase 2013
  • 9. BDAS – Yaklaşım -1 • Hızlı Veri Analizi – Mümkün olduğu kadar işlemleri memory de gerçekleştirmek – Neden Memory? • Memory hızı >> ssd hızı >> disk hızı • Birçok dataset memory ye sığabilir büyüklüktedir – Facebook ( %90 dataset ) techbase 2013
  • 10. BDAS – Yaklaşım - 2 • Bütün ihtiyaçlar için tek platform – gerçek zamanlı veri analizi – batch veri analizi – hızlı sorgulama • Var olan sistemlerle entegrasyon – Hadoop, HDFS, Hbase, Flume, Graphlab, Hive techbase 2013
  • 11. BDAS – Yaklaşım - 3 • Karmaşık algoritmaların – Kolay geliştirilir hale getirilmesi • ML algoritmaları için abstraction • Güçlü Scala ve Python veri analiz metotları – Aynı algoritmanın gerçek zamanlı, batch ve hızlı sorgulama ortamlarında kullanılabilmesi. techbase 2013
  • 13. Berkeley Data Analytics Stack techbase 2013
  • 14. Mesos • Cluster Kaynak Yönetimi Platformu – Aynı cluster üzerinde Hadoop, Storm, Spark, MPI • Java, Python ve C++ API leri • Aktif Kullanıcılar – Twitter • 3500+ server – Airbnb techbase 2013
  • 15. Spark • Memory tabanlı, çok hızlı veri analizi altyapısı – Hadoop’tan 100 kata kadar hızlı – Aynı algoritmayı 5-10 kat daha az kodla yazabilirsiniz – Basit Scala, Python ve Java API ları ile kolay uygulama geliştirme imkanı sunar – Genel Amaçlı Veri Analizleri – Recursive Algoritmalar – Makine Öğrenmesi Algoritmaları techbase 2013
  • 16. Spark – Sınırlı Memory Kullanımı 30 41 60 58 80 69 40 12 Execution time (s) 100 20 0 • Uzmanlıklar Cache 25% 75% • Referanslar ve Projeler 50% disabled • KPI.IO % of working set in cache techbase 2013 Fully cached
  • 17. Spark vs Hadoop - 1 • Uzmanlıklar • Referanslar ve Projeler • KPI.IO techbase 2013
  • 18. Spark vs Hadoop - 2 • Uzmanlıklar • Referanslar ve Projeler • KPI.IO techbase 2013
  • 19. Spark Streaming • Gerçek Zamanlı Streaming Veri Analizi Altyapısı • Belirlenen belli aralıklarla(saniyeler seviyesinde) batch işlemleri gerçekleştirir. • Bir mesajın sadece bir kere işlenmesini garanti eder • Spark için kullandığınız kodla stream processing yapın • Kafka, Flume, ZeroMQ entegrasyonu techbase 2013
  • 20. Throughput per node (MB/s) Spark Streaming vs Storm 30 WordCount 20 Spark 10 Storm 0 100 1000 Record Size (bytes) techbase 2013
  • 21. Spark Streaming vs Storm Spark Streaming 35 25 20 15 Storm Throughput (MB/s/node) 30 10 5 0 techbase 2013
  • 22. Shark • Spark üzerinde Hive çalıştırır. • Hive’a oranla… – Memory üzerindeki data ile 100 kata kadar daha hızlı çalışır – Disk üzerindeki data ile 10 kata kadar daha hızlı çalışır • Sql2RDD – Yazılan Hql scriptlerinin sonucunu Spark RDD lere çevrilmesini sağlar. techbase 2013
  • 23. 70 Hive Shark vs Hive vs Impala 50 40 20 • Uzmanlıklar 10 • Referanslar ve Projeler 0 • KPI.IO techbase 2013 Shark 30 Impala Response Time (s) 60
  • 24. Tachyon – BlinkDB • Tachyon – Cluster altyapılarının kullanması için cluster genelinde dosya paylaşımı sağlar. – HDFS desteği • BlinkDB – Shark ve Spark üzerinde çalışır – Çok büyük veri üzerinde çok hızlı çalışan fakat belli bir hata payına sahip sonuçlar getiren Sql benzeri sorguları destekler. – Performansını data üzerinden aldığı örnekler üzerinde çalışması ile sağlar. • O techbase 2013
  • 25. MLBase – Graphx • MLBase – Kolay ve ölçeklenebilir makine öğrenmesi geliştirmesi – Dağıtık ortamda çalışan kullanıcı dostu makine öğrenmesi • ML uzmanı olmaya gerek yok • Graphx – Spark üzerinde Graf Veri Analizi – GraphLab’e göre daha yavaş - şimdilik Hadoop 1340 165 GraphX GraphLab 22 0 200 400 600 800 1000 1200 1400 1600 Runtime (in seconds, PageRank for 10 iterations) techbase 2013
  • 26. Bize Ulaşın • www.techbase.com.tr • techbase@techbase.com.tr • http://www.linkedin.com/company/techbase • https://twitter.com/techbasetech • https://www.facebook.com/techbasetech techbase 2013