Big Data in die Cloud auslagern? Warum und wenn ja, bei welchem Provider? Anhand von vier Beispielen können Sie eine geeignete Lösung finden. Verglichen werden AWS, Google Cloud, IBM Bluemix und Microsoft Azure
2. Danny Linden
twitter: @CodingDanny
LinkedIn: linkedin.com/in/danny-linden
Xing: xing.com/profile/Danny_Linden
✉ danny@onpage.org
Über mich
1989 – Im wunderschönen Gelsenkirchen geboren
2005 – Softwaredeveloper
2011 – Auswandern nach München
2013 – Start bei OnPage.org
Interessen:
Webcrawling, Suchmaschinen, skalierbare Big Data Systeme
Gründer der Spark Meetup Gruppe München:
• http://www.meetup.com/de-DE/spark-munich/
3. > 250,000 User
40 mitarbeiter
> 300,000 Projects
bootstrapped
SaaS
Based in Munich
4. „Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von
Programmen, die nicht auf dem lokalen Rechner installiert sind, sondern auf einem
anderen Rechner, der aus der Ferne aufgerufen wird (bspw. über das Internet).“
Cloud Computing
17. Platform as a Service
„Wir wollen auch BigData machen!
Können wir nicht unser $90erJahreDBMS
in die Cloud packen?“
18. PaaS: Datenbanken nach Provider
AWS
RDS
Aurora
DynamoDB
Redshift
ElastiCache
ElasticSearch
Athena
Google
Cloud SQL
Datastore
BigTable
BigQuery
Azure
MSSQL
SQL-MPP-DW
SQL Server Stretch
DB
DocumentDB
Table Storage
Redis Cache
Bluemix
Elasticsearch
Cloudant NoSQL
DB
MongoDB
dashDB
RethinkDB
Redis
19. Wer braucht mehr?
[...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung
anpassen, bis zu einem Maximum von 32 vCPUs und 244 GiB RAM.
Automatische Skalierung von Speicher
Amazon Aurora vergrößert Ihr Datenbank-Volume automatisch, wenn der Datenbankspeicher mehr Platz
benötigt. Ihr Volume wächst in 10 GB-Schritten bis maximal 64 TB.
20. Platform as a Service
„Können wir dieses Serverless bei
uns installieren?“
21. PaaS: Serverless mit Appengine
• Es skaliert von Geisterhand
• Budgetlimit / Tag
• Custom Domain
• HTTP
• Scheduled Tasks / Cronjobs
• Module
• Versionen
• Lokales Entwickeln
twitter: @CodingDanny
SSD, HDD, EBS(i/o), learnings: Bandbreite
HÄLFTE DES VORTRAGS
SSD, HDD, EBS(i/o), learnings: Bandbreite
In der Regel immer Compute Instanzen + Fee für die Konfiguration
s3 komp api
Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
mysql admin traut sich nichts anderes zu
Macht sinn: Scale zu seiner zeit
Beispiel: Aurora ?TB
MPP-Architektur (Massively Parallel Processing)
SQL Server Stretch: Cold vs Hot in Cloud shiften einen EndpointCloudant NoSQL DB: CouchDB Based DB
dashDB: DB2 + InMemory
S3 redshift Aurora
TB?
BigTable AWS? AthenaRethinkDB für JSON
Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
Sprachen
Docker
Sprachen
Docker
Sprachen
Docker
Sprachen
Docker
Sprachen
Docker
Sprachen
Docker
möglichst viel mitnehmen kann
aws ec2 ecs
docker
wer von 4x großen eingesetzt
wer entscheident