O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Big/Smart/Fast Data – a very compact overview

58 visualizações

Publicada em

OMM TECHtalk #4
www.tech-talks.eu

Publicada em: Esportes
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Big/Smart/Fast Data – a very compact overview

  1. 1. OMM Solutions TECHtalk #4 1< OMM Solutions GmbH >28.06.2017 www.tech-talks.eu
  2. 2. Einmal im Monat ist TECHtalk Zeit! First come first served! < OMM Solutions GmbH > 2
  3. 3. Talk: Big/Smart/Fast Data – a very compact overview Speaker: Malte Horstmann 3< OMM Solutions GmbH >
  4. 4. Viele Daten, die schnell analysiert werden, erschaffen Smarte Daten. Big Data ist mehr als nur eine große Festplatte 28.06.2017 < OMM Solutions GmbH > 4 Masse (Volume) • Große Datenmengen • Ab Terabyte-Bereich Vielfalt (Variety) • Daten in vielen Formaten • strukturiert • Unstrukturiert • Text • Multimedia Geschwindigkeit (Velocity) • Datenströme • Analyse von Streamingdaten Richtigkeit (Veracity) • Vertrauen in Daten • Zuverlässigkeit der Vorhersagbarkeit • Unsichere Daten
  5. 5. Warum eigentlich Big/Fast/Smart Data? • Logistik • Vorhersage von Warenströmen • Produktion • Vorhersage von Wartungsfällen • Optimierung von Einsatzstoffen • Gezielter Pestiziden Einsatz in der Agrarwirtschaft • Visualisieren von Datenströmen • Hack-Prävention durch Log-File Analysen • Transport • Mobilität • Verkehrsinformationen auf Grund von Bewegungsdaten • Vertrieb • Aussagen über das Kundenverhalten • Kunde zahlt einen Kredit eher zurück, wenn er seine Kontakte im Handy nach Vor- und Nachnamen sortiert Aber erst das Raffinieren macht Öl wertvoll. Daten sind wirklich das neue Öl. 28.06.2017 < OMM Solutions GmbH > 5 https://aws.amazon.com/de/solutions/case-studies/
  6. 6. DB Schenker – Predictive Maintenance auf der Schiene: immer gut gewartete Lokomotiven 628.06.2017 < OMM Solutions GmbH > Herausforderungen Blockierende Loks führen zu Verspätungen und Kosten Big Data Große Datenmengen entstehen durch das permanente Senden von Sensordaten Innovation Fehler sofort entdecken Prognosemodell nach Loktyp Wartungsintervall orientiert sich an tatsächlichem Verlauf. Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf
  7. 7. Sensorhersteller reduziert Anzahl an Kalibrierungsschritten um 99%. 728.06.2017 < OMM Solutions GmbH > Herausforderung Steigerung der Prozesseffizienz durch die Reduzierung von Kalibrierungsschritten bei gleichbleibender Ergebnisqualität Big Data Regressionsanalyse von 51,5 Millionen Messungen aus dem Produktionsprozess. Innovation Vorher: Kalibrierung an über 500 Messpunkten der Magnetische Fluss gemessen. Danach: Sieben Messpunkte ermöglichen die gleiche Qualität. Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf
  8. 8. Bristol-Myer Squibb (Pharma) reduziert Time To Market um 98% 828.06.2017 < OMM Solutions GmbH > Herausforderungen Klinische Versuche und Simulationen kosten Zeit 100 Jobs ~ 60 Stunden weil Daten sensibel sind, war ein eigenes Rechenzentrum Pflicht Big Data Jeder Versuch benötigt Gigabytes an Daten und generiert Gigabytes an Daten. Innovation Mit einem VPN zu einem dedizierten AWS-Bereich konnten Durchlaufzeiten reduziert werden • 2000 Jobs ~1,2 Stunden https://www.informationweek.com/software/enterprise-applications/big-data-6-real-life-business-cases/d/d- id/1320590?image_number=2
  9. 9. Tesco verkauft Analysen aus seinen Kundendaten an Konkurrenten. 928.06.2017 < OMM Solutions GmbH > Das passierte alles schon vor mehr als 15 Jahren Herausforderung Mehr Umsatz generieren Big Data 16 Millionen aktive Tesco Kunden von 38 Millionen generieren täglich Transaktionsdaten seit den 90igern Innovation Einsicht in das Kaufverhalten von Millionen von Kunden und Vorhersagen über zukünftige Einkäufe Dunnhumby Ltd. verkauft für Tesco diese Daten aggregiert weiter Quelle: https://datafloq.com/read/tesco-big-data-analytics-recipe-success/665 https://blogs.oracle.com/database/926109a1-9990-4201-8115-9cd6f52d32dd
  10. 10. „richtige“ Hadoop/BigData Usecases sind schwer zu finden. 1028.06.2017 < OMM Solutions GmbH > AirBnB on Hadoop (2015) Komplette Server Infrastruktur bei AWS (~5000 EC2 Instanzen) • 1500 für Webaktivitäten • 3500 für Analytics und Machinelearing Beispiel1: Buchung in Paris • 40000 insgesamte Einträge • 5-10 besten Einträge für Gast und Gastgeber anzeigen • In Millisekunden Beispiel 2: Interne Analyse • Airpal um interne Unternehmensdaten abzufragen • Zwei Cluster nötig nach kurzer Zeit https://www.nextplatform.com/2015/09/10/airbnb-shares-the-keys-to-its-infrastructure/ https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770
  11. 11. Was ist Ihr Ziel? • Welche Informationen wird meinen Kunden helfen Ihre Kosten oder Risiken zu reduzieren? • Welche Informationen sind stark zerstreut, würden aber tiefe Einsichten vermitteln, wenn diese aggregiert wären? • Sind meine Kunden verschieden und könnten von den Daten meiner anderen Kunden profitieren? • Wollen Sie einfache Daten-Aggregationen auf ein paar Hundert Datensätzen machen? • Bauen Sie ein Analytics-Team auf und wollen Ihr Marketing oder Produkt verbessern? • Haben Sie Erfahrung im Betrieb von verteilten Anwendungen? • Wie groß sind Ihre Datenmengen? • Wie verteilt sind Ihre Datenmengen? • Wie schnell wachsen diese Datenmengen? • Wie viele Mitarbeiter sollen sich mit dem Thema beschäftigen? Prinzipiell kann man mit einem Hammer auch eine Schraube versenken. Der Anwendungsfall bestimmt den Einsatz der Technologie! 28.06.2017 < OMM Solutions GmbH > 11
  12. 12. Bei jeglicher Analyse helfen Visualisierungswerkzeuge – hat Olaf schon bei KI gesagt. Aller Anfang ist, wenn man weiß, was man sucht. Erst Bereinigen • Datenqualität sicherstellen • Duplikate entdecken • Standardisieren • Bereinigen • openrefine.org • datacleaner.org Dann Visualisieren • Mehrere Datenquellen • Interaktiv • Teilbar • Web-basiert • zeppelin.apache.org • elastic.co/de/products/kibana • public.tableau.com • wolframalpha.com • mehr BI als reine Visualisierung: qlik.com/de-de • silk.co • helicalinsight.com • pentaho.com • Für Hacker: • polymaps.org • iweave.com • d3js.org Nicht die „Großen“ zu vergessen • Amazon Web Services (AWS) • QuickSight (beta) • Google • Data Studio (beta) • developers.google.com/chart/ • Microsoft • Excel • Power BI • SandDance • IBM Analytics • SAP HANA Cloud Platform 28.06.2017 < OMM Solutions GmbH > 12 http://paintbynumbersblog.blogspot.de/2014/05/100-blocks-quantified-self-random-walk.html
  13. 13. Elastic Stack ist ein Einstieg in große Datenanalysen. 1328.06.2017 < OMM Solutions GmbH > • Daten Erfassen • Daten/Texte durchsuchen • Daten visualisieren • Daten aggregieren • Fakten-Abfragen Sehr gut • aggregierte sehr große Analysen • Massendaten-Transformationen • Stream Processing • Join-Abfrage • Mit zunehmender Dokumentenzahl werden Abfragen ineffizienter Weniger gut
  14. 14. Daten müssen verlässlich im System landen und bleiben. 1428.06.2017 < OMM Solutions GmbH > Ab Terabytes an Daten wird das eine Herausforderung Quellausfall • Fällt eine Datenstromquelle für längere Zeiten aus und ist dann wieder verfügbar, werden große Mengen aufgelaufener Daten auf einmal übertragen. Die Hard- und Software muss das verkraften. Skalierung und Verlässlichkeit • Die Datenmengen müssen auf verteilten Clustern verarbeitet werden. Das bisherige Enterprise-Konzept von (verteilten) Transaktionen skaliert allerdings nicht ausreichend. Daher müssen neue Methoden für die verteilte Verlässlichkeit gefunden werden. Widerstandsfähigkeit • Big-Data-Lösungen bestehen aus vielen beweglichen Teilen. Es ist keine Frage, ob Fehler und Ausfälle auftreten, sondern nur die Frage wann. Wenn dann eines der Teile aufgrund eines Entwicklerfehlers oder durch einen Hardwaredefekt ausfällt, darf das Gesamtsystem keine Daten verlieren oder gar ausfallen. Elastizität • Big-Data-Lösungen konsumieren sehr viele Ressourcen auf den Servern. Durch Oversizing konnten auf kleinen Clustern Performance-Engpässe und Ausfälle kompensiert werden. Ein Zwei-Maschinen-Cluster kann problemlos um 100 % auf vier Maschinen oversized werden. Bei großen Clustern ist das aber nicht mehr finanzierbar. Hier müssen andere Mechanismen für Elastizität gefunden werden.
  15. 15. Sehr große Datenmengen müssen effizient verarbeitet werden. 1528.06.2017 < OMM Solutions GmbH > Was ist der Trick? Kurzer Abriss der Historie• 1997 erfindet Doug Cutting eine Suchmaschine namens Lucene • 2001 Lucene durchsucht das gesamte Web -> Apache Nutch Webcrawler • Probleme drehten auf: • Kein Datenschema; Datenverluste, Hardwareverluste • 2003 Google File System, ein verteiltes Dateisystem wird veröffentlicht • 2003 Nutch File System wird auf Grundlage von GFS gebaut • Apache Nutch verteilt seine Daten auf Festplatten (Nodes) • Nachteil: kein paralleles Verarbeiten der Daten möglich • 2004 Google veröffentlich MapReduce – Simple Data Processing on Large Clusters • Parallelisierung, Verteilung und Fehlertoleranz • 2006 Cutting erstellt aus GFS und MapReduce, Apache Hadoop • Yahoo stellt Cutting ein um ihr Filesystem auf Hadoop umzustellen • Später setzen andere Firmen wie Facebook, Twitter, LinkedIn auch Hadoop ein • … HDFS, Hive, Pig, PrestoDB… • Nochmal später bemerken Firmen mit kleineren Datenmengen, das ihnen Hadoop zu sperrig ist, und SMACK wird erfunden. Was ist Map-Reduce? Ziel: Zähle die Anzahl an Büchern in einer Bücherei. Map: Du zählst Stock #1. Ich zähle Stock #2. (Je mehr Leute wir sind, um so schneller geht das am Ende) Reduce: Wir kommen alle zusammen und summieren unsere einzelnen Werte auf.
  16. 16. SMACK dient als Werkzeugkasten für Ihre Datenerhebung. 1628.06.2017 < OMM Solutions GmbH > Store FloorBeacon POS Beacon MachineSensor EnvironmentSensor DemographicData BrowsingData S M ACKSTACK Spark Mesos Akka Cassandra Kafka MobileApps RealtimeMessaging Business Intelligence & Analytics CustomizedDashboards StorePOS-System DATA PREPARATION&CREATION DATA VISUALIZATION Widealalysis Distributed database Event based dataprocessing DATA MANAGEMENT&AGGREGATION
  17. 17. Der SMACK Stack im Detail 1728.06.2017 < OMM Solutions GmbH > Umfangreiche Analysen Verteilte Datenbank Event-basierte Datenverarbeitung Liest das Datenmodel Aufbereitete Daten API für mobile und webbasierte Anwendungen Alarme, Benachrichtungen, Predictive Maintenance, automatische Optimierungen; Machine Learning Datenquellen Dateien und Batch-Prozesse Echtzeit-APIs; Streams; OPC Liest die Daten Schreibt das Datenmodell Visualisierung/Dashboards
  18. 18. • Apache Kafka („Buffer“) • verteilter, skalierbarer und verlässlicher Message Broker für große Datenmengen • Alternative: beats, rabbitmq; (!) Einsatzzweck: Producer oder Konsumer-Fokus • Reactive Streams („nicht so schnell, bitte“) • Abhängigkeit zwischen Komponenten kann durch Umstellen von Push auf Pull bis zur Quelle durcheskaliert werden • Akka („nah-zeit Verarbeitung“) • Implementierung des Actor Frameworks für die Implementierung von reaktiven Anwendungen. Scala ermöglicht dabei funktionale Aspekte. • Weiter: akka-http, akka-streams, akka-persistence (vs. eventuate) • Alternativen: RxJava, vertX • Apache Spark („Filtern von großen Daten“) • Batch-Verarbeitung (auch MapReduce) und Streaming-Verarbeitung (micro-Batches mit Spark-Streaming); ermöglicht funktionalen Lambda Architekturen. • Alle relevanten NoSQL und klassischen RDBMS-Lösungen lassen sich integrieren. • Alternative: Beam (Metaebene), Storm/Trident; Samza (inkl. Kafka+Hadoop/Yarn), stream vs. batch processing • Apache Cassandra („Datenspeicher“) • Spaltenorientierte Datenbank, verteilt, skaliert linear, verarbeitet Daten lokal ohne teure IO-Operationen über das Netzwerk hinweg • „Alternativen“: hive, reddis, mongoDB, hadoop/HDFS/hbase; (!) Einsatzzweck: spaltenorientiert vs. Dokumenten-DB vs. Verteilt. • Apache Mesos („Lastenmanager“) • Scheduling Framework für Cluster und Rechenzentren; Anwendungen – auch Spark, Akka, Cassandra, Kafka – werden auf das Cluster deployed und Mesos entscheidet (scheduled), welcher Job auf welcher Maschine zu laufen hat. • Alternative: YARN; (oder sogar Myriad: YARN on Mesos) SMACK: Spark, Mesos, Akka, Cassandra, Kafka Greifen Sie auf vorhandene Best-Practices zurück! 28.06.2017 < OMM Solutions GmbH > 18
  19. 19. https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html Keine Petabytes an Daten? Machs mit Excel! 28.06.2017 < OMM Solutions GmbH > 19 Hadoop/SMACK etc. können auch nur map-reduce Aaaber, meine Daten sind hunderte Megabytes. Excel lädt das nicht. • Dann nimm http://pandas.pydata.org/ als Datenlader für deine Aggregationen in Python Aaaber, meine Daten sind 10 Gigabyte. • Kauf dir mehr Arbeitsspeicher (32GB für 250€) und lad nicht alles gleichzeitig in den RAM Aaaber, meine Daten sind 100GB/500GB/1TB! • Eine 5TB Festplatte kostet 150€. Installier dir http://www.postgresql.org/ drauf. SMACK/etc ist SQL immer unterlegen. Nutze Indizes und bereite deine Daten auf. Aaaber, meine Daten sind mehr als 5TB! • „Ok, your life now sucks!“ – Nutze SMACK/etc. • Jetzt gibt’s es nicht mehr viele Optionen neben vielen Servern mit vielen Festplatte.
  20. 20. Lies eine Textdatei mit 250MB und zähle wie oft jedes Wort darin vorkommt. Apache BEAM • 50 Zeilen Code • Laufzeit: >1 Minute • Mind. Heap: 800MB • Threads: Multithreading, orange: waiting CommonsIO#FileUtils • 64 Zeilen Code • Laufzeit: 22 sec • Mind. Heap: 15MB • Threads: Einer Im direkten Vergleich zweier Implementierungen zeigt sich der Einsatzzweck. 28.06.2017 < OMM Solutions GmbH > 20
  21. 21. ThyssenKrupp Elevator – Intelligente Aufzüge durch globale Vernetzung Herausforderung • Wettbewerbsvorteile durch Zuverlässigkeits-Garantieen • Vorrausschauende und präventive Wartung durch BigData Realisieren • Kosteneffiziente Auswertung der Sensordaten auf globaler Ebene Big Data • 1,1 Millionen Aufzüge generieren jede Minute hunderte von Zustandsinformationen • Jeden Tag, 24h, 365 Tage im Jahr Innovation • Bi-direktionaler Zugriff • Mit MachineLearning können die Aufzüge den Technikern erklären, wie sie in Stand zu setzen sind. • Bis zu 400 Fehlercodes pro Aufzüg verschärfen Effizienz • Betriebszeit steigt deutlich 28.06.2017 < OMM Solutions GmbH > 21
  22. 22. Vielen Dank für Eure Aufmerksamkeit! 22< OMM Solutions GmbH >
  23. 23. Ihr persönlicher Ansprechpartner Fragen oder Interesse? < OMM Solutions GmbH > 23 Malte Horstmann Sales & Processes OMM Solutions GmbH Vor dem Lauch 4 70567 Stuttgart Germany mh@omm-solutions.de +49 (0)711 67 47 05 11
  24. 24. 24< OMM Solutions GmbH > www.omm-solutions.de OMM Solutions GmbH Vor dem Lauch 4 70567 Stuttgart Geschäftsführer Martin Allmendinger Malte Horstmann Olaf Horstmann Kontakt Telefon: +49 711 6747 051-0 E-Mail: info@omm-solutions.de Umsatzsteuer-ID: DE295716572 Sitz der Gesellschaft: Stuttgart Amtsgericht Stuttgart, HRB 749562 Impressum

×