O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen

29 visualizações

Publicada em

Der Vortrag zeigt die Grenzen bisheriger Lösungen und gibt einen Überblick über neue Lösungen.
Er zeigt, wie Systemlandschaften weltweit tätiger (Internet-)Konzerne aussehen und leitet daraus herunterskalierte, praktikable Lösungen auch für kleinere Unternehmen mit weit weniger Datenvorkommen ab.

Publicada em: Software
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen

  1. 1. Darf es ein bisschen mehr sein? 1 | 77 Projekte. Beratung. Spezialisten. Darf es ein bisschen mehr sein? IKS-Thementag 14.05.2019 Autor: Christoph Schmidt-Casdorff Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen
  2. 2. Darf es ein bisschen mehr sein? 2 | 77 Agenda Was ist Big Data? Architekturaspekte in Big Data Big Data at Rest Data Processing – Batch a là Big Data Stream Processing – Big Data at Flow Big-Data-Architekturen Hadoop Eco System und Plattform-Anbieter Abschluss
  3. 3. Große Datenmenge Historisch: Warum Big Data? AntwortFrage Welche technischen Herausforderungen sind zu bewältigen?  Speicherung der Datenmengen  Lesen und Analyse der Datenmengen  Befüllung der Datenmengen Beispiele von Datenquellen  Sensor Daten (IoT)  Kreditkarten-Transaktionen  Aktienbewegungen  Blog Posts  Network Traffic  Log Entries Was charakterisiert Big Data ?  Hohe Geschwindigkeit des Datenaufkommens  Hohe Schwankung des Datenaufkommens  Große Menge der Daten  Keine Beschränkung der Variabilität der Datenstrukturen  Keine Beschränkung in der Varianz der Datenqualität  Große Datenmengen und massives Datenwachstum  Facebook sammelt mehr als 250 Terabytes pro Tag  Daten kommen aus unterschiedlichsten Quellen/Kanälen  Daten haben unterschiedlichste (oder gar keine) Strukturen
  4. 4. Daten in Ruhe https://www.fjordblick.com/tjodnane-see-am-preikestolen-foto-des-monats-dezember-2018/ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  5. 5. Darf es ein bisschen mehr sein? 5 | 77 Daten in Ruhe Diskette Datenbank Datei CD Magnetband Festplatten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  6. 6. Darf es ein bisschen mehr sein? 6 | 77 Informationen und Erkenntnisse gewinnt man nur aus Daten im Fluss Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  7. 7. Darf es ein bisschen mehr sein? 7 | 77 Verarbeitung muss mit Daten versorgt werden https://commons.wikimedia.org/wiki/File:Wechsel_-_M%C3%BChlrad_beim_M%C3%BChlenplatzl_am_Wildwasserweg.jpg Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  8. 8. Darf es ein bisschen mehr sein? 8 | 77 Notation: Daten im Fluss Datenfluss Datenverarbeitung/ Informationsgewinn Datenspeicher stellt Daten zu übergibt Ergebnisse schreibtundliest Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  9. 9. Darf es ein bisschen mehr sein? 9 | 77 Big Data …. Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  10. 10. Darf es ein bisschen mehr sein? 10 | 77 https://www.worldatlas.com/articles/the-great-lakes-ranked-by-size.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  11. 11. Darf es ein bisschen mehr sein? 11 | 77 https://afrika-junior.de/inhalt/kontinent/regionen/das-suedliche-afrika-die-suempfe-und-die-namib-wueste/der-sambesi-die-lebensader-im-suedlichen-afrika.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  12. 12. Darf es ein bisschen mehr sein? 12 | 77 Funktioniert mit hergebrachten Methoden nicht mehr https://www.n-tv.de/panorama/Land-unter-in-Bayern-und-Sachsen-article10751731.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  13. 13. Darf es ein bisschen mehr sein? 13 | 77 Warum reicht es nicht mehr? Physische Kapazitätsbegrenzung der Hardware  Plattenplatz  Hauptspeicher Kapazitätsbegrenzung von Systemen wie relationalen Datenbanken Horizontaler statt vertikaler Skalierung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  14. 14. Darf es ein bisschen mehr sein? 14 | 77 Lösungsansatz für Daten in Ruhe Aufteilung des großen Datensees in beliebig viele Datenteiche Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  15. 15. Big Data at Rest https://urlaubsreich.de/wp-content/uploads/2018/08/Sch%C3%B6n-IMG_5643-ge%C3%A4ndert.jpg
  16. 16. Darf es ein bisschen mehr sein? 16 | 77 Cluster Ein Cluster repräsentiert eine Menge an Servern/VMs (kurz Nodes) als gemeinsames System  Die Ressourcen, alle Nodes, werden gemeinsam verwaltet Cluster besteht i.d.R. aus einem komplexen Zusammenspiel unterschiedlicher Prozesse auf den einzelnen Nodes Spezielle Aufgaben sind  clusterweites Ressourcenmanagement  clusterweite Synchronisation  clusterweite Orchestrierung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  17. 17. Darf es ein bisschen mehr sein? 17 | 77 Partitionen Daten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  18. 18. Darf es ein bisschen mehr sein? 18 | 77 Partitionen Node Node Node Node Node Daten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  19. 19. Darf es ein bisschen mehr sein? 19 | 77 Partitionen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  20. 20. Darf es ein bisschen mehr sein? 20 | 77 Partitionen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  21. 21. Darf es ein bisschen mehr sein? 21 | 77 Partitionen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  22. 22. Darf es ein bisschen mehr sein? 22 | 77 Replikationen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  23. 23. Darf es ein bisschen mehr sein? 23 | 77 Verteilte Datenhaltungssysteme Replikation und Partitionierung sind grundlegende Konzepte, welche in allen verteilten Datenhaltungssystemen zum Tragen kommen Verteilte Datenhaltungssysteme beschäftigen sich damit,  wie Daten partitioniert werden  wie eine konsistente Sicht auf partitionierte Daten gewährleistet wird  wie ein Cluster auszubalancieren ist, wenn einzelne Nodes wegfallen/hinzukommen  wie sich ein Cluster verhält, wenn eine große Menge von Nodes wegfallen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  24. 24. Darf es ein bisschen mehr sein? 24 | 77 Name Dropping Verteilte Filesysteme (DFS)  Hadoop Verteilte NoSql-Datenbanken  HBase  Cassandra  MongoDB  Redis  Kafka Verteiltes Konfigurationsmanagement  Zookeeper  etcd  Consul Clustermanagement  Yarn  Kubernetes  Mesosphere Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  25. 25. https://urlaubsreich.de/wp-content/uploads/2018/08/Sch%C3%B6n-IMG_5643-ge%C3%A4ndert.jpg Batch Processing a là Big Data
  26. 26. Darf es ein bisschen mehr sein? 26 | 77 Klassisch: Daten aktiv aus dem Datenspeicher holen https://www.schwengelpumpe.eu/ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  27. 27. Darf es ein bisschen mehr sein? 27 | 77 Klassisches Batch Processing Klassisch: Datenverarbeitung holt sich ihre Daten ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  28. 28. Darf es ein bisschen mehr sein? 28 | 77 Klassisches Batch Processing Datenversorgung und Datenverarbeitung in einer Komponente ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  29. 29. Batch Processing a là Big Data ?
  30. 30. Batch Processing a là Big Data (II) Optimierung: Verteilung der Daten hat Einfluss auf das Programmiermodell ?
  31. 31. Darf es ein bisschen mehr sein? 31 | 77 Name Dropping Map Reduce Algorithmus, um Daten aus verteilten Datensystemen zu extrahieren Map Reduce ist der bekannteste Vertreter dieser Verfahren Entwickelt für Hadoop DFS Eigenes Programmiermodell für verteilte Filesysteme  Entwickelt von Google  Bekannt als Verfahren über Hadoop Ist relativ langsam  Heutzutage werden andere Verfahren angewendet Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  32. 32. Darf es ein bisschen mehr sein? 32 | 77 Dieser Ansatz funktioniert für beschränkte Verarbeitungsmengen Warum? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  33. 33. Idee verteilter Verarbeitung: Verteilung auf viele Schultern ?
  34. 34. Darf es ein bisschen mehr sein? 34 | 77 Probleme dieser Architektur Prämisse „Verarbeitung holt sich die Daten“ hat folgende Konsequenzen:  Jede einzelne Komponente verantwortet, welche Daten zu verarbeiten sind  . . ., das kann aber nur im Verbund entschieden werden  unverhältnismäßig hoher und nicht linear wachsender Abstimmungsbedarf  Daten werden nicht verarbeitet, wenn sie entstehen,  sondern wenn sie geholt werden Um beliebig große Datenmengen zu verarbeiten,  muss diese Prämisse umgestellt werden Die Verarbeitungskomponente bekommt die zu verarbeitenden Daten zugestellt Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  35. 35. Darf es ein bisschen mehr sein? 35 | 77 Aufteilung der Verarbeitung auf viele Schultern setzt eine dynamische Partitionierung der Daten voraus Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  36. 36. Darf es ein bisschen mehr sein? 36 | 77 Diese Datenmenge muss in Fluss gebracht werden Trennung von Datenzustellung und Datenverarbeitung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  37. 37. https://afrika-junior.de/inhalt/kontinent/regionen/das-suedliche-afrika-die-suempfe-und-die-namib-wueste/der-sambesi-die-lebensader-im-suedlichen-afrika.html Big Data at Flow
  38. 38. Darf es ein bisschen mehr sein? 38 | 77 Stream Processing – Metapher für Daten im Fluss Daten als kontinuierlicher Strom, der der Verarbeitung zugeführt wird Datenstrom verästelt sich durch ein System von Leitungen Daten wandern/meandern durch dieses System  mehr oder weniger gesteuert “Stream Processing is a type of data processing engine that is designed with infinite data sets in mind” https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101 Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  39. 39. Mississippi Delta – System von Leitungen https://commons.wikimedia.org/wiki/File:Mississippi_delta_from_space_detalle.jpg
  40. 40. Blattadern – System von Leitungen https://blendezwo.de/wp-content/uploads/2015/03/db090510102.jpg
  41. 41. Pull-Prinzip ?
  42. 42. Push-Prinzip Daten werden der Verarbeitungs- komponente zugestellt
  43. 43. Daten fließen
  44. 44. Darf es ein bisschen mehr sein? 44 | 77 Stream Processing Metapher  Daten als kontinuierlicher Strom, der der Verarbeitung zugeführt wird Es gibt eine Infrastruktur, welche  Daten den Verarbeitungskomponenten zustellt (data driven)  mit schwankenden Mengen von Daten zurechtkommt (Elastizität) Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  45. 45. Darf es ein bisschen mehr sein? 45 | 77 Was heißt dies für die Verarbeitung? Datenverarbeitung wird von kleinen, autonomen Einheiten durchgeführt  Processoren genannt Processoren beschreiben, für welchen Typ von Daten sie zuständig sind  … und bekommen diese Daten durch die Infrastruktur zugestellt Processoren werden im Cluster verteilt und skaliert Processoren werden durch die Infrastruktur mit Daten versorgt …  … verarbeiten diese …  … und geben diese an die Infrastruktur zurück Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  46. 46. Wo bleiben Ihre Programme?
  47. 47. Wo bleiben Ihre Programme ?
  48. 48. Darf es ein bisschen mehr sein? 48 | 77 Name Dropping Messaging Systeme  Rabbit MQ  Active MQ  . . . Hybride zwischen verteilter Datenhaltung und Messaging  Kafka Dezidierte Streaming Engines  Apache Spark  Apache Flink  Apache Samza Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  49. 49. Big-Data-Architektur https://www.mch-group.com/en-US/news/blog/2016/05/powertage-2016-messe-zuerich.aspx
  50. 50. Darf es ein bisschen mehr sein? 50 | 77 Es sind Architekturen entstanden, die … sehr gut horizontal skalieren  bzgl. Datenmengen  bzgl. Datendurchsatz  bzgl. Ressourcen hochgradig parallele Anwendungen ermöglichen sehr gut mit schwankenden Datenmengen umgehen können Daten verarbeiten, sobald diese im System verfügbar sind lose gekoppelte Architekturen propagieren  Je enger die Kopplung, desto schwieriger ist die Skalierung i.d.R. Open Source sind  Es gibt allerdings immer kommerzielle Erweiterungen und Support Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  51. 51. Darf es ein bisschen mehr sein? 51 | 77 Technologische Lösungsansätze Cluster  Horizontale Skalierbarkeit/Elastizität Data Storage mit verteilten Datenhaltungssystemen  Strukturierte sowie un- und semistrukturierte Daten  Gemischte Datenformate gleichzeitig Batch Processing mit speziellen Programmiermodellen  Für Verarbeitung begrenzter Datenmengen Stream Processing  Datengetriebene Verarbeitung (data driven)  Daten werden den Processoren zugestellt  Asynchrone Verarbeitung  mit Messagingsystemen  mit speziellen Stream Processing Engines  Parallele und skalierbare Verarbeitung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  52. 52. Darf es ein bisschen mehr sein? 52 | 77 Diese Architekturen sind historisch durch Big Data entstanden Bieten ganz neue Einsatzmöglichkeiten  Auch jenseits von „riesigen Datenmengen“ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  53. 53. Darf es ein bisschen mehr sein? 53 | 77 Active Archiv ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  54. 54. Darf es ein bisschen mehr sein? 54 | 77 Streaming Architekturen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  55. 55. Darf es ein bisschen mehr sein? 55 | 77 Stream Processing Streaming Architekturen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  56. 56. Darf es ein bisschen mehr sein? 56 | 77 Stream Processing und Machine Learning Machine Learning und Stream Processing  Machine Learning sucht Muster in einem Strom von Daten  Ergänzen sich ideal  Machine Learning ist i.d.R. ressourcen-intensiv  Alle Streaming Engines besitzen Machine-Learning-Funktionalität Beispiel: Fraud Detection Spezielle Anforderungen an ML  Zustandsverwaltung  Fehlerhandling  Rekursionen  Behandlung von bounded Windows Fraud Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  57. 57. Darf es ein bisschen mehr sein? 57 | 77 Wie kommen die Daten in das System? Batch Processing Data Storage ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  58. 58. Darf es ein bisschen mehr sein? 58 | 77 Wie kommen die Daten in das System? Batch Processing Data Storage • Viele Datenquellen • Variierendes Datenaufkommen • Unterschiedliche Datenformate • Unterschiedliche DatenqualitätSocial Media IoT Corporate Data Logs Partner Daten Datei- schnittstellen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  59. 59. Darf es ein bisschen mehr sein? 59 | 77 Data Acquisition Layer Batch Processing Data Storage DataAcquisitionLayer • Eingangskanäle für alle möglichen Datenquellen • Pufferungsmechanismen (Backpressure) • Ggf. Normalisierung der Daten • Ggf. Bereinigung/Konsolidierung der Daten • Einspeisung der Daten in Data Storage Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  60. 60. Darf es ein bisschen mehr sein? 60 | 77 Data Storage Batch Processing DataAcquisitionLayer Stream Processing Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen Skizze Big Data Architecture (I)
  61. 61. Clustermanagement Batch Processing Data Storage DataAcquisitionLayer Stream Processing ServingLayer Near Real Time Processing • Anzeige von Verarbeitungsergebnissen • Schnittstellen für self-service Data • BI Skizze Big Data Architecture (I)
  62. 62. Clustermanagement Skizze Big Data Architecture (II) – Blick auf die Daten Batch Processing Rohdaten DataAcquisitionLayer Stream Processing Konsolidierte Data Near Real Time ServingLayer Kuratierte Daten
  63. 63. Clustermanagement Batch Processing Rohdaten DataAcquisitionLayer Stream Processing ServingLayer Konsolidierte Data Kuratierte Daten Near Real Time Hadoop Cassandra HBase MapReduce Hive Apache Spark Apache Flink Apache Kafka Name Dropping (Apache/Hadoop Eco System) Sqoop Flume StreamSets Data Collector Gobblin Kafka Yarn Mesosphere Kubernetes
  64. 64. Darf es ein bisschen mehr sein? 64 | 77 Was haben wird noch nicht betrachtet? Big Data und Datenserialisierung  Serialisierung bei Persistenz von beliebigen Datenstrukturen  Problem kleiner Daten bei HDFS Big Data und Security/Mehrmandantenfähigkeiten  Authentifizierung, Autorisierung, feingranulare Zugriffsberechtigungen, Datenverschlüsselung, Kommunikationsverschlüsselung Administration  Administration der Plattform Auswertungen und self-service data  Öffnen der Plattform für data scientists Data Governance  Orchestrierung des Zusammenspiels von Menschen, Prozessen und Daten Big Data und Hardware  Insbesondere Big Data/Distributed Processing in virtualisierten Umgebungen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  65. 65. Hadoop Ecosystem https://autofei.wordpress.com/2017/07/06/hadoop-ecosystem/ Machine Learning • komplexe Datenanalyse Stream und Batch Processing Datenserialisierung
  66. 66. Darf es ein bisschen mehr sein? 66 | 77 Hadoop Eco System Hadoop Eco Systems ist groß und im Fluss Anbieter von Hadoop-Plattformen bündeln die einzelnen Tools  Bieten eine konsistente Plattform an  Abgestimmte Funktionalitäten und Versionen  Transparente Integration zwischen den einzelnen Tools  Entwickeln insbesondere Managementwerkzeuge aktiv weiter Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  67. 67. Darf es ein bisschen mehr sein? 67 | 77 Anbieter von Hadoop-Plattformen Cloudera Hortonworks MapR https://searchdatamanagement.techtarget.com/news/252455907/Cloudera-and-Hortonworks-combo-to-push-CDP-machine-learning Unity Datenhaltung Security Governance Kern- Komponenten Stream Processing Betrieb/ Management Data Science Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  68. 68. Darf es ein bisschen mehr sein? 68 | 77 Hadoop-Plattform am Beispiel von Unity https://de.hortonworks.com/ecosystems/ Unity Pig Hive Sqoop Tez Calcite HBase Kafka Storm Knox Ranger Atlas Hadoop Yarn Ooozie Ambri Zookeeper Solr Spark Zeppelin Accumulo Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  69. 69. Darf es ein bisschen mehr sein? 69 | 77 Big Data in der Cloud Bisher haben wir betrachtet: Selbst verwaltete Plattformen auf Basis des Hadoop Eco System  on premise Infrastruktur für Elastizität und Data Processing wird an die Cloud delegiert  Es werden u.U. andere Komponenten zum Processing und zur Datenhaltung genutzt  Die Processoren werden selbst entwickelt und deployed Die Infrastrukturkomponenten mögen andere sein . . . . . . aber die Konzepte/Prinzipien bleiben die Gleichen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  70. 70. Abschluss
  71. 71. Darf es ein bisschen mehr sein? 71 | 77 Big Data – nicht nur für riesige Datenmengen Lösungen aus Big Data sind nicht nur für riesige Datenmengen zugeschnitten Mögliche Architekturtreiber für den Einsatz von Big-Data-Lösungen:  Event- oder message driven Systeme/Architekturen  hohe Anforderungen an Elastizität/horizontale Skalierbarkeit  dynamisches Datenaufkommen  un- oder semistrukturierte Daten  (dynamische) Auslastung von Systemen  (dynamische) Verteilung ressourcen-intensiver Operationen  Einsatz von ML Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  72. 72. Darf es ein bisschen mehr sein? 72 | 77 Big Data – technologische Herausforderungen Die Frameworks aus HDFS, NoSQL, Stream/Batch Processing  sind komplex zu erlernen  sind u.U. komplex zu betreiben  jedes einzelne und es sind viele Technologiewelt wird volatiler Big-Data-Lösungen hängen eng mit der Problemstellung zusammen  Die speziellen Anforderungen bestimmen die Lösung Big-Data-Lösungen haben Einfluss auf die zu wählende Hardware  Stichwort: commodity hardware Big-Data-Technologien sind häufig dissruptiv  Passen i.d.R. nicht zu bestehenden Architekturen  Passen i.d.R. nicht zu bestehenden Systemumgebungen  Ersetzen i.d.R. bestehende Technologien Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  73. 73. Darf es ein bisschen mehr sein? 73 | 77 Fragestellungen an Big-Data-Lösungen Welche Big-Data-Lösung ist die richtige Lösung ?  Welche Geschäftsanforderungen werden mit Big Data adressiert? Welche Datenquellen werden importiert?  Warum werden diese Daten gesammelt?  Welche Schlüsse können aus diesen Daten gezogen werden?  Haben diese Datenquellen eine kritisches Volumen? Welche neuen Anforderungen an Kompetenzen der Mitarbeiter stellt Big Data?  Neue technologische Kompetenzen  Neue Berufsbilder wie Data Scientist  Woher kommen die Kompetenzen der Mitarbeiter? Wie fangen Sie an? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  74. 74. Vielen Dank! Fragen?
  75. 75. Darf es ein bisschen mehr sein? 75 | 77 Referenzen Big Data - Entwicklung und Programmierung von Systemen für große Datenmengen und Einsatz der Lambda-Architektur by Nathan Marz (2016) http://www.harvardbusinessmanager.de/blogs/a-862657.html http://www.harvardbusinessmanager.de/blogs/a-862658-2.html http://www.harvardbusinessmanager.de/blogs/a-861011.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  76. 76. Darf es ein bisschen mehr sein? 76 | 77 Impulsvorträge für Ihr Unternehmen Überblick über das gesamte Angebot an Impulsvorträgen unter: www.iks-gmbh.com/impulsvortraege Ihr Nutzen:  Unabhängiges, aktuelles Expertenwissen.  Individuell auf Ihr Publikum und Ihr Unternehmen zugeschnittene Vorträge.  Referenten mit langjähriger und branchenübergreifender Expertise in der IT- Beratung.  Praxisnahe Vorträge, die aus Projektarbeit entstanden sind, frei von Produktwerbung.  Ideale Ergänzung für Ihre Führungskräftetreffen, Abteilungsmeetings, Hausmessen, Innovation Days, Konferenzen, Open Spaces, Kick-off-Meetings oder Zukunftsworkshops. Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  77. 77. WWW.IKS-GMBH.COM
  78. 78. Darf es ein bisschen mehr sein? 78 | 77 https://stock.adobe.com/de/search?k=m%C3%BChlenrad&asset_id=50391961 Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  79. 79. Darf es ein bisschen mehr sein? 79 | 77 https://pixabay.com/illustrations/graphic- design-wave-element-curves-2822614/ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen

×