SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
Aus unserer Webinarreihe Exzellenz in Big Data: 
Aus unserer Webinarreihe 
Exzellenz in Big Data: 
Wie kann ich Hadoop in meinem Unternehmen einsetzen und sicher betreiben? 
Uwe Neumann, Senior Sales Manager 
„Enterprise Readiness mit Hadoop“
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Uwe Neumann 
Senior Sales Manager 
uwe.neumann@fun.de 
+49 721 96448-165 
Michael Weiß 
Prokurist, Vertriebsleiter 
michael.weiss@fun.de 
+49 721 96448-145 
Ihre Ansprechpartner
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Unsere Ziele heute 
•Verstehen: Was ist Hadoop ? 
•Erkennen: Hadoop bringt mir Mehrwerte in meinem Business 
•Verstehen: Welche Plattformen sind für Hadoop geeignet 
•Erkennen: Hadoop ist im professionellen Umgang eine Chance
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
3 
4 
„Data Exploration Toolbox“ für die Automotive Industry 
„Big Data im Industrie 4.0 – Kontext“ 
2 
„Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data 
Heute: 
27.11.14 
Exzellenz in Big Data 
Unsere Big Data Webinarreihe 
16.01.15
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
1 
Log Management 
2 
Analyse-Lösungen für 
Maschinen Daten 
Unser Know-how 
Unabhängiges 
Beratungs- und 
Lösungshaus für 
3 
Industrie 4.0 & Big Data 
Anwendungen
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Solides Fundament 
Die solide Basis für IT-Infrastruktur 
Enterprise ready 
Offene Standards für Interoperabilität 
Hohe Performance 
Mandantenfähig 
Security & Compliance 
Betrieb & Analyse 
Neue Anwendungen Vertrauenswürdige Informationen Wertvolle Erkenntnisse 
SLAs 
Kostengünstig 
Die Basis für den Erfolg Ihres Unternehmens
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Hadoop speichert jede Art von Daten, analysiert und transformiert 
Was ist Hadoop?
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
… Daten 
in kleinere Teile aufbricht und diese in einem Server-Cluster zur Parallel-Verarbeitung verteilt 
namenodes 
datanodes 
hdfs client 
Node Metadata 
Anwendung 
Was ist Hadoop ? Ein Open Source Framework welches … 
Daten 
… datenintensive Anwendungen unterstützt 
… große, strukturierte wie unstrukturierte Daten auf einer Vielzahl von Knoten bearbeitet.
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Teilt Dateien in kleinere Blöcke Standardeinstellung ist 64MB Blockgröße 
 Reduzierte Suchzeiten 
HDFS repliziert automatisch die Datenblöcke auf unterschiedliche Server 
 Ausfallsicherheit 
Basiert auf einem typischen Liunx Filesystem 
 Investitionssicherheit 
Die Kernelemente von Hadoop HDFS – Hadoop Distributed File System
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Speichert Blöcke von Dateien auf dem nativen Filesystem 
Bedient direkt die Schreib-/Lesezugriffe des Clients 
Führt die Block Erzeugung, Löschung und Duplizierung aus und speichert den gleichen Block mehrfach 
 Redundanz 
Führt die Berechnung auf den einzelnen Blöcken aus 
 Parallele Bearbeitung 
Die Kernelemente von Hadoop HDFS – Datenknoten - datanode
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Koordiniert die Daten Speicherung 
Verwaltet die Dateitabelle (namespace) 
Speichert alle Metadaten im RAM 
Weist den Datenknoten die Blöcke zu 
Koordiniert die Replikation der Datenblöcke 
Die Kernelemente von Hadoop HDFS – namenode
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Bringt die Anwendung zu den Daten … 
Verteilt die Bearbeitungsaufgaben (Tasks) auf die datanodes. 
Steuert die Auslastung der Rechenkapazitäten 
Bringt bei Ausfall eines datanodes seine Tasks automatisch auf einen anderen Knoten 
Ermöglichst somit die parallele Datenverarbeitung im Cluster 
Die Kernelemente von Hadoop Hadoop – job tracker
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Ein Einblick in eine auf Hadoop basierte Data Management Plattform 
Quelle 
DATEN ZUGRIFF 
Data Workflow, Lifecycle & Governance 
Falcon 
Sqoop 
Flume 
NFS 
WebHDFS 
GOVERNANCE & INTEGRATION 
SICHERHEIT 
Authentication 
Authorization 
Accounting 
Data Protection 
Storage: HDFS 
Resources: YARN 
Access: Hive, … 
Pipeline: Falcon 
Cluster: Knox 
Provision, Manage & Monitor 
Ambari 
Zookeeper 
Scheduling 
Oozie 
BETRIEB 
Script 
Pig 
Search 
Solr 
SQL 
Hive/Tez, HCatalog 
NoSQL 
HBase 
Accumulo 
Stream 
Storm 
Others 
Spark, In- Memory, 
ISV engines 
DATA MANAGEMENT 
1 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
° 
N 
HDFS (Hadoop Distributed File System) 
Batch 
Map Reduce 
YARN: Data Operating System
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
Viele Mitarbeiter greifen 
auf unterschiedliche 
Systeme zu 
Historisch gewachsene 
Systemlandschaft 
und Spezialsysteme 
Silos mit vielfältig 
strukturierten und 
unstrukturierten 
Daten 
EDWs Marts Servers Documents Storage Search 
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten 
Archives 
Produktion 
Management Controlling Vertrieb Produktion Logistik Analyse 
Quelle: 
Die Big Data Herausforderung 
in herkömmlichen Systemen
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
EDWs Marts Documents Storage Search 
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten 
Archives 
Produktion 
Management Controlling Vertrieb Produktion Logistik Analyse 
Aktives, einheitliches Archiv 
• Vollständige Originaldaten 
• Unbegrenzte Zeit, jede Quelle 
Niedrige Speicherkosten 
Persistente Datenhaltung 
• Eine Datenquelle für jedwede 
Analyse 
• Schneller und kostengünstiger 
Self-Service BI 
• Einfache Such- und BI-Tools 
• Reduziert Anfragen an die interne 
IT 
Vielfältige Analyse Plattform 
• Bringt die Anwendung zu den 
Daten 
• Echtzeit Analytik 
Quelle: 
Der neue Weg: 
Die Anwendung zu den Daten bringen
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Hadoop ist eine der kostengünstigsten Big Data Plattformen 
Hadoop ist für alle Arten von Daten geeignet 
4 
Value 
Hadoop verarbeitet beliebig große Datenmengen 
3 
Volume 
! 
2 
Variety 
? 
Hadoop skaliert linear mit der Anzahl der Datenknoten 
Velocity 
1 
Warum Hadoop? Unterstützt die vier Kernaspekte von Big Data
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
2 
3 
… bieten professionelle Wartungspakete und 
Support 
1 
… liefern validierte, Enterprise-fähige 
Distributionen und sind international vertreten 
… entwickeln zusammen mit der OpenSource 
Community Hadoop ständig weiter 
Welches Hadoop? 
cloudera und Hortonworks …
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Preisgünstige Plattform in Hinsicht TCO (Total Cost of Ownership) 
Anschaffungskosten 
Kosten für Installation und Validierung 
Kosten für Betrieb und Wartung 
Welche Hardware für Hadoop? Grundanforderungen 
Auf aktuelle Hardware setzen 
Hochverfügbarkeit 
Redundanz aller Komponenten (Netzteile, Switches etc) 
Namenodes immer redundant auslegen 
Mit der Anzahl der Datenknoten steigt die Fehlertoleranz
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Grundanforderungen an die Hardware 
Grundanforderungen 
Typische „Enterprise class“ Server 
Ausgelegt für Hochverfügbarkeit und Betriebssicherheit 
Die Mehrkosten hierfür sind gerechtfertigt, da nur wenige Rechner dieser Klasse benötigt werden 
Master 
z.B namenode 
Slaves 
z.B. datanodes 
Grundanforderungen 
Standardserver von namhaften Herstellern 
Kein Auslegung auf Hochverfügbarkeit 
Jedoch: Möglichst hohe I/O pro Sekunde 
Ausfallsicherheit wird durch Software abgebildet
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit lokalem Storage 
Cisco Rackserver 
2 CPU “sandy bridge”, 128 GB RAM, 8 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC 
Speicherkapazität [DAS] pro Server 
8 TB brutto, RAID 0, n=3 2,66 TB ‘netto’ 
100 I/Os pro HDD, n=3 266 I/Os pro Server 
Speicherkapazität gesamt 
2,66 TB * 4 == 10,64 TB 
266 I/Os * 4 == 1064 I/Os 
1 Namenode [Management Server] 
4 Datanodes mit Festplatten [DAS] 
Quelle
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Cisco Rackserver 
2 CPU “sandy bridge”, 128 GB RAM, 1 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC 
Speicherkapazität [NetApp E5560] gesamt max Ausbau 60 HDD 
30 * 2 TB 60 TB brutto, n=2, 24 TB ‘netto’ 
300 I/Os *4 == 1200 I/Os gesamt 
Speicherkapazität [LUN] pro Server 
15 TB brutto, RAID 5, n=2 6 TB ‘netto’ 
300 I/Os pro Server 
Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit Storageeinheiten 
1 Namenode [Management Server] 
4 Datanodes mit zentr. Storage 
Quelle
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Hadoop storage mit E-series 
Hohe Speicherdichte u. Kapazität 
180TB in 4 Höheneinheiten 
Geringe Standfläche 
Replikationsfaktor von 2 statt 3 
Geringere Netzwerk-Last 
Besserer Durchsatz 
Hochverfügbarkeit für Hadoop 
Zuverlässiger NameNode 
Schnellere cluster recovery 
Eine konkrete Hardware für Hadoop NetApp Solutions for Hadoop 
Quelle
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
Wächst mit Ihren 
Anforderungen 
Maximale Flexibilität: Die Unified Architektur stellt sicher, dass der FlexPod 
auch in bestehende IT-Umgebungen eingebunden werden kann. 
RZ konforme BigData 
Analytics Plattform 
Skalierbare und 
hochverfügbare 
Architektur 
Schnelle, risikolose 
Implementierung 
Optimierter und 
standardisierter Betrieb 
24x7 Hotline für 
Gesamtinfrastruktur 
Alle Komponenten sind perfekt aufeinander 
abgestimmt 
Schneller beschafft 
Schneller implementiert 
Geringerer 
Managementaufwand 
Eine Hotline für alles 
Modulare 
Referenzarchitektur – 
“Building Blocks” passen 
immer optimal zusammen 
FlexPod Select = 
Speziell optimiert für 
Big Data Workloads 
Mehr Betriebssicherheit mit 
weniger Aufwand 
Plug and Play für Ihre Hadoop Installation 
NetApp Flexpod Select
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1- 
latest/bk_cluster-planning-guide/content/ch_hardware-recommendations. 
html 
http://www.netapp.com/us/media/ar-esg-netapp-open- 
solution.pdf 
http://www.cloudera.com/content/cloudera/en/re 
sources/library/whitepaper/evaluating-hardware-platforms- 
for-cloudera.html 
Mehr zum Thema „Hardware für Hadoop“
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Und was mache ich damit … ? Analytics Tools … eine Auswahl 
3rd Party Tools 
Pentaho 
Talend 
R 
KNIME 
Informatica 
SAS 
Hunk 
Rapidminer 
Hadoop Tools 
Hive, PIG, Mahout … 
Quelle
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
2 
3 
Industrie 4.0 
1 
Leistungsfähige Big Data Infrastruktur und 
Innovative Speichertechnologie 
Enterprise fähige Hadoop-Distributionen 
Unsere Partner für Ihren Erfolg 
Infrastruktur, Big Data Technologie und Know How 
Fraunhofer IOSB-INA 
Anwendungszentrum Industrial Automation 
Lemgo
www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 
Weg frei für Ihre Big Data Infrastruktur 
Konkreten Usecase 
wählen 
Präsentations-termin 
der geplanten 
Vorgehensweise 
Mit allen Beteiligten 
Abteilungen 
Workshop und 
gemeinsame 
Durchführung 
Proof of Concept 
Businesscase/ 
Durchführbarkeit 
Umsetzung / 
Produktiv 
1 2 3 4 5
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Exzellenz in Big Data – coming next 
3 
3. „Data Exploration Toolbox“ für die Automotive Industry 
Unsere Big Data Webinarreihe 
4 
„Big Data im Industrie 4.0 – Kontext“ 
2 
2. „Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data 
Heute: 
27.11.14 
16.01.15
www.fun.de 
Machen Sie mehr aus Ihren Daten 
www.fun.de 
Machen Sie mehr aus Ihren Daten! 
www.fun.de 
Uwe Neumann 
Senior Sales Manager 
uwe.neumann@fun.de 
+49 721 96448-165 
www.fun.de 
Michael Weiß 
Prokurist, Vertriebsleiter 
michael.weiss@fun.de 
+49 721 96448-145 
www.fun.de

Mais conteúdo relacionado

Semelhante a Webinar Big Data - Enterprise Readiness mit Hadoop

Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentricimalik8088
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastruktureninovex GmbH
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der CloudDanny Linden
 
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebeninovex GmbH
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)Alexander Alten
 
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewOMM Solutions GmbH
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - GrundlagenmongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlageninovex GmbH
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoopinovex GmbH
 
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido OswaldSAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido OswaldGuido Oswald
 
Meet Magento - High performance magento
Meet Magento - High performance magentoMeet Magento - High performance magento
Meet Magento - High performance magentoAOE
 
A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterMeMo News AG
 
Cyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap ProtectionCyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap ProtectionJosef Weingand
 

Semelhante a Webinar Big Data - Enterprise Readiness mit Hadoop (20)

Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der Cloud
 
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)
 
Hadoop und SAS für Einsteiger
Hadoop und SAS für EinsteigerHadoop und SAS für Einsteiger
Hadoop und SAS für Einsteiger
 
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
SuperSUSE – die Lösung für dynamisch wachsenden Speicher
SuperSUSE – die Lösung für dynamisch wachsenden SpeicherSuperSUSE – die Lösung für dynamisch wachsenden Speicher
SuperSUSE – die Lösung für dynamisch wachsenden Speicher
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - GrundlagenmongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlagen
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido OswaldSAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido Oswald
 
Meet Magento - High performance magento
Meet Magento - High performance magentoMeet Magento - High performance magento
Meet Magento - High performance magento
 
A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
 
Elasticsearch Cluster Management mit Marvel
Elasticsearch Cluster Management mit MarvelElasticsearch Cluster Management mit Marvel
Elasticsearch Cluster Management mit Marvel
 
Cyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap ProtectionCyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap Protection
 

Webinar Big Data - Enterprise Readiness mit Hadoop

  • 1. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! Aus unserer Webinarreihe Exzellenz in Big Data: Aus unserer Webinarreihe Exzellenz in Big Data: Wie kann ich Hadoop in meinem Unternehmen einsetzen und sicher betreiben? Uwe Neumann, Senior Sales Manager „Enterprise Readiness mit Hadoop“
  • 2. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Uwe Neumann Senior Sales Manager uwe.neumann@fun.de +49 721 96448-165 Michael Weiß Prokurist, Vertriebsleiter michael.weiss@fun.de +49 721 96448-145 Ihre Ansprechpartner
  • 3. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Unsere Ziele heute •Verstehen: Was ist Hadoop ? •Erkennen: Hadoop bringt mir Mehrwerte in meinem Business •Verstehen: Welche Plattformen sind für Hadoop geeignet •Erkennen: Hadoop ist im professionellen Umgang eine Chance
  • 4. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de 3 4 „Data Exploration Toolbox“ für die Automotive Industry „Big Data im Industrie 4.0 – Kontext“ 2 „Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data Heute: 27.11.14 Exzellenz in Big Data Unsere Big Data Webinarreihe 16.01.15
  • 5. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 1 Log Management 2 Analyse-Lösungen für Maschinen Daten Unser Know-how Unabhängiges Beratungs- und Lösungshaus für 3 Industrie 4.0 & Big Data Anwendungen
  • 6. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Solides Fundament Die solide Basis für IT-Infrastruktur Enterprise ready Offene Standards für Interoperabilität Hohe Performance Mandantenfähig Security & Compliance Betrieb & Analyse Neue Anwendungen Vertrauenswürdige Informationen Wertvolle Erkenntnisse SLAs Kostengünstig Die Basis für den Erfolg Ihres Unternehmens
  • 7. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Hadoop speichert jede Art von Daten, analysiert und transformiert Was ist Hadoop?
  • 8. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de … Daten in kleinere Teile aufbricht und diese in einem Server-Cluster zur Parallel-Verarbeitung verteilt namenodes datanodes hdfs client Node Metadata Anwendung Was ist Hadoop ? Ein Open Source Framework welches … Daten … datenintensive Anwendungen unterstützt … große, strukturierte wie unstrukturierte Daten auf einer Vielzahl von Knoten bearbeitet.
  • 9. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Teilt Dateien in kleinere Blöcke Standardeinstellung ist 64MB Blockgröße  Reduzierte Suchzeiten HDFS repliziert automatisch die Datenblöcke auf unterschiedliche Server  Ausfallsicherheit Basiert auf einem typischen Liunx Filesystem  Investitionssicherheit Die Kernelemente von Hadoop HDFS – Hadoop Distributed File System
  • 10. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Speichert Blöcke von Dateien auf dem nativen Filesystem Bedient direkt die Schreib-/Lesezugriffe des Clients Führt die Block Erzeugung, Löschung und Duplizierung aus und speichert den gleichen Block mehrfach  Redundanz Führt die Berechnung auf den einzelnen Blöcken aus  Parallele Bearbeitung Die Kernelemente von Hadoop HDFS – Datenknoten - datanode
  • 11. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Koordiniert die Daten Speicherung Verwaltet die Dateitabelle (namespace) Speichert alle Metadaten im RAM Weist den Datenknoten die Blöcke zu Koordiniert die Replikation der Datenblöcke Die Kernelemente von Hadoop HDFS – namenode
  • 12. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Bringt die Anwendung zu den Daten … Verteilt die Bearbeitungsaufgaben (Tasks) auf die datanodes. Steuert die Auslastung der Rechenkapazitäten Bringt bei Ausfall eines datanodes seine Tasks automatisch auf einen anderen Knoten Ermöglichst somit die parallele Datenverarbeitung im Cluster Die Kernelemente von Hadoop Hadoop – job tracker
  • 13. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Ein Einblick in eine auf Hadoop basierte Data Management Plattform Quelle DATEN ZUGRIFF Data Workflow, Lifecycle & Governance Falcon Sqoop Flume NFS WebHDFS GOVERNANCE & INTEGRATION SICHERHEIT Authentication Authorization Accounting Data Protection Storage: HDFS Resources: YARN Access: Hive, … Pipeline: Falcon Cluster: Knox Provision, Manage & Monitor Ambari Zookeeper Scheduling Oozie BETRIEB Script Pig Search Solr SQL Hive/Tez, HCatalog NoSQL HBase Accumulo Stream Storm Others Spark, In- Memory, ISV engines DATA MANAGEMENT 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS (Hadoop Distributed File System) Batch Map Reduce YARN: Data Operating System
  • 14. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! Viele Mitarbeiter greifen auf unterschiedliche Systeme zu Historisch gewachsene Systemlandschaft und Spezialsysteme Silos mit vielfältig strukturierten und unstrukturierten Daten EDWs Marts Servers Documents Storage Search ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten Archives Produktion Management Controlling Vertrieb Produktion Logistik Analyse Quelle: Die Big Data Herausforderung in herkömmlichen Systemen
  • 15. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! EDWs Marts Documents Storage Search ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten Archives Produktion Management Controlling Vertrieb Produktion Logistik Analyse Aktives, einheitliches Archiv • Vollständige Originaldaten • Unbegrenzte Zeit, jede Quelle Niedrige Speicherkosten Persistente Datenhaltung • Eine Datenquelle für jedwede Analyse • Schneller und kostengünstiger Self-Service BI • Einfache Such- und BI-Tools • Reduziert Anfragen an die interne IT Vielfältige Analyse Plattform • Bringt die Anwendung zu den Daten • Echtzeit Analytik Quelle: Der neue Weg: Die Anwendung zu den Daten bringen
  • 16. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Hadoop ist eine der kostengünstigsten Big Data Plattformen Hadoop ist für alle Arten von Daten geeignet 4 Value Hadoop verarbeitet beliebig große Datenmengen 3 Volume ! 2 Variety ? Hadoop skaliert linear mit der Anzahl der Datenknoten Velocity 1 Warum Hadoop? Unterstützt die vier Kernaspekte von Big Data
  • 17. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 2 3 … bieten professionelle Wartungspakete und Support 1 … liefern validierte, Enterprise-fähige Distributionen und sind international vertreten … entwickeln zusammen mit der OpenSource Community Hadoop ständig weiter Welches Hadoop? cloudera und Hortonworks …
  • 18. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Preisgünstige Plattform in Hinsicht TCO (Total Cost of Ownership) Anschaffungskosten Kosten für Installation und Validierung Kosten für Betrieb und Wartung Welche Hardware für Hadoop? Grundanforderungen Auf aktuelle Hardware setzen Hochverfügbarkeit Redundanz aller Komponenten (Netzteile, Switches etc) Namenodes immer redundant auslegen Mit der Anzahl der Datenknoten steigt die Fehlertoleranz
  • 19. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Grundanforderungen an die Hardware Grundanforderungen Typische „Enterprise class“ Server Ausgelegt für Hochverfügbarkeit und Betriebssicherheit Die Mehrkosten hierfür sind gerechtfertigt, da nur wenige Rechner dieser Klasse benötigt werden Master z.B namenode Slaves z.B. datanodes Grundanforderungen Standardserver von namhaften Herstellern Kein Auslegung auf Hochverfügbarkeit Jedoch: Möglichst hohe I/O pro Sekunde Ausfallsicherheit wird durch Software abgebildet
  • 20. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit lokalem Storage Cisco Rackserver 2 CPU “sandy bridge”, 128 GB RAM, 8 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC Speicherkapazität [DAS] pro Server 8 TB brutto, RAID 0, n=3 2,66 TB ‘netto’ 100 I/Os pro HDD, n=3 266 I/Os pro Server Speicherkapazität gesamt 2,66 TB * 4 == 10,64 TB 266 I/Os * 4 == 1064 I/Os 1 Namenode [Management Server] 4 Datanodes mit Festplatten [DAS] Quelle
  • 21. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Cisco Rackserver 2 CPU “sandy bridge”, 128 GB RAM, 1 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC Speicherkapazität [NetApp E5560] gesamt max Ausbau 60 HDD 30 * 2 TB 60 TB brutto, n=2, 24 TB ‘netto’ 300 I/Os *4 == 1200 I/Os gesamt Speicherkapazität [LUN] pro Server 15 TB brutto, RAID 5, n=2 6 TB ‘netto’ 300 I/Os pro Server Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit Storageeinheiten 1 Namenode [Management Server] 4 Datanodes mit zentr. Storage Quelle
  • 22. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Hadoop storage mit E-series Hohe Speicherdichte u. Kapazität 180TB in 4 Höheneinheiten Geringe Standfläche Replikationsfaktor von 2 statt 3 Geringere Netzwerk-Last Besserer Durchsatz Hochverfügbarkeit für Hadoop Zuverlässiger NameNode Schnellere cluster recovery Eine konkrete Hardware für Hadoop NetApp Solutions for Hadoop Quelle
  • 23. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! Wächst mit Ihren Anforderungen Maximale Flexibilität: Die Unified Architektur stellt sicher, dass der FlexPod auch in bestehende IT-Umgebungen eingebunden werden kann. RZ konforme BigData Analytics Plattform Skalierbare und hochverfügbare Architektur Schnelle, risikolose Implementierung Optimierter und standardisierter Betrieb 24x7 Hotline für Gesamtinfrastruktur Alle Komponenten sind perfekt aufeinander abgestimmt Schneller beschafft Schneller implementiert Geringerer Managementaufwand Eine Hotline für alles Modulare Referenzarchitektur – “Building Blocks” passen immer optimal zusammen FlexPod Select = Speziell optimiert für Big Data Workloads Mehr Betriebssicherheit mit weniger Aufwand Plug and Play für Ihre Hadoop Installation NetApp Flexpod Select
  • 24. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1- latest/bk_cluster-planning-guide/content/ch_hardware-recommendations. html http://www.netapp.com/us/media/ar-esg-netapp-open- solution.pdf http://www.cloudera.com/content/cloudera/en/re sources/library/whitepaper/evaluating-hardware-platforms- for-cloudera.html Mehr zum Thema „Hardware für Hadoop“
  • 25. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Und was mache ich damit … ? Analytics Tools … eine Auswahl 3rd Party Tools Pentaho Talend R KNIME Informatica SAS Hunk Rapidminer Hadoop Tools Hive, PIG, Mahout … Quelle
  • 26. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! 2 3 Industrie 4.0 1 Leistungsfähige Big Data Infrastruktur und Innovative Speichertechnologie Enterprise fähige Hadoop-Distributionen Unsere Partner für Ihren Erfolg Infrastruktur, Big Data Technologie und Know How Fraunhofer IOSB-INA Anwendungszentrum Industrial Automation Lemgo
  • 27. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten! Weg frei für Ihre Big Data Infrastruktur Konkreten Usecase wählen Präsentations-termin der geplanten Vorgehensweise Mit allen Beteiligten Abteilungen Workshop und gemeinsame Durchführung Proof of Concept Businesscase/ Durchführbarkeit Umsetzung / Produktiv 1 2 3 4 5
  • 28. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Exzellenz in Big Data – coming next 3 3. „Data Exploration Toolbox“ für die Automotive Industry Unsere Big Data Webinarreihe 4 „Big Data im Industrie 4.0 – Kontext“ 2 2. „Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data Heute: 27.11.14 16.01.15
  • 29. www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de Uwe Neumann Senior Sales Manager uwe.neumann@fun.de +49 721 96448-165 www.fun.de Michael Weiß Prokurist, Vertriebsleiter michael.weiss@fun.de +49 721 96448-145 www.fun.de