SlideShare uma empresa Scribd logo
1 de 27
Baixar para ler offline
science + computing ag
IT-Dienstleistungen und Software für anspruchsvolle Rechnernetze
Tübingen | München | Berlin | Düsseldorf
InfiniBand-Grundlagen und
Betriebsaspekte in HPC-Clustern
Inhalt
1. Typischer HPC-Stack mit InfiniBand
2. Aufbau und Funktion von IB
3. Fragestellungen im Betrieb
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 2
Inhalt
1. Typischer HPC-Stack mit InfiniBand
2. Aufbau und Funktion von IB
3. Fragestellungen im Betrieb
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 3
Typischer HPC-Stack mit InfiniBand (1/4)
Zielsetzung
 Vendor: Sun Microsystems
 Aufbau/Stand: Okt. 2008
 Anwendungen: StarCD, StarCCM+,
StarCD+ICE, StarCD+GTpower
 Betriebssystem: CentOS 5.2
 Management LAN: Gigabit Ethernet
 Interconnect: InfiniBand
 Paralleles Filesystem: Lustre 1.6.5.1
 Management: s.cluster/VIIP, scVENUS
 Queuing-System: Sun Grid Engine (SGE) 6.0
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 4
Typischer HPC-Stack mit InfiniBand (2/4)
Aufbau
© 2010 science + computing agscience + computing ag | Nov. 2010
Page 5
Fast Ethernet
(Management LAN):
Nortel Networks 2550T
Gigabit Ethernet
(Public LAN):
Notel Networks 5510T-48
Compute Nodes:
33x Sun Fire X2200 M2
Management Node:
Sun Fire x4440
Cluster File System:
2x Sun Fire x4540 (OSS)
2x Sun Fire x4100 (MDS)
Sun StorEdge 3320
Interconnect:
Voltaire ISR 2012
Typischer HPC-Stack mit InfiniBand (3/4)
InfiniBand Fabric + Lustre
© 2010 science + computing agscience + computing ag | Nov. 2010
Page 6
InfiniBand Fabric
Management
Node
Cluster File System: LustreCompute Nodes
…
Shared MDS Storage
StorEdge 3320 Array
8x 146 GByte
OSS Storage
2x Sun Fire X4540
je 48 TByte brutto
Typischer HPC-Stack mit InfiniBand (4/4)
InfiniBand Fabric + Lustre
© 2010 science + computing agscience + computing ag | Nov. 2010
Page 7
Cluster Size
Performance
NFS Scaling
Lustre File System
Scaling
Linear Scaling
Inhalt
1. Typischer HPC-Stack mit InfiniBand
2. Aufbau und Funktion von InfiniBand (IB)
1. Allgemein
2. Komponenten
3. Kommunikation
4. Subnet Manager
3. Fragestellungen im Betrieb
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 8
Aufbau und Funktion von IB (1/15)
Allgemein (I)
 InfiniBand Architecture (IBA) ist eine offene Standard-
Architektur für
 Server I/O
 Server – Server Kommunikation (Netzwerk)
 InfiniBand Trade Association (IBTA) (seit 1999)
 http://www.infinibandta.org/
 OpenFabrics Alliance (OFA) (seit 2004)
 http://www.openfabrics.org/
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 9
Aufbau und Funktion von IB (2/15)
Allgemein (II)
 Netzwerk-Technologie mit seriellen, bidirektionalen
Punkt-zu-Punkt-Verbindungen
 Hohe Bandbreiten
 Niedrige Latenzzeiten
 Niedrige CPU-Belastung durch RDMA (Remote Direct Memory
Access)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 10
Aufbau und Funktion von IB (3/15)
Komponenten (I)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 11
EndnodeEndnode
Endnode
Endnode
Switch
SwitchSwitch
Switch
SwitchSwitch
InfiniBand
Fabric
 Switched Fabric
 InfiniBand-Switches
 InfiniBand-Kabel
Aufbau und Funktion von IB (4/15)
Komponenten (II)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 12
Link Pin Count Signal Rate
(unidirektional)
Bandbreite (Data Rate)
(~80% Signal Rate)
Data Rate
(bidirektional)
1x 4 2,5 Gb/s 2 Gb/s (250 MB/s) 4 Gb/s (500 MB/s)
4x 16 10 Gb/s 8 Gb/s (1 GB/s) 16 Gb/s (2 GB/s)
12x 48 30 Gb/s 16 Gb/s (3 GB/s) 48 Gb/s (6 GB/s)
Aufbau und Funktion von IB (5/15)
Komponenten (III)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 13
Switch
SwitchSwitch
Switch
SwitchSwitch
InfiniBand
Fabric
HCAHCA Memory
CPU CPU CPU
CPU CPU CPU
Memory HCA
 Endnodes
 Host Channel Adapter
(HCA)
 Target Channel Adapter
(TCA)
 InfiniBand-Verbs
I/O
Modul
TCA
I/O
Modul
TCA
I/O
Modul
TCA
TCA
Controller
Aufbau und Funktion von IB (6/15)
Komponenten (IV)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 14
CPU CPU CPU
Memory HCA
HCAHCA Memory
CPU CPU CPU  Router
 Subnet Manager (SM)
SwitchSwitchSwitch
SwitchSwitch
SwitchTCA
Controller
I/O
Modul
TCA
I/O
Modul
TCA
I/O
Modul
TCA
InfiniBand
Fabric
Konsole /
Subnet Manager
Router
Aufbau und Funktion von IB (7/15)
Kommunikation (I)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 15
Switch
Packet
Relay
MAC
Endnode
Remote
Client
IBA
Operation
Network
Link
Encoding
MAC
Router
Packet
Relay
Link
MAC
Endnode
Host
Client
IBA
Operation
Network
Link
Encoding
MAC
Transport
Layer
Network
Layer
Link
Layer
Physical
Layer
Upper
Layers
Transactions
Messages (QP)
Inter Subnet Routing
(IPv6)
Subnet
Routing
(LID)
Flow
Control
Aufbau und Funktion von IB (8/15)
Kommunikation (II)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 16
UserSpace
Applikation
User APIs
IP basierte Appl.
API / VERBS
KernelSpace
Upper Layer Protokoll
Provider
Protokolltreiber
(TCP/IP)
Hardware
Treiber
Hardware
Host Channel Adapter
Network Interface Card
StandardKernel
Bypass
MPI
IPoIB NFS RDMA RDS
…
…
Aufbau und Funktion von IB (9/15)
Subnet Manager (SM) – IB-Switch (I)
 IB-Switches besitzen Forwarding-Tabellen, die vom Subnet
Manager (SM) konfiguriert werden
 Datenpakete werden auf Basis folgender Informationen
weitergeleitet:
 Destination Local Identifier (DLID) im Datenpaket
 Forwarding-Tabelle des IB-Switches
 IB-Switches unterstützen Unicast- und Multicaste-Weiterleitung
 Bei Ausfall eines Links konfiguriert der Subnet Manager (SM)
die Forwarding-Tabellen neu
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 17
Aufbau und Funktion von IB (10/15)
Subnet Manager (SM) – Funktionen (II)
 In jedem InfiniBand-Netzwerk (Subnet) muss ein Subnet
Manager aktiv sein
 Verwaltung aller Komponenten im InfiniBand-Netzwerk
 Ermittelt die Subnet-Topologie
 Weist Local Identifier (LID's) Geräten zu
 Berechnet Forwarding-Tabellen (LFT)
 Überwacht Änderungen im InfiniBand-Netzwerk
 Der Subnet Manager ist in der Regel auf einem Switch oder
Host implementiert
 Es ist nur ein aktiver Subnet Manager erlaubt
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 18
Aufbau und Funktion von IB (11/15)
Subnet Manager (SM) – Adressierung (III)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 19
GUID – 64 bit
Global Unique IDentifier – „Ethernet MAC-Adresse“
Festgelegt durch den IB-Hersteller
Bleibt bei reboot erhalten (persistent)
3 Typen von GUIDs
Node = HCA als Einheit
Port = Port als Einheit
System = Mehrere GUIDs als Einheit.
Aufbau und Funktion von IB (12/15)
Subnet Manager (SM) – Adressierung (IV)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 20
LID – 16 bit
Local IDentifier – „dynamische IP-Adresse“
Festgelegt durch SM bei Aktivierung des Ports
Verteilt der SM dynamisch, können sich ändern
Adressbereiche
0x0000 = reserviert
0x0001 – 0xBFFF = Unicast
0xc001 – 0xFFFE = Multicast
0xFFFF = Reserviert für besondere Zwecke
Aufbau und Funktion von IB (13/15)
Subnet Manager (SM) – Forwarding Regeln (V)
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 21
Ein Datenpaket kann einen IB-Switch nicht über
den Port verlassen an dem es angekommen ist
Die Kommunikation der Datenpakte findet ohne
Einfluss des Subnet Manager (SM) statt
Keine Verbindung geht mehr als einmal durch den
selben IB-Switch (ASIC)
Das InfiniBand Routing ist statisch
Aufbau und Funktion von IB (14/15)
Subnet Manager (SM) – Routing (VI)
 Der Subnet Manager ist verantwortlich für das Setzen der
Forwarding-Tabellen auf allen IB-Switches. In der Forwarding-
Tabelle ist jeder Ziel-Adresse (Destination LID) eine Port-
Nummer zugeordnet. Entsprechend der Forwarding-Tabelle
leitet der IB-Switch die ankommenden Datenpaketen an den
Ziel-Port weiter.
 Zielsetzung der vom Subnet Manager (SM) verwendeten
Routing-Algorithmen sind:
 Correctness: Korrekte Verbindungen (gültige LID-Paths)
zwischen zwei End-Ports
 End-Port ist entweder HCA-Port oder Switch-Port
 Die Verbindung (LID-Path) vom Ende-Port A nach B kann
sich von der Verbindung B nach A unterscheiden
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 22
Aufbau und Funktion von IB (15/15)
Subnet Manager (SM) – Routing (VII)
 Shortest path: Auswahl der kürzesten Verbindung (minimale
Anzahl an Hops) zwischen zwei End-Ports. Die SM berechnet
alle möglichen Pfade zwischen den LID‘s und wählt den
Pfade mit der niedersten Anzahl an Hops aus.
 No credit loop deadlocks: Bevor ein Datenpaket
abgeschickt wird, muss der Ziel-Knoten zurückmelden, dass
ein genügend großer Puffer (cedit) vorhanden ist, um das
Paket zu empfangen.
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 23
Inhalt
1. Typischer HPC-Stack mit InfiniBand
2. Aufbau und Funktion von IB
3. Fragestellungen im Betrieb
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 24
Fragestellungen im Betrieb (1/2)
Allgemein
 Ursprünglich mangelnde Integration in das Betriebssystem
 Community klein, Ressourcen gering (Foren, Blogs, Wikis)
 Guter Support vom Hersteller
 Fehleranalyse aufwendig
 Komplexe Analyse von Applikations-Problemen (MPI-/IB-Stack)
 Erhöhte Komplexität durch Nutzung als MPI- und Storage-Netzwerk
 Optimierungen schwer bzw. nicht möglich
 Schlechte Performance bei ungünstigem Routing oder nicht
erkannten Fabric Errors wie z.B. defekte Komponenten oder
fehlerhafte Verbindungen
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 25
Fragestellungen im Betrieb (2/2)
Beispiel: „Strange Routes“
 Ursache: Schlechte Performance bei ungünstigem Routing
 Erklärung: Für den eingesetzten Min-Hop-Algorithmus sind die
Routes gleichwertig, denn sowohl die "strange routes" als auch
die normalen enthalten gleich viele Hops.
 Lösung: Durch einen Wechsel des Routing-Algorithmus des
Subnet Managers von Min-Hop auf Top-Down konnte dieses
Problem beseitigt werden. Der Top-Down-Algorithmus besitzt
Kenntnis der Topologie und kann daher das Auftreten dieser
"strange routes" vermeiden.
© 2010 science + computing agscience + computing ag | Nov. 2010
Seite 26
Vielen Dank für Ihre Aufmerksamkeit.
science + computing ag
www.science-computing.de
Vortrag von: Harry Schlagenhauf
Telefon: 07071 9457-404
E-Mail: info@science-computing.de

Mais conteúdo relacionado

Destaque

Parental involvement at alternative academic settings
Parental involvement at alternative academic settingsParental involvement at alternative academic settings
Parental involvement at alternative academic settingseeniarrol
 
Mobil platformlar ve uygulamalar rapor
Mobil platformlar ve uygulamalar raporMobil platformlar ve uygulamalar rapor
Mobil platformlar ve uygulamalar raporSuat Furkan ISIK
 
Manejo y construcción de germinadores y manejo de
Manejo y construcción de germinadores y manejo deManejo y construcción de germinadores y manejo de
Manejo y construcción de germinadores y manejo demonicayulicza
 
Funciones de los asesores regionales y distritales
Funciones de los asesores regionales y distritalesFunciones de los asesores regionales y distritales
Funciones de los asesores regionales y distritalesEnrique Ramos
 
100+ keys for powerfully persuasive presentations
100+ keys for powerfully persuasive presentations100+ keys for powerfully persuasive presentations
100+ keys for powerfully persuasive presentationsAkash Karia
 
Big data and analytics ibm digital game plan short v2 nonconf
Big data and analytics ibm digital game plan short v2 nonconfBig data and analytics ibm digital game plan short v2 nonconf
Big data and analytics ibm digital game plan short v2 nonconfFriedel Jonker
 
Diversity of flowers
Diversity of flowersDiversity of flowers
Diversity of flowersVinusan
 
BARCELONA 32 MONUMENTAL IGLESIAS - 1
BARCELONA 32 MONUMENTAL IGLESIAS - 1BARCELONA 32 MONUMENTAL IGLESIAS - 1
BARCELONA 32 MONUMENTAL IGLESIAS - 1Manel Cantos
 
Angina de pecho
Angina de pechoAngina de pecho
Angina de pechoAna Karen
 
Німецька мова_4_клас_Das neue deutschmobil_lehrbuch
Німецька мова_4_клас_Das neue deutschmobil_lehrbuchНімецька мова_4_клас_Das neue deutschmobil_lehrbuch
Німецька мова_4_клас_Das neue deutschmobil_lehrbuchИгор Левченко
 
Macsfs falso ecumenismo
Macsfs falso ecumenismoMacsfs falso ecumenismo
Macsfs falso ecumenismodefiendetufe
 
ITALIA BELLA 1 - ASIS, SIENA, FLORENCIA
ITALIA BELLA 1 - ASIS, SIENA, FLORENCIAITALIA BELLA 1 - ASIS, SIENA, FLORENCIA
ITALIA BELLA 1 - ASIS, SIENA, FLORENCIAManel Cantos
 

Destaque (14)

Maniobras no instrumentales
Maniobras no instrumentalesManiobras no instrumentales
Maniobras no instrumentales
 
Parental involvement at alternative academic settings
Parental involvement at alternative academic settingsParental involvement at alternative academic settings
Parental involvement at alternative academic settings
 
Mobil platformlar ve uygulamalar rapor
Mobil platformlar ve uygulamalar raporMobil platformlar ve uygulamalar rapor
Mobil platformlar ve uygulamalar rapor
 
Manejo y construcción de germinadores y manejo de
Manejo y construcción de germinadores y manejo deManejo y construcción de germinadores y manejo de
Manejo y construcción de germinadores y manejo de
 
Funciones de los asesores regionales y distritales
Funciones de los asesores regionales y distritalesFunciones de los asesores regionales y distritales
Funciones de los asesores regionales y distritales
 
100+ keys for powerfully persuasive presentations
100+ keys for powerfully persuasive presentations100+ keys for powerfully persuasive presentations
100+ keys for powerfully persuasive presentations
 
Planeamiento estrategico
Planeamiento estrategicoPlaneamiento estrategico
Planeamiento estrategico
 
Big data and analytics ibm digital game plan short v2 nonconf
Big data and analytics ibm digital game plan short v2 nonconfBig data and analytics ibm digital game plan short v2 nonconf
Big data and analytics ibm digital game plan short v2 nonconf
 
Diversity of flowers
Diversity of flowersDiversity of flowers
Diversity of flowers
 
BARCELONA 32 MONUMENTAL IGLESIAS - 1
BARCELONA 32 MONUMENTAL IGLESIAS - 1BARCELONA 32 MONUMENTAL IGLESIAS - 1
BARCELONA 32 MONUMENTAL IGLESIAS - 1
 
Angina de pecho
Angina de pechoAngina de pecho
Angina de pecho
 
Німецька мова_4_клас_Das neue deutschmobil_lehrbuch
Німецька мова_4_клас_Das neue deutschmobil_lehrbuchНімецька мова_4_клас_Das neue deutschmobil_lehrbuch
Німецька мова_4_клас_Das neue deutschmobil_lehrbuch
 
Macsfs falso ecumenismo
Macsfs falso ecumenismoMacsfs falso ecumenismo
Macsfs falso ecumenismo
 
ITALIA BELLA 1 - ASIS, SIENA, FLORENCIA
ITALIA BELLA 1 - ASIS, SIENA, FLORENCIAITALIA BELLA 1 - ASIS, SIENA, FLORENCIA
ITALIA BELLA 1 - ASIS, SIENA, FLORENCIA
 

Semelhante a s+c infiniband grundlagen_de_nov10

Lotus Foundations Workshop Teil1
Lotus Foundations Workshop Teil1Lotus Foundations Workshop Teil1
Lotus Foundations Workshop Teil1Andreas Schulte
 
Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...
Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...
Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...OPITZ CONSULTING Deutschland
 
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...NETWAYS
 
OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...
OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...
OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...NETWAYS
 
Tobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-Projekten
Tobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-ProjektenTobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-Projekten
Tobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-ProjektenDevDay Dresden
 
Private Cloud mit Ceph und OpenStack
Private Cloud mit Ceph und OpenStackPrivate Cloud mit Ceph und OpenStack
Private Cloud mit Ceph und OpenStackDaniel Schneller
 
Citrix Day 2013: Citirx Networking
Citrix Day 2013: Citirx NetworkingCitrix Day 2013: Citirx Networking
Citrix Day 2013: Citirx NetworkingDigicomp Academy AG
 
ObserveIt -Record and replay SSH, RDP & Citrix sessions-German
ObserveIt -Record and replay SSH, RDP & Citrix sessions-GermanObserveIt -Record and replay SSH, RDP & Citrix sessions-German
ObserveIt -Record and replay SSH, RDP & Citrix sessions-GermanObserveIT
 
Top 10 Internet Trends 2008
Top 10 Internet Trends 2008Top 10 Internet Trends 2008
Top 10 Internet Trends 2008Jürg Stuker
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk BackbonesMaximilan Wilhelm
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk BackbonesMaximilian Wilhelm
 
IBM Chat/Sametime Migration (CCTY 2016 Munich)
IBM Chat/Sametime Migration (CCTY 2016 Munich)IBM Chat/Sametime Migration (CCTY 2016 Munich)
IBM Chat/Sametime Migration (CCTY 2016 Munich)Novakenstein
 
Power point stadtwerke cottbus w.will 16 9
Power point stadtwerke cottbus w.will 16 9Power point stadtwerke cottbus w.will 16 9
Power point stadtwerke cottbus w.will 16 9Cloud-EcoSystem
 
IPv6 Integration im Datacenter - wie komplex ist es wirklich?
IPv6 Integration im Datacenter - wie komplex ist es wirklich?IPv6 Integration im Datacenter - wie komplex ist es wirklich?
IPv6 Integration im Datacenter - wie komplex ist es wirklich?Swiss IPv6 Council
 
IBM License Metric Tool 9.2.x (edcom 2017)
IBM License Metric Tool 9.2.x (edcom 2017)IBM License Metric Tool 9.2.x (edcom 2017)
IBM License Metric Tool 9.2.x (edcom 2017)Novakenstein
 
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...NETWAYS
 
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud StackInfracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud StackEdmund Siegfried Haselwanter
 
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...JoeyNbg
 

Semelhante a s+c infiniband grundlagen_de_nov10 (20)

Lotus Foundations Workshop Teil1
Lotus Foundations Workshop Teil1Lotus Foundations Workshop Teil1
Lotus Foundations Workshop Teil1
 
Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...
Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...
Wie baue ich eine KI, die besser als jeder Mensch ein Problem und dessen Ursa...
 
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Mart...
 
OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...
OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...
OSMC 2013 | Enterprise Platforms Monitoring at s IT Solutions AT by Johannes ...
 
Tobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-Projekten
Tobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-ProjektenTobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-Projekten
Tobias Nebel - Herausforderungen und Changen in Full-Stack-IoT-Projekten
 
Private Cloud mit Ceph und OpenStack
Private Cloud mit Ceph und OpenStackPrivate Cloud mit Ceph und OpenStack
Private Cloud mit Ceph und OpenStack
 
Citrix Day 2013: Citirx Networking
Citrix Day 2013: Citirx NetworkingCitrix Day 2013: Citirx Networking
Citrix Day 2013: Citirx Networking
 
SAP IDoc
SAP IDocSAP IDoc
SAP IDoc
 
ObserveIt -Record and replay SSH, RDP & Citrix sessions-German
ObserveIt -Record and replay SSH, RDP & Citrix sessions-GermanObserveIt -Record and replay SSH, RDP & Citrix sessions-German
ObserveIt -Record and replay SSH, RDP & Citrix sessions-German
 
VIT 5-2014
VIT 5-2014VIT 5-2014
VIT 5-2014
 
Top 10 Internet Trends 2008
Top 10 Internet Trends 2008Top 10 Internet Trends 2008
Top 10 Internet Trends 2008
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk Backbones
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk Backbones
 
IBM Chat/Sametime Migration (CCTY 2016 Munich)
IBM Chat/Sametime Migration (CCTY 2016 Munich)IBM Chat/Sametime Migration (CCTY 2016 Munich)
IBM Chat/Sametime Migration (CCTY 2016 Munich)
 
Power point stadtwerke cottbus w.will 16 9
Power point stadtwerke cottbus w.will 16 9Power point stadtwerke cottbus w.will 16 9
Power point stadtwerke cottbus w.will 16 9
 
IPv6 Integration im Datacenter - wie komplex ist es wirklich?
IPv6 Integration im Datacenter - wie komplex ist es wirklich?IPv6 Integration im Datacenter - wie komplex ist es wirklich?
IPv6 Integration im Datacenter - wie komplex ist es wirklich?
 
IBM License Metric Tool 9.2.x (edcom 2017)
IBM License Metric Tool 9.2.x (edcom 2017)IBM License Metric Tool 9.2.x (edcom 2017)
IBM License Metric Tool 9.2.x (edcom 2017)
 
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
OSMC 2011 | Collectd in der großen weiten Welt - Anbindung des Datensammlers ...
 
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud StackInfracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
Infracoders Graz, smartOS - vom Netzwerk in der Box - zum Software Cloud Stack
 
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
 

s+c infiniband grundlagen_de_nov10

  • 1. science + computing ag IT-Dienstleistungen und Software für anspruchsvolle Rechnernetze Tübingen | München | Berlin | Düsseldorf InfiniBand-Grundlagen und Betriebsaspekte in HPC-Clustern
  • 2. Inhalt 1. Typischer HPC-Stack mit InfiniBand 2. Aufbau und Funktion von IB 3. Fragestellungen im Betrieb © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 2
  • 3. Inhalt 1. Typischer HPC-Stack mit InfiniBand 2. Aufbau und Funktion von IB 3. Fragestellungen im Betrieb © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 3
  • 4. Typischer HPC-Stack mit InfiniBand (1/4) Zielsetzung  Vendor: Sun Microsystems  Aufbau/Stand: Okt. 2008  Anwendungen: StarCD, StarCCM+, StarCD+ICE, StarCD+GTpower  Betriebssystem: CentOS 5.2  Management LAN: Gigabit Ethernet  Interconnect: InfiniBand  Paralleles Filesystem: Lustre 1.6.5.1  Management: s.cluster/VIIP, scVENUS  Queuing-System: Sun Grid Engine (SGE) 6.0 © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 4
  • 5. Typischer HPC-Stack mit InfiniBand (2/4) Aufbau © 2010 science + computing agscience + computing ag | Nov. 2010 Page 5 Fast Ethernet (Management LAN): Nortel Networks 2550T Gigabit Ethernet (Public LAN): Notel Networks 5510T-48 Compute Nodes: 33x Sun Fire X2200 M2 Management Node: Sun Fire x4440 Cluster File System: 2x Sun Fire x4540 (OSS) 2x Sun Fire x4100 (MDS) Sun StorEdge 3320 Interconnect: Voltaire ISR 2012
  • 6. Typischer HPC-Stack mit InfiniBand (3/4) InfiniBand Fabric + Lustre © 2010 science + computing agscience + computing ag | Nov. 2010 Page 6 InfiniBand Fabric Management Node Cluster File System: LustreCompute Nodes … Shared MDS Storage StorEdge 3320 Array 8x 146 GByte OSS Storage 2x Sun Fire X4540 je 48 TByte brutto
  • 7. Typischer HPC-Stack mit InfiniBand (4/4) InfiniBand Fabric + Lustre © 2010 science + computing agscience + computing ag | Nov. 2010 Page 7 Cluster Size Performance NFS Scaling Lustre File System Scaling Linear Scaling
  • 8. Inhalt 1. Typischer HPC-Stack mit InfiniBand 2. Aufbau und Funktion von InfiniBand (IB) 1. Allgemein 2. Komponenten 3. Kommunikation 4. Subnet Manager 3. Fragestellungen im Betrieb © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 8
  • 9. Aufbau und Funktion von IB (1/15) Allgemein (I)  InfiniBand Architecture (IBA) ist eine offene Standard- Architektur für  Server I/O  Server – Server Kommunikation (Netzwerk)  InfiniBand Trade Association (IBTA) (seit 1999)  http://www.infinibandta.org/  OpenFabrics Alliance (OFA) (seit 2004)  http://www.openfabrics.org/ © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 9
  • 10. Aufbau und Funktion von IB (2/15) Allgemein (II)  Netzwerk-Technologie mit seriellen, bidirektionalen Punkt-zu-Punkt-Verbindungen  Hohe Bandbreiten  Niedrige Latenzzeiten  Niedrige CPU-Belastung durch RDMA (Remote Direct Memory Access) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 10
  • 11. Aufbau und Funktion von IB (3/15) Komponenten (I) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 11 EndnodeEndnode Endnode Endnode Switch SwitchSwitch Switch SwitchSwitch InfiniBand Fabric  Switched Fabric  InfiniBand-Switches  InfiniBand-Kabel
  • 12. Aufbau und Funktion von IB (4/15) Komponenten (II) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 12 Link Pin Count Signal Rate (unidirektional) Bandbreite (Data Rate) (~80% Signal Rate) Data Rate (bidirektional) 1x 4 2,5 Gb/s 2 Gb/s (250 MB/s) 4 Gb/s (500 MB/s) 4x 16 10 Gb/s 8 Gb/s (1 GB/s) 16 Gb/s (2 GB/s) 12x 48 30 Gb/s 16 Gb/s (3 GB/s) 48 Gb/s (6 GB/s)
  • 13. Aufbau und Funktion von IB (5/15) Komponenten (III) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 13 Switch SwitchSwitch Switch SwitchSwitch InfiniBand Fabric HCAHCA Memory CPU CPU CPU CPU CPU CPU Memory HCA  Endnodes  Host Channel Adapter (HCA)  Target Channel Adapter (TCA)  InfiniBand-Verbs I/O Modul TCA I/O Modul TCA I/O Modul TCA TCA Controller
  • 14. Aufbau und Funktion von IB (6/15) Komponenten (IV) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 14 CPU CPU CPU Memory HCA HCAHCA Memory CPU CPU CPU  Router  Subnet Manager (SM) SwitchSwitchSwitch SwitchSwitch SwitchTCA Controller I/O Modul TCA I/O Modul TCA I/O Modul TCA InfiniBand Fabric Konsole / Subnet Manager Router
  • 15. Aufbau und Funktion von IB (7/15) Kommunikation (I) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 15 Switch Packet Relay MAC Endnode Remote Client IBA Operation Network Link Encoding MAC Router Packet Relay Link MAC Endnode Host Client IBA Operation Network Link Encoding MAC Transport Layer Network Layer Link Layer Physical Layer Upper Layers Transactions Messages (QP) Inter Subnet Routing (IPv6) Subnet Routing (LID) Flow Control
  • 16. Aufbau und Funktion von IB (8/15) Kommunikation (II) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 16 UserSpace Applikation User APIs IP basierte Appl. API / VERBS KernelSpace Upper Layer Protokoll Provider Protokolltreiber (TCP/IP) Hardware Treiber Hardware Host Channel Adapter Network Interface Card StandardKernel Bypass MPI IPoIB NFS RDMA RDS … …
  • 17. Aufbau und Funktion von IB (9/15) Subnet Manager (SM) – IB-Switch (I)  IB-Switches besitzen Forwarding-Tabellen, die vom Subnet Manager (SM) konfiguriert werden  Datenpakete werden auf Basis folgender Informationen weitergeleitet:  Destination Local Identifier (DLID) im Datenpaket  Forwarding-Tabelle des IB-Switches  IB-Switches unterstützen Unicast- und Multicaste-Weiterleitung  Bei Ausfall eines Links konfiguriert der Subnet Manager (SM) die Forwarding-Tabellen neu © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 17
  • 18. Aufbau und Funktion von IB (10/15) Subnet Manager (SM) – Funktionen (II)  In jedem InfiniBand-Netzwerk (Subnet) muss ein Subnet Manager aktiv sein  Verwaltung aller Komponenten im InfiniBand-Netzwerk  Ermittelt die Subnet-Topologie  Weist Local Identifier (LID's) Geräten zu  Berechnet Forwarding-Tabellen (LFT)  Überwacht Änderungen im InfiniBand-Netzwerk  Der Subnet Manager ist in der Regel auf einem Switch oder Host implementiert  Es ist nur ein aktiver Subnet Manager erlaubt © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 18
  • 19. Aufbau und Funktion von IB (11/15) Subnet Manager (SM) – Adressierung (III) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 19 GUID – 64 bit Global Unique IDentifier – „Ethernet MAC-Adresse“ Festgelegt durch den IB-Hersteller Bleibt bei reboot erhalten (persistent) 3 Typen von GUIDs Node = HCA als Einheit Port = Port als Einheit System = Mehrere GUIDs als Einheit.
  • 20. Aufbau und Funktion von IB (12/15) Subnet Manager (SM) – Adressierung (IV) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 20 LID – 16 bit Local IDentifier – „dynamische IP-Adresse“ Festgelegt durch SM bei Aktivierung des Ports Verteilt der SM dynamisch, können sich ändern Adressbereiche 0x0000 = reserviert 0x0001 – 0xBFFF = Unicast 0xc001 – 0xFFFE = Multicast 0xFFFF = Reserviert für besondere Zwecke
  • 21. Aufbau und Funktion von IB (13/15) Subnet Manager (SM) – Forwarding Regeln (V) © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 21 Ein Datenpaket kann einen IB-Switch nicht über den Port verlassen an dem es angekommen ist Die Kommunikation der Datenpakte findet ohne Einfluss des Subnet Manager (SM) statt Keine Verbindung geht mehr als einmal durch den selben IB-Switch (ASIC) Das InfiniBand Routing ist statisch
  • 22. Aufbau und Funktion von IB (14/15) Subnet Manager (SM) – Routing (VI)  Der Subnet Manager ist verantwortlich für das Setzen der Forwarding-Tabellen auf allen IB-Switches. In der Forwarding- Tabelle ist jeder Ziel-Adresse (Destination LID) eine Port- Nummer zugeordnet. Entsprechend der Forwarding-Tabelle leitet der IB-Switch die ankommenden Datenpaketen an den Ziel-Port weiter.  Zielsetzung der vom Subnet Manager (SM) verwendeten Routing-Algorithmen sind:  Correctness: Korrekte Verbindungen (gültige LID-Paths) zwischen zwei End-Ports  End-Port ist entweder HCA-Port oder Switch-Port  Die Verbindung (LID-Path) vom Ende-Port A nach B kann sich von der Verbindung B nach A unterscheiden © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 22
  • 23. Aufbau und Funktion von IB (15/15) Subnet Manager (SM) – Routing (VII)  Shortest path: Auswahl der kürzesten Verbindung (minimale Anzahl an Hops) zwischen zwei End-Ports. Die SM berechnet alle möglichen Pfade zwischen den LID‘s und wählt den Pfade mit der niedersten Anzahl an Hops aus.  No credit loop deadlocks: Bevor ein Datenpaket abgeschickt wird, muss der Ziel-Knoten zurückmelden, dass ein genügend großer Puffer (cedit) vorhanden ist, um das Paket zu empfangen. © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 23
  • 24. Inhalt 1. Typischer HPC-Stack mit InfiniBand 2. Aufbau und Funktion von IB 3. Fragestellungen im Betrieb © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 24
  • 25. Fragestellungen im Betrieb (1/2) Allgemein  Ursprünglich mangelnde Integration in das Betriebssystem  Community klein, Ressourcen gering (Foren, Blogs, Wikis)  Guter Support vom Hersteller  Fehleranalyse aufwendig  Komplexe Analyse von Applikations-Problemen (MPI-/IB-Stack)  Erhöhte Komplexität durch Nutzung als MPI- und Storage-Netzwerk  Optimierungen schwer bzw. nicht möglich  Schlechte Performance bei ungünstigem Routing oder nicht erkannten Fabric Errors wie z.B. defekte Komponenten oder fehlerhafte Verbindungen © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 25
  • 26. Fragestellungen im Betrieb (2/2) Beispiel: „Strange Routes“  Ursache: Schlechte Performance bei ungünstigem Routing  Erklärung: Für den eingesetzten Min-Hop-Algorithmus sind die Routes gleichwertig, denn sowohl die "strange routes" als auch die normalen enthalten gleich viele Hops.  Lösung: Durch einen Wechsel des Routing-Algorithmus des Subnet Managers von Min-Hop auf Top-Down konnte dieses Problem beseitigt werden. Der Top-Down-Algorithmus besitzt Kenntnis der Topologie und kann daher das Auftreten dieser "strange routes" vermeiden. © 2010 science + computing agscience + computing ag | Nov. 2010 Seite 26
  • 27. Vielen Dank für Ihre Aufmerksamkeit. science + computing ag www.science-computing.de Vortrag von: Harry Schlagenhauf Telefon: 07071 9457-404 E-Mail: info@science-computing.de