4. Описание проблемы
• MPLS трафик проходит по одному пути
• P узлы выполняют балансировку по сервисным
PW меткам
• невозможно распределить трафик одного псевдопровода
по разным путям
P1 P2
CE1 CE2
PE1 PE2
P3 P4
5. Решение
• Добавление специальной потоковой метки до сервисной метки PW
Payload Flow Label VC Label Tunnel Label L2
• Позволяет разбалансировать трафик одного псевдопровода по
нескольким путям
P1 P2
CE1 CE2
PE1 PE2
P3 P4
http://datatracker.ietf.org/doc/draft-ietf-pwe3-fat-pw/
6. Сигнализация
• AToM/LDP сигнализирует возможности устройства по работе
с потоковой меткой
• И PE вычисляет и вставляет потоковую метку
• Egress PE удаляет потоковую метку
• Формат Flow label sub-TLV
0 7 15 16 17 31
Flow Label ID Length T R Reserved
T=1,R=1 –> PE добавляет и удаляет flow label
T=0,R=1 –> PE только удаляет flow label
T=1,R=0 –> PE только добавляет flow label
T=0,R=0 –> функция не включена
Отсутствие sub-TLV в label mapping сообщении
означает, что функция не поддерживается PE
7. Статическая конфигурация
1. T и R биты статически задаются на PE
2. Работающие комбинации
PE1 PE2
T = 1, R = 1 T = 1, R = 1
T = 1, R = 0 T = 0, R = 1
T = 0, R = 1 T = 1, R = 0
T = 0, R = 0 T = 0, R = 0
8. Реализация FAT-PW
1. 7600 (ES+ карты в ядро, SRE)
platform vfi load-balance-label vlan [vlan|vlan-vlan]
2. CRS1 (4.2.0) и ASR9000 (4.2.1)
L2vpn
pw-class <class>
encapsulation mpls
load-balancing flow-label
{dynamic|static} {both|dispose|impose}
l2vpn
bridge group <group>
bridge-domain <domain>
load-balancing flow-label
{dynamic|static} {both|dispose|impose}
10. Multi-chassis Link Aggregation
ASR 9000 (4.0.0)
Virtual LACP Peer Cisco 7600 (SRE)
Backup NPE
DHD
ICCP
LAG with LACP
Primary NPE
Dual-home Access Node (DHD) подключается к двум NPE посредством
протокола LACP (link aggregation control protocol)
– Режим работы Active/Standby в первой фазе внедрения
– Клиент (DHD) использует стандартный 802.3ad LAG и LACP и
«думает» что подключен к одному устройству
ICCP – протокол по которому осуществляется согласование
параметров LACP и приоритетов линков между NPE
11. Link Aggregation Control Protocol
• Системные параметры:
– System MAC address: MAC адрес, уникально идентифицирующий
коммутатор
– System priority: определяет, на какой системе будет выбираться
приоритет порта
• Параметры LAG:
– Aggregator key: идентифицирует LAG внутри коммутатора
– Maximum links per bundle: максимальное количество активных
интерфейсов в LAG – для отказоустойчивых конфигураций
– Minimum links per bundle: количество активных интерфейсов в
LAG, при уменьшении которых LAG становится неактивным
Key: 10
Port #: 1, Priority: 10
Key: 10 Port #: 2, Priority: 11
System Priority: 3 Agg3 Agg1 System Priority: 5
System MAC: M2 System MAC: M1
Agg4 Agg2
Key: 35
Port #: 3, Priority: 5 Key: 20
Port #: 4, Priority: 6
12. Link Aggregation Control Protocol
• Параметры порта:
– Port key: определяет, какие порты могут быть
агргегированы в один интерфейс (локальное значение)
– Port priority: определяет, какие порты будут в бандле, если
общее кол-во работающих портов в LAG больше
максимального для данного LAG
– Port number: идентификатор порта в коммутаторе
(локальное значение)
Key: 10
Port #: 1, Priority: 10
Key: 10 Port #: 2, Priority: 11
System Priority: 3 Agg3 Agg1 System Priority: 5
System MAC: M2 System MAC: M1
Agg4 Agg2
Key: 35
Port #: 3, Priority: 5 Key: 20
Port #: 4, Priority: 6
13. Расширение LACP: mLACP
• mLACP использует ICCP для синхронизации LACP
конфигурации и состояний между двумя коммутаторами PoA,
для того чтобы DHD устройство воспринимало их как обычного
LACP соседа
• Оба PoA используют один и тот же System MAC Address и
System Priority при взаимодействии с DHD
• Для каждого PoA настраивается уникальный Node ID (значение
от 0 до 7). Node ID + 8 формирует старшие разряды Port
Number
• Для каждого LAG на всех интерфейсах конкретного POA Port
Priority должен быть одинаковым
Port #: 0x9001, Port Priority 1
PoA1
Node ID: 1
DHD
System MAC:
aaaa.bbbb.cccc
ICCP System Priority: 1
Node ID: 2
PoA2
LACP Port #:0xA001, Port Priority 2
14. Компоненты mLAG
Virtual LACP Peer
Redundancy Group
Standby POA
1 LACP
Coupled or De-coupled
L2 and L3 service
3
2 ICCP
DHD
4 Механизм обнаружения
неисправностей и
Active POA переключения
LACP (между DHD и парой PE) DHD и POA договариваются, какие линки будут
активны, а какие – standby. Хотя бы один линк к active POA должен быть активным.
Все линки к standby POA должны быть standby
ICCP (между двумя POA) à обмен информацией и синхронизация состояния
L2 & L3 сервис à LAG (саб-)интерфейс является точкой терминации сервиса.
Состояние порта в группе LAG (active/standby) может определять статус сервиса
(например, состояние PW – active/standby)
15. Inter Chassis Communication Protocol
RG1 RG2
ICCP работает между парой устройств
формируя “redundancy group”. Допускается
несколько таких групп на устройство
ICCP обеспечивает синхронизацию
конфигурации и статуса LACP в группе
Все устройства в группе используют один и
ICCP over Dedicated Link or
тот-же System MAC Address & System Priority shared Network
в LACP
RG1
Драфт стандарта IETF[2] : draft-ietf-pwe3-
iccp-02.txt
ICCP работает поверх T-LDP поверх TCP.
Достаточно просто IP соединения.
ICCP over Shared Network
16. Настройки MC-LAG
• System priority маршутизатора – настраивать
выше(значение меньше) чем у DHD. Тогда именно
маршрутизатор будет определять какие линки должны
быть активными а какие standby
• Настраивается Non-revertive или revertive поведение для
группы
– Non-revertive означает что после восстановления основного
активным остается резервный маршрутизатор
– Revertive - означает что после восстановления бандла на
основном маршрутизаторе он и станет активным.
– Можно настроить таймер для задержки переключения
• MC-LAC интерфейс обеспечивает EoMPLS, VPLS, L3
сервисы
17. • Max Links в
3. LACP Exchanges Standby PoA LAG: L
Отработка отказов • Min Links в
LAG: M
L=2
2A. Сигнализация
Отказы портов/каналов DHD
A ICCP отказа по ICCP
B
2B. Dynamic Port 1. Evaluate # of
Priority или Brute-
C links
force failover Active PoA
Шаг 1 – активный PoA оценивает количество живый
интерфейсов в LAG:
Если > M, ничего не делается
If < M, переключение на второй PoA
Шаг 2A – активный PoA сообщает об отказе резервному PoA
по ICCP
Шаг 2B – На DHD переключение происходи благодаря
одному из механизмов
Dynamic Port Priority Mechanism: автоматическое изменение LACP
Port Priority на активном PoA чтобы интерфейсы на резервном PoA
были более приоритетными
Brute-force Mechanism: изменение состояния интерфейсов на
активном PoA в admin down
Шаг 3 – Резервный PoA и DHD поднимают резервные
интерфейсы как в обычном LACP
18. 2. LACP Exchanges Standby PoA
Отработка отказов
Отказ узла DHD ICCP
1A. IP Route-
Watch or BFD
timeout
1B. Links Down D
Active PoA
Шаг 1A – Резервный PoA обнаруживает отказ основного
PoA благодаря:
– IP Route-watch: потеря роутинговой информации о
доступности
– BFD: потеря BFD keepalive
Шаг 1B – DHD обнаруживает отказ на всех интерфейсах к
основному PoA
Шаг 2 – Резервный PoA и DHD активируют резервные
интерфейсы как в обычно LACP
19. 3. LACP Exchanges Standby PoA
Отработка отказов
2A. Signal failover
Изоляци PoA DHD ICCP
over ICCP
1. Detect core
2B. Dynamic Port isolation
Priority or Brute- E
force failover
Active PoA
Шаг 1 – Основной PoA обнаруживает отказ магистральных
интерфейсов
Шаг 2A – Основной PoA сигнализирует резервному PoA по
ICCP о переключении
Шаг 2B – Основной PoA использует либо Dynamic Port
Priority или Brute-force Mechanism для сигнализации DHD
о переключении
Шаг 3 – Резервный PoA и DHD поднимают резервные
интерфейсы как в обычном LACP
20. Интеграция mLACP с VPWS на магистрали
A A
Active PW
Active POA-1 Active POA-3
LACP ICCP ICCP LACP
Standby PW
S S
Standby POA-2 Standby POA-4
Прокладываются main/backup Pseudowires между парами NPE.
LDP пути выстраиваются для всех 4-х PW но 3 из них объявляются standby с той или с
другой стороны и не используются для форвардинга
Состояние PW определяется attachment circuit “Active/Standby” (Coupled mode)
Используется только тот PW который объявлен Active с обоих сторон
В случае переключения – новый NPE сигнализирует новые состояния PW
21. Интеграция mLACP и VPLS
VFI A VFI
Active POA
LACP ICCP L2 access
VFI Link blocked by L2
VFI A
Standby POA redundancy protocol
VPLS PW всегда UP и не связан с состоянием AC (Decoupled mode)
Форвардинг трафика осуществляется по MAC learning
В случае переключения новый NPE генерирует MAC withdrawal для VPLS домена
22. Интеграция mLACP и H-VPLS
BD A VFI
Active PW
Active POA
LACP ICCP
MPLS
Standby PW
BD VFI
A
Standby POA
Active PW
VPLS PW всегда UP и не связан с состоянием AC (Decoupled mode)
Образуются два активных Pseudowire
В случае переключения новый NPE генерирует MAC withdrawal для VPLS домена
23. Переключение на резервный NPE
• При потере связи с главным NPE:
– ICC Heartbeat
– IP Route watch
– BFD
• При потере связи с магистралью
– Мониторятся магистральные интерфейсы. Сбой
сигнализируется по ICCP
• При потере AC (access circuit)
– Если количество линков < Min-link cигнализируется сбой по
ICCP
– LACP fast-switchover ускоряет работу протокола
• При переключении отсылается MAC withdrawal
– Re-learning in HW – millisecond time
25. ASR 9000 nV Edge
Использование наработок
IOS-XR CRS multi-chassis
инфраструктуры
Fabric
chassis
ASR 9000 nV
CRS Multi-Chassis Edge
Единая плоскость управления, полностью распределенная
плоскость передачи данных между двумя шасси ASR9000
единая виртуальная nV система
Удвоение емкости устройства и упрощение механизмов
отказоустойчивости
26. Обзор nV Edge
Расширение канала управления EOBC (L1 или L2 Расширение EOBC
соединение) 1G/10G ports на RSP
Один или два 10G/1G с каждого RSP
0 1
Active Secondary Standby Secondary
RSP RSP RSP RSP Внутренний
EOBC
LC LC LC LC LC LC LC LC
Каналы передачи данных между шасси (L1 Обычные 10G или 100G порты
соединение)
10G или 100 G бандлы (до 32 портов)
Control plane EOBC extension is through special 1G or 10G EOBC ports on the RSP.
External EOBC could be over dedicated L1 link, or over port-mode L2 connection
Data plane extension is through regular LC ports (it can even mix regular data ports and
inter-chassis data plane ports on the same LC)
Doesn’t require dedicated fabric chassis flexible co-located or different location
deployment, lower cost
27. Отказоустойчивость плоскости
управления Active control plane
Standby control plane
0 1
Active Standby
Secondary Active
Standby Standby
Secondary
RSP RSP RSP
RSP RSP
RSP
DSC Chassis Non DSC Chassis
LC LC LC LC LC LC LC LC
• Only one Active RSP, Only one standby RSP at a given time, which are located on
two different chassis
– SSO/NSF/NSR works exactly the same way as two RSPs on the same chassis
– Reliable out of band control channel between two chassis
– IOS-XR control plan can tolerant hundreds of msec latency*, although the latency
can impact overall service convergence time
• Virtual Chassis is always on as long as there is one chassis and one RSP alive
* Practically, recommend maximum 10msec latency between two
chassis
28. Передача данных
0 1
Active Secondary Standby Secondary
RSP RSP RSP RSP
LC LC LC LC LC LC LC LC
Эмуляция матрицы
коммутации
• Inter-chassis data links simulate the switch fabric , which provide the data connection
between two chassis. It has similar features as switch fabric, for example, fabric qos.
Packet load balancing over inter-chassis links is same as regular link bundle: per-flow
based
• Keep the existing IOS-XR two-stage forwarding model no forwarding architecture
change for single chassis vs. nV Edge system
• In case of ECMP or link bundle paths cross two chassis, it prefer local port instead of load
balancing packet to the other chassis. This is to reduce the inter-chassis link usage as
much as possible. However, this feature (local rack preference) could be turn off by user
CLI
• Only single Multicast copy is sent over inter-chassis link. Multicast replication is done on
egress line cards and fabric on the local chassis
29. Передача данных
Двухстадийная коммутация IOS XR
Inter- Inter-
Chassis LC Chassis LC
Data Plane Data Plane
3 4
Decapsulation
Encapsulation
P1 P1
Ingress LC P2
Egress LC
Inter-Chassis Link bundle
P2
Data Plane
Data Plane
Load Balance
P1
Lookup
LOOKUP
P
P2
1
P
Inter- Inter-
2
Chassis LC Chassis LC
1 2
Data Plane Data Plane 5
Decapsulation
Encapsulation
3 4
P1 P1
P2 P2
Chassis 0 Chassis 1
1 Ingress Forwarding Inter-Chassis Egress Forwarding
Lookup L2/L3/Mcast 3 Encapsulation 5 Lookup L2/L3/Mcast
regular lookup regular lookup
Inter-Chassis Load Balance Load Inter-Chassis
2 balance across multiple inter-chassis 4 Decapsulation
links
30. Локальная коммутация более предпочтительна
multicast
unicast
Пакет будет передан
через другое шасси,
только если не
обеспечен dual-homing L3 ECMP
Active/active
link bundle
31. Отказоустойчивость L2VPN
A A
Active PW Active/standby MC-LAG
bandwidth inefficiency
Active Active 4 PWs with 3 standby
control plane overhead
Standby PW PW failover time depends on
LACP S
the number of PWs slow
S LACP convergence
Require additional state
Standby Standby sync (for example, IGMP
Snooping table) to speed up
Решение 1: MC-LAG + 2-way PW redundancy service convergence
complex
Active/active regular LAG
Single PW
Link/Node failure is
protected by LAG, PW is even
not aware super fast
convergence
Решение 2: ASR 9000 nV Edge State sync naturally
Simple, fast: 50msec
convergence independent of
PW scale
33. Обзор
решения
• Задача: обеспечить L3 взаимодействие между CE и сервисным PE
• Сеть доступа/агрегации обеспечивает проброс L2 фреймов до
сервисного PE
34. Интерфейс PW headend
• PW headend – обычный L3
интерфейс S-PE
• Поддержка фич, стандартных
для L3 интерфейсов: Qos,
ACL, статистика
• Поддержка протоколов Physical
In,
маршрутизации Physical
In,
• Если PW перестает
работать, то PW-HE PW
L3
интерфейс ему
соответствующий переходит
в состояние down