Ein adaptives System ist in der Lage sich zur Laufzeit anzupassen und somit auf dynamische Veränderungen in seiner Umgebung zu reagieren. Eine wesentliche Herausforderung bei der Entwicklung adaptiver Systeme ist festzulegen, wann und wie sich das System zur Laufzeit anpassen soll. Dies erfordert die Antizipation zukünftiger Umgebungssituationen sowie eine genaue Kenntnis der Auswirkungen der Adaptionsmöglichkeiten auf das System. Beides ist aufgrund von unvollständigem Wissen zur Entwicklungszeit (sog. „design time uncertainty“) im Allgemeinen nicht vollständig möglich.
In diesem Vortrag wird als Lösungsansatz für diese Herausforderung das Online-Reinforcement-Learning (Online-RL) vorgestellt. Online-RL lernt auf Basis von Laufzeit-Feedback geeignete Adaptionen. Der Vortrag führt zunächst in die Grundlagen adaptiver Systeme und RL ein. Im Hauptteil werden zwei konkrete Probleme beim Einsatz von Online-RL für adaptive Systeme vorgestellt: (1) Adaptive Systeme verfügen typischerweise über eine große Anzahl von Adaptionsmöglichkeiten. Eine große Anzahl von Adaptionsmöglichkeiten führt bei aktuellen Online-RL-Verfahren für adaptive Systeme jedoch zu einem langsamen Lernprozess. (2) Adaptive Systeme werden häufig in nichtstationären Umgebungen eingesetzt, was bedeutet, dass sich die Effekte von Adaptionen über die Zeit ändern können. Mit solchen nichtstationären Umgebungen können aktuelle Online-RL-Verfahren für adaptive Systeme nicht automatisch umgehen. Der Vortrag stellt aktuelle Forschungsansätze zur Adressierung dieser beiden Probleme vor. Er schließt mit einer kritischen Diskussion und einem Ausblick auf weiterführende Forschungsfragen.
2. Agenda
1. Herausforderungen beim Engineering Adaptiver Systeme
2. Online-Reinforcement-Learning für Adaptive Systeme
3. Problem 1: Große Anzahl an Adaptionsmöglichkeiten
4. Problem 2: Nichtstationarität
5. Diskussion und Ausblick
Antrittsvorlesung apl Prof 2
3. Grundlagen
(Selbst-)Adaptives Software-System [Salehie & Tahvildari, 2009; Weyns, 2021]
• Beobachtet Veränderungen in Umgebung, Anforderungen und sich selbst
• Modifiziert seine Struktur, Parameter und Verhalten
Beispielhaftes Software-Lebenszyklusmodell [Metzger, 2021]
Antrittsvorlesung apl Prof 3
DEV OPS
self-observe
ADAPT
self-modify
4. Grundlagen
MAPE-K Referenzmodell [Kephart & Chess, 2003; Salehie & Tahvildari, 2009]
Beispiel: Adaptiver Web-Shop
• Monitor: Drastischer Anstieg der Nutzer (Workload)
• Analyze: Zu langsame Antwortzeit des Web-Shops
• Plan: Deaktivierung optionaler Empfehlungs-Funktionalität
• Execute: Ersetzen dynamischer Empfehlungen durch statischen Banner
Antrittsvorlesung apl Prof 4
Self-Adaptation Logic
Analyze
Monitor Execute
Plan
Knowledge
Ableiten konkreter
Anpassungen
Umsetzen der
Anpassungen
Feststellen der
Anpassungs-
notwendigkeit
Sammeln und
aggregieren von
Beobachtungsdaten
System Logic
Sensors Effectors
0
e
+
0
0
1
e
+
0
5
2
e
+
0
5
3
e
+
0
5
4
e
+
0
5
5
e
+
0
5
6
e
+
0
5
1
0
0
1
5
0
2
0
0
2
5
0
d
$
e
p
i
s
o
d
e
Workload
Zeit
5. Engineering Adaptiver Systeme
Herausforderung „Design Time Uncertainty“ [Weyns et al. 2013; Weyns, 2021]
Antizipation möglicher Umgebungssituationen
• Auf welche möglichen Umgebungszustände soll das adaptive System reagieren?
• Beispiel: Unterschiedliche Workloads des Web-Shops
Kenntnis der Auswirkungen von Adaptionen auf das System
• Welchen genauen Effekt hat welche Adaption in welcher Umgebungssituation?
• Welche Adaptation ist jeweils geeignet?
• Beispiel: Konkreter Effekt des Abschaltens der dynamischen Empfehlungen auf Antwortzeit?
Umgang mit Nicht-Stationarität („Concept Drift“)
• Welche Effekte welcher Adaptationen ändern sich über die Zeit?
• Beispiel: Cloud-Provider migriert auf leistungsstärkere Rechner
Anpassung des Web-Shops hat andere Auswirkung auf die Antwortzeit als vor der Migration
Antrittsvorlesung apl Prof 5
6. Agenda
1. Herausforderungen beim Engineering Adaptiver Systeme
2. Online-Reinforcement-Learning für Adaptive Systeme
3. Problem 1: Große Anzahl an Adaptionsmöglichkeiten
4. Problem 2: Nichtstationarität
5. Diskussion und Ausblick
Antrittsvorlesung apl Prof 6
7. Online Reinforcement Learning
Online-Reinforcement-Learning
Lösungsansatz für „Design Time Uncertainty“
[Xu et al. 2012; Jamshidi et al. 2015; Arabnejad et al., 2017; Wang et al. 2020]
• Einsatz von Reinforcement Learning zur Laufzeit
• Lernen auf Basis konkreter Beobachtungen (Daten, Feedback)
Antrittsvorlesung apl Prof 7
Self-Adaptation Logic
Analyze
Monitor Execute
Plan
Knowledge
System Logic
Sensors Effectors
Learn
Feedback Update
8. Reinforcement Learning (RL)
Grundlegendes „Modell“
[Sutton & Barto, 2018]
Ziel von RL: Maximierung des
kumulativen Rewards
basierend auf [Sutton & Barto, 2018]
Action A
State S
Reward R
Action
Selection
Next state S’
Agent
Policy
Policy Update
Environment
Antrittsvorlesung apl Prof 8
Standard-Beispiel: „Cliff Walk“
Actions = {UP, DOWN,
LEFT, RIGHT}
Reward
[Sutton & Barto, 2018]
States:
10. Action Selection
Prinzipien
• Exploration = Akkumulation von neuem Wissen
• Exploitation = Nutzung existierenden Wissens
Exploitation-Exploration Tradeoff
• Pro Lernschritt: entweder Exploitation oder Exploration
• Exploitation maximiert Reward in dem einen Schritt
• Exploration maximiert (langfristig) kumulativen Reward
Standardverfahren
• -greedy: Mit Wahrscheinlichkeit
• -decay: Schrittweise Reduktion
von zur Konvergenz des Lernprozesses
10
Antrittsvorlesung apl Prof
: Exploration: Wahl einer
zufälligen Aktion
(1- ): Exploitation: Wahl der laut Q
besten Aktion = Greedy Action
11. Policy Update: Basisalgorithmen
Q-Learning: „off-policy“
• Aktualisierung ohne Berücksichtigung
der bereits gelernten Policy
SARSA: „on-policy“
• Aktualisierung unter Kenntnis
der bereits gelernten Policy
11
Antrittsvorlesung apl Prof
SARSA
Q-Learning
Hyperparameter
„Discount Factor“
Hyperparameter
„Learning Rate“
12. Online-RL für Adaptive Systeme
Kombination von MAPE-K und RL [Palm et al. 2020; Metzger et al. 2022]
Self-Adaptation Logic
Analyze
Monitor Execute
Plan
Knowledge
Action A
State S
Reward R
Action
Selection
Next state S’
Agent
Policy
Policy Update
Environment
Self-Adaptation Logic
Realized via Reinforcement Learning
Execute
Policy
(Knowledge)
Monitor
Action
Selection
(Analyze + Plan)
Policy Update
Action
A
State S
Reward R
Next state S’
Antrittsvorlesung apl Prof 12
Action = Adaptionsentscheidung
Reward = Wie gut war die jeweilige
Adaptionsentscheidung?
13. Agenda
1. Herausforderungen beim Engineering Adaptiver Systeme
2. Online-Reinforcement-Learning für Adaptive Systeme
3. Problem 1: Große Anzahl an Adaptionsmöglichkeiten
4. Problem 2: Nichtstationarität
5. Diskussion und Ausblick
Antrittsvorlesung apl Prof 13
14. Problem beim Einsatz von Online-RL
Exploration großer Anzahl diskreter Adaptionsmöglichkeiten
• Beispiel: Service-orientiertes System
• 8 abstrakte Services mit je 2 konkreten Services
• 256 diskrete Adaptionsmöglichkeiten
State of the Art bei adaptiven Systemen (z.B. [Xu et al. 2012; Jamshidi et al.
2015; Arabnejad et al., 2017; Wang et al. 2020])
• Nutzung von -greedy für Exploration-Exploitation-Tradeoff
• Exploration erfolgt zufällig
Langsames Lernen bei großer Anzahl
Adaptationsmöglichkeiten
(siehe auch z.B. [Filho & Porter, 2017; Dulac-Arnold et al., 2015])
14
Antrittsvorlesung apl Prof
15. Lösungsansatz
Feature-Modell-geführte
Lernstrategien für
systematische Exploration
[Metzger et al., 2020a; Metzger et al., 2022]
Explizite Modellierung
der Adaptionsmöglichkeiten
in einem Feature-Modell
aus der Software-
Produktlinienentwicklung
[Metzger & Pohl, 2004]
Exploration unter
Nutzung der Struktur des
Feature-Modells
Antrittsvorlesung apl Prof 15
Self-Adaptation Logic
Realized via Reinforcement Learning
Execute
Policy
(Knowledge)
Monitor
Action
Selection
(Analyze + Plan)
Policy Update
Action
a
State s
Reward r
Next state s’
Feature-Modell
16. Feature-Modelle zur Spezifikation der
Adaptionsmöglichkeiten
Web Shop
Data
Logging
Content
Discovery
Min Max
Medium
Search
Recommen-
dation
Web Shop
Data
Logging
Content
Discovery
Min Max
Medium
Search
Recommen-
dation
Nbr of Concurrent Users 1000 Adaptation
Mandatory
Optional
Alternative
Activated
• FM = Kompakte Spezifikation zulässiger System-Konfigurationen
• Konkrete System-Konfiguration = Kombination aktivierter Features
• Adaptation = Änderung der konkreten System-Konfiguration zur Laufzeit
Recommendation
Max Medium
Recommendation
Max Medium
Antrittsvorlesung apl Prof 16
Beispiel:
Feature-Modell (FM)
eines Web-Shops
17. FM-geführte Exploration Web Shop
Data
Logging
Content
Discovery
Min Max
Medium
Search
Recommen-
dation
State of the Art: -greedy
FM-geführt: FM-structure
2. Exploration der Konfigurationen mit
diesem Blatt-Feature…
3. …dann erst Exploration der
Konfigurationen mit dem “Geschwister”-
Feature
1. Beginn bei zufällig selektiertem
Blatt-Feature
Recommendation
Max Medium
Antrittsvorlesung apl Prof 17
18. Validierung
Systeme
Messung der Lern-Performanz
• 500 Wiederholungen wg.
stochastischen Effekten
• “Reward”-Metriken nach
[Taylor & Stone, 2009]
Antrittsvorlesung apl Prof 18
Zeitschritt
Reward
Asymptotic
Performance
Time to Threshold
(hier: 90% max-min Performance)
Total Performance
CloudRM [Mann, 2016]
BerkeleyDB-J [Siegmund et al. 2012]
Features 63 26
Anzahl Adaptionen 344 180
Tiefe des Feature-Modells 3 5
Initial Performance
19. Validierung
Antrittsvorlesung apl Prof 19
Ergebnisse
Effekt der FM-Charakteristika
• Höhere Verbesserung für
CloudRM, da deutlich
größere Anzahl an
Adaptationsmöglichkeiten
Effekt des Lernalgorithmus
• Höhere Verbesserungen bei SARSA
• Aber: Absolute Lern-Performanz
von SARSA << Q-Learning
• Grund: SARSA vermeidet riskante
Adaptationen (vgl. „safe path“ bei
Cliff Walk)
langsameres Lernen
Verbesserung ggü. E-greedy Durchschnittlich Q-Learning SARSA
Asymptotic Performance 0,3% -0,4% 1,1%
Time to Threshold 25,4% 15,1% 35,8%
Total Performance 33,7% 24,2% 43,2%
SARSA vs. Q-
Learning (absolut)
-3.8%
-27.6%
-23.0%
20. Agenda
1. Herausforderungen beim Engineering Adaptiver Systeme
2. Online-Reinforcement-Learning für Adaptive Systeme
3. Problem 1: Große Anzahl an Adaptionsmöglichkeiten
4. Problem 2: Nichtstationarität
5. Diskussion und Ausblick
Antrittsvorlesung apl Prof 20
21. Problem beim Einsatz von Online-RL
Exploration vs Exploitation bei Nicht-Stationarität
• Beispiel: Cloud-Anwendung
• Änderung der CPU-Leistung der Cloud-Hardware über die Zeit
• Effekt auf Performance der Cloud-Anwendung
State of the Art bei adaptiven Systemen (z.B. [Xu et al. 2012; Jamshidi et
al. 2015; Arabnejad et al., 2017; Wang et al. 2020])
• Nutzung von -decay für Konvergenz des Lernprozesses
• Wenn klein, zu wenig Exploration um Nicht-Stationarität zu erfassen
Erfordert Feststellung von Nicht-Stationarität und geeignete
Erhöhung von -decay zur Laufzeit
21
Antrittsvorlesung apl Prof
22. Grundidee
Deep RL für automatische Anpassung der Exploration
[Palm et al. 2020; Metzger et al. 2020b]
Knowledge: Neuronales Netz statt Action-Value-Function Q
• Generalisierung über bisher nicht-beobachtete Zustände
Action Selection: Stochastisches Sampling
• Keine Notwendigkeit des „Tunings“
Exploration Exploitation
• Automatische Anpassung insbesondere
bei Nichtstationarität
Policy Update: Gradientenverfahren
• Typischer Ansatz zum Lernen
der Gewichte des Neuronalen Netzes
Antrittsvorlesung apl Prof 22
Self-Adaptation Logic
Realized via Reinforcement Learning
Execute
Policy
Monitor
Action
Selection
Policy Update
Adaptation
Action
a
State s
Reward r
Next state s’
(Sampling)
(Gradienten-
Verfahren)
(Neuro-
nales
Netz)
25. Agenda
1. Herausforderungen beim Engineering Adaptiver Systeme
2. Online-Reinforcement-Learning für Adaptive Systeme
3. Problem 1: Große Anzahl an Adaptionsmöglichkeiten
4. Problem 2: Nichtstationarität
5. Diskussion und Ausblick
Antrittsvorlesung apl Prof 25
26. Diskussion und Ausblick
Online-RL nicht für alle Systemtypen geeignet
• Riskant, wenn “falsche” Adaptionen Schaden verursachen
Safe Reinforcement Learning zur sicheren Exploration
• Manipulierbar durch „adversarial“ Input aus der Umgebung (“gefälschte” Beobachtungen)
Adversarial Machine Learning um Robustheit ggü. Angriffen zu erhöhen
Geringe initiale Performanz von Online-RL
• Selbst einfache/bekannte Zusammenhänge müssen zu Beginn gelernt werden
Meta-RL zur Wiederverwendung von in „verwandten“ Umgebungen gelerntem Wissen
Reward-Engineering Problem von RL allgemein
• Richtige Formulierung der Reward-Funktion essentiell für „Lernerfolg“
• Nicht transparent was RL lernt (besonders bei Deep RL)
Explainable Machine Learning für das „Debugging“ der Reward-Funktion
26
Antrittsvorlesung apl Prof
27. Danke!
Research leading to these results has received funding from the EU’s Horizon 2020 research and
innovation programme under grant agreements no.
780351 – www.enact-project.eu
731932 – www.transformingtransport.eu
871493 – www.dataports-project.eu
Grundlagenliteratur
• D. Weyns, Introduction to Self-Adaptive Systems: A Contemporary Software Engineering Perspective, Wiley, 2021
• R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. MIT Press, 2018
Weiterführende Literatur
Exploration großer Anzahl Adaptionsmöglichkeiten
• A. Metzger, C. Quinton, Z. Á. Mann, L. Baresi, K. Pohl, “Realizing Self-Adaptive Systems via Online Reinforcement
Learning and Feature-Model-guided Exploration”, Computing, Springer, March, 2022
• A. Metzger, C. Quinton, Z. Mann, L. Baresi, and K. Pohl, “Feature model-guided online reinforcement learning for
self-adaptive services,” in 18th Int’l Conf. on Service-Oriented Computing (ICSOC 2020), LNCS 12571, Springer, 2020
Exploration vs Exploitation bei Nicht-Stationarität
• A. Palm, A. Metzger, and K. Pohl, “Online reinforcement learning for self-adaptive information systems,” in 32nd
Int’l Conf. on Advanced Information Systems Engineering (CAiSE 2020), LNCS 12127. Springer, 2020
• A. Metzger, T. Kley, and A. Palm, “Triggering proactive business process adaptations via online reinforcement
learning,” in 18th Int’l Conf. on Business Process Management (BPM 2020), LNCS 12168. Springer, 2020
Antrittsvorlesung apl Prof 27
28. Referenzen
[Arabnejad et al., 2017] H. Arabnejad, C. Pahl, P. Jamshidi, and G. Estrada, “A comparison of reinforcement learning techniques for
fuzzy cloud autoscaling,” in 17th Intl Symposium on Cluster, Cloud and Grid Computing, CCGRID 2017
[De Lemos et al. 2010] R. de Lemos et al., “Software Engineering for Self-Adaptive Systems: A Second Research Roadmap,” in Softw.
Eng. for Self-Adaptive Systems II, ser. LNCS. Springer, 2013, vol. 7475, pp. 1–32
[Di Francescomarino et al. 2018] Chiara Di Francescomarino, Chiara Ghidini, Fabrizio Maria Maggi, Fredrik Milani: Predictive Process
Monitoring Methods: Which One Suits Me Best? BPM 2018: 462-479
[Dulac-Arnold et al. 2015] Gabriel Dulac-Arnold, Richard Evans, Peter Sunehag, Ben Coppin: Reinforcement Learning in Large Discrete
Action Spaces. CoRR abs/1512.07679 (2015)
[Evermann et al. 2017] Evermann, J., Rehse, J., Fettke, P.: Predicting process behaviour using deep learning. Decision Support Systems
100, 2017
[Filho & Porter, 2017] Filho, R.V.R., Porter, B.: Defining emergent software using continuous self-assembly, perception, and learning.
TAAS 12(3), 16:1–16:25 (2017)
[Jamshidi et al., 2015] P. Jamshidi, A. Molzam Sharifloo, C. Pahl, A. Metzger, and G. Estrada, “Self-learning cloud controllers: Fuzzy Q-
learning for knowledge evolution (short paper),” in Int’l Conference on Cloud and Autonomic Computing (IC- CAC 2015) Cambridge,
USA, September 21-24, 2015,
[Kephart & Chess, 2003] J. O. Kephart and D. M. Chess, “The vision of autonomic computing,” IEEE Computer, vol. 36, no. 1, pp. 41–50,
2003.
[Klein et al. 2014] C. Klein, M. Maggio, K. Arzen, F. Hernandez-Rodriguez, “Brownout: building more robust cloud applications”. In:
36th Intl Conf. on Software Engineering (ICSE 2014), pp. 700–711. ACM, 2014
[Mann, 2016] Z. Mann, “Interplay of virtual machine selection and virtual machine placement”, in: 5th European Conf. on Service-
Oriented and Cloud Computing, ESOCC’16, LNCS vol. 9846, pp. 137–151 (2016)
[Metzger & Pohl, 2014] A. Metzger, K. Pohl, “Software product line engineering and variability management: Achievements and
challenges,” in ICSE Future of Software Engineering Track (FOSE 2014), ACM, 2014, pp. 70–84.
28
29. Referenzen
[Metzger et al. 2019] A. Metzger, A. Neubauer, P. Bohn, and K. Pohl, “Proactive process adaptation using deep learning ensembles,” in
31st Int’l Conf. on Advanced Information Systems Engineering (CAiSE 2019), LNCS, vol. 11483. Springer, 2019, pp. 547–562
[Metzger et al. 2020] A. Metzger, C. Quinton, Z. Á. Mann, L. Baresi, K. Pohl, “Realizing Self-Adaptive Systems via Online Reinforcement
Learning and Feature-Model-guided Exploration”, Computing, Springer, March, 2022
[Metzger et al. 2020a] A. Metzger, C. Quinton, Z. Mann, L. Baresi, and K. Pohl, “Feature model-guided online reinforcement learning
for self-adaptive services,” in 18th Int’l Conf. on Service-Oriented Computing (ICSOC 2020), LNCS 12571, Springer, 2020
[Metzger et al. 2020b] A. Metzger, T. Kley, and A. Palm, “Triggering proactive business process adaptations via online reinforcement
learning,” in 18th Int’l Conf. on Business Process Management (BPM 2020), LNCS 12168. Springer, 2020e
[Metzger, 2021] Workshop on Software in Electronics, Components and Systems-based Digitisation, Virtual, May, 2021, “Software
Engineering for ECS: Towards Dev-Ops-Adapt” (presentation slides)
[Palm et al. 2020] A. Palm, A. Metzger, and K. Pohl, “Online reinforcement learning for self-adaptive information systems,” in 32nd Int’l
Conf. on Advanced Information Systems Engineering (CAiSE 2020), LNCS 12127. Springer, 2020
[Salehie & Tahvildari, 2009] M. Salehie and L. Tahvildari, “Self-adaptive software: Landscape and research challenges,” TAAS, vol. 4, no.
2, 2009.
29
30. Referenzen
[Siegmund et al. 2012] N. Siegmund, S. Kolesnikov, C. Kästner, S. Apel, D. Batory, M. Rosenmüller, G. Saake, G.: Predicting Performance
via Automated Feature-interaction Detection. In: 34th Intl Conf. on Software Engineering (ICSE 2012), pp. 167–177, ACM, 2012
[Sutton & Barto, 2018] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. Cambridge, MA, USA: MIT Press,
2018
[Taylor & Stone, 2009] M. Taylor, P. Stone: Transfer learning for reinforcement learning domains: A survey. J. Mach. Learn. Res. 10,
1633–1685 (2009)
[Wang et al., 2020] Hongbing Wang, Jiajie Li, Qi Yu, Tianjing Hong, Jia Yan, Wei Zhao: Integrating recurrent neural networks and
reinforcement learning for dynamic service composition. Future Gener. Comput. Syst. 107: 551-563 (2020)
[Weyns et al. 2013] Danny Weyns, Nelly Bencomo, Radu Calinescu, Javier Cámara, Carlo Ghezzi, Vincenzo Grassi, Lars Grunske, Paola
Inverardi, Jean-Marc Jézéquel, Sam Malek, Raffaela Mirandola, Marco Mori, Giordano Tamburrelli: Perpetual Assurances for Self-
Adaptive Systems. Software Engineering for Self-Adaptive Systems 2013: 31-63
[Weyns, 2021] Danny Weyns, Introduction to Self-Adaptive Systems: A Contemporary Software Engineering Perspective, Wiley, 2021.
[Xu et al., 2012] C. Xu, J. Rao, and X. Bu, “URL: A unified reinforcement learning approach for autonomic cloud management,” J.
Parallel Distrib. Comput., vol. 72, no. 2, pp. 95–105, 2012
30
Notas do Editor
Beobachtung von Veränderungen in Umgebung, Anforderungen und sich selbst
Anpassungen von Struktur, Parametern und Verhalten
--
M. Papazoglou, K. Pohl, M. Parkin, and A. Metzger, Eds., Service Research Challenges and Solutions for the Future Internet: S-Cube – Towards Mechanisms and Methods for Engineering, Managing, and Adapting Service-Based Systems, ser. LNCS. Heidelberg, Germany: Springer, 2010, vol. 6500.
Beobachtung von Veränderungen in Umgebung, Anforderungen und sich selbst
Anpassungen von Struktur, Parametern und Verhalten
--
M. Papazoglou, K. Pohl, M. Parkin, and A. Metzger, Eds., Service Research Challenges and Solutions for the Future Internet: S-Cube – Towards Mechanisms and Methods for Engineering, Managing, and Adapting Service-Based Systems, ser. LNCS. Heidelberg, Germany: Springer, 2010, vol. 6500.
Trotz dieser Möglichkeiten, zeigen sich beim Einsatz von ML für AS konkrete Probleme, von denen ich auf zwei im weiteren verlauf genauer eingehen werde…
--
Bradley Schmerl, David Garlan, Christian Kästner - CMU
Danny Weyns – U Leuven
Pooyan Jamshidi – U South Carolina
Javier Camara – U York
Hongbing Wang – U Nanjing
Sven Tomforde – U Kiel
---
N. Esfahani, E. Kouroshfar, and S. Malek, “Taming Uncertainty in Self-adaptive Software,” in Proceedings of the 19th ACM SIGSOFT Symposium and the 13th European Conference on Foundations of Software Engineering, ser. ESEC/FSE ’11, 2011, pp. 234–244.
--
A. J. Ramirez, A. C. Jensen, and B. H. C. Cheng, “A taxonomy of uncertainty for dynamically adaptive systems,” in 7th International Symposium on Software Engineering for Adaptive and Self-Managing Systems, SEAMS, 2012, pp. 99–108.
--
Trotz dieser Möglichkeiten, zeigen sich beim Einsatz von ML für AS konkrete Probleme, von denen ich auf zwei im weiteren verlauf genauer eingehen werde…
--
Bradley Schmerl, David Garlan, Christian Kästner - CMU
Danny Weyns – U Leuven
Pooyan Jamshidi – U South Carolina
Javier Camara – U York
Hongbing Wang – U Nanjing
Sven Tomforde – U Kiel
---
N. Esfahani, E. Kouroshfar, and S. Malek, “Taming Uncertainty in Self-adaptive Software,” in Proceedings of the 19th ACM SIGSOFT Symposium and the 13th European Conference on Foundations of Software Engineering, ser. ESEC/FSE ’11, 2011, pp. 234–244.
--
A. J. Ramirez, A. C. Jensen, and B. H. C. Cheng, “A taxonomy of uncertainty for dynamically adaptive systems,” in 7th International Symposium on Software Engineering for Adaptive and Self-Managing Systems, SEAMS, 2012, pp. 99–108.
--
Q: Risiko „gefährliche“ Aktionen zu präferieren
SARSA: Kenntnis von gefährlichen Aktionen, daher „safe“ path
There are two hyper-parameters: the learning
rate α, which defines to what extent newly acquired knowledge overwrites old knowl-
edge, and the discount factor γ , which defines the relevance of future rewards.
Die Beiträge wurden u.a. veröffentlicht auf dem SEAMS Symposium, sowie aktuell auf der ICSOC, wo wir den Best Paper Award erhielten
Strategy exploits semantics typically encoded in feature models. Non-leaf features are usually abstract features, which delegate their realization to their sub-features. Sub-features thus may offer different realizations of their abstract parent feature.
If no configuration containing f or a sibling feature of f is found, then the strategy moves on to the parent feature of f, which is repeated until a configuration is
found (line 13) or the root feature is reached (line 22).
We used an e decay rate of 0.97 (i.e., e < 1% after time step 150), as this led to fastest
convergence with highest asymptotic rewards for e-greedy.
Grund: viele Konifgurationen mit sehr ähnlicher Performanz
Die Beiträge wurden u.a. veröffentlicht auf dem SEAMS Symposium, sowie aktuell auf der ICSOC, wo wir den Best Paper Award erhielten