Die Prüfung von Algorithmen - Mario Kündig - April 2020

198
INTERNE REVISION
EXPE RT FOCUS 2020 | 4
M A R I O K Ü N D I G
Die interne Revision der Coop-Gruppe hat zwei Ansätze fürs Prüfen von Algorithmen
getestet: RuleFit und Aix 360 Explainable AI. Beide Ansätze basieren auf einer Rule-
Learning-Methode. Die Erfahrung zeigt, dass sich diese Methode vor allem bei Klas-
sifikationsalgorithmen eignet, weil im Gegensatz zu Regressionsmodellen nicht kon-
tinuierliche Werte, sondern Gruppenzugehörigkeiten ermittelt werden.
PRÜFEN VON ALGORITHMEN
Für die interne Revision nicht nur Kür, sondern Pflicht !
1. EINLEITUNG
Künstliche Intelligenz ist ein Blackbox-System und somit
nicht nachvollziehbar; die Prüfung von Machine Learning
gehört nicht ins Audit-Universum; künstliche Intelligenz
kann nur verfahrensorientiert geprüft werden: Solche oder
ähnliche Aussagen hört man oft von Revisoren, wenn es um
die Überprüfung von Machine Learning (ML) oder künstli-
cher Intelligenz (KI) geht. Im besten Fall überprüfen die Re-
visoren die verfahrensorientierten Kontrollen in den KI/ML-
Entwicklungs- und Deployment-Prozessen. Die Prüfung
dieser Kontrollen ist wichtig und absolut notwendig, aber
aus Sicht des Autors nicht genügend. Aufgrund der selbstler-
nenden Eigenschaften verhalten sich die Algorithmen per
Definition nicht deterministisch. Die Resultate verändern
sich dynamisch, sind nur teilweise reproduzierbar und kön-
nen somit nur bedingt verfahrensorientiert geprüft werden.
Weiter ist zu beachten, dass die Funktionsweisen und Eigen-
schaften der Algorithmen von den Data Scientists meist
ausschliesslich hinsichtlich des Business Case maximiert
werden. Oft werden dabei unbewusst oder bewusst Verzer-
rungen in Kauf genommen. Sogenannte Bias können zu un-
gewolltem oder sogar illegalem Fehlverhalten der Algorith-
men führen. Dies insbesondere, wenn sie diskriminierende
Elemente enthalten.
Deshalb ist es aus Sicht des Autors unerlässlich, dass die
Algorithmen durch die interne Revision substanziell, sprich
ergebnisorientiert, mittels analytischer Ansätze geprüft
werden. Die interne Revision kann einen wichtigen Beitrag
in der Governance von KI/ML leisten, um die Balance zwi-
schen Geschäftsnutzen, Fairness und Transparenz zu ge-
währleisten. In der Tat sind die eingesetzten Prognose
modelle oft Blackbox-Systeme und können deshalb nicht
gänzlich dekompiliert und in Einzelteile zerlegt werden.
Deshalb muss ein Reverse-Engineering-Ansatz gewählt
werden.
Dazu gibt es für die Revisoren eine gute und eine schlechte
Nachricht. Zuerst die gute Nachricht: Es gibt in der Zwi-
schenzeit unterstützende Methoden und Tools, um Black-
box-Algorithmen nachvollziehbar und dadurch substanziell
prüfbar zu machen. Die schlechte Nachricht: Um mit diesen
Tools arbeiten und die Resultate interpretieren zu können,
braucht es wiederum tiefergehendes Data-Science-Know-
how. Oft werden ML/KI-Modelle benötigt, um ML/KI-Mo-
delle nachvollziehbar und interpretierbar zu machen. Dar-
aus folgt: Die interne Revision kommt nicht darum herum,
die Ärmel hochzukrempeln und sich tiefer in die Materie
reinzuknien.
Coop-Retail setzt vermehrt ML/KI zur Unterstützung der
operativen Prozesse ein. Aufgrund des damit einhergehen-
den sich verändernden internen Kontrollsystems bedarf es
für die interne Revision zunehmend neuer Prüfansätze. Die
interne Revision der Coop-Gruppe nahm diesen Umstand
zum Anlass, um mittels eines Proof of Concept (POC) ver-
schiedene Reverse-Engineering-Ansätze zu prüfen mit dem
Ziel, Blackbox-Systeme nachzuvollziehen.
Es zeigte sich, dass wirkungsvolle Ansätze vorhanden, aber
die Methoden vielerorts noch nicht ausgereift sind und sich
noch in Entwicklung befinden. Die interne Revision der
Coop-Gruppe wird diese Ansätze weiterverfolgen und ins-
künftig vermehrt bei Prüfungen einsetzen.
2. ML-/AI-ANWENDUNGEN IM RETAIL
Im Retail ist innerhalb der Supply Chain der Forecast- und
Replenishment-Prozess von besonderer Bedeutung. Mit die-
sem Prozess gilt es, den Bedarf pro Standort, Warenart und
Zeitpunkt sowohl längerfristig als auch mittel- und kurz-
fristig zu prognostizieren und zu planen. Es soll sicherge-
stellt werden, dass keine Übermenge entsteht – Food-Waste
ist sowohl aus ökonomischen als auch ökologischen Gründen
tunlichst zu vermeiden. Zudem sind die Kapazitäten in der
Lager- und Transportlogistik beschränkt und kosteninten-
MARIO KÜNDIG,
DIPL. ING. FH, CIA, CISA,
LEITER DIGITAL AUDIT,
COOP-GRUPPE,
MARIO.KUENDIG@COOP.CH

199
INTERNE REVISION
4 | 2020 EXPE RT FOCUS
siv, weshalb der Bedarf möglichst just in time vorhanden
sein sollte. Gleichzeitig sollen Regallücken (Stockouts)
möglichst vermieden werden. Neben Umsatzeinbussen und
Imageverlust entstehen durch Regallücken Probleme in den
weiterenBedarfsprognosen,dadieAbverkaufszahlenunvoll-
ständig sind. Effekte von Promotionen, Marketingkampag-
nen oder gesellschaftlichen Ereignissen lassen zudem den
Bedarf schwanken. Unter diesen Rahmenbedingungen gilt
es, in der ganzen Beschaffungs- und Lieferkette eine Viel-
zahl von Mikro- und Makroentscheidungen zu treffen und
aufeinanderabzustimmen.Coop-RetailhatdazudasProjekt
«Unified Demand Forecasting» (UDF) lanciert, um diesen
Prozess mittels Machine-Learning-Algorithmen zu unter-
stützen und zu optimieren. 2019 wurde das Projekt mit dem
SAP Innovation Award ausgezeichnet [1]. Mithilfe von über-
wachtem Lernen werden Prognosemodelle erstellt und im
operativen Betrieb eingesetzt, um den Bedarf pro Warenart,
Zeitpunkt und Standort im optimalen Trade-off zwischen
Über- und Fehlmenge kontinuierlich zu prognostizieren.
3. DIE INTERPRETIERBARKEIT UND
NACHVOLLZIEHBARKEIT VON ALGORITHMEN
Die Wirkungsweise und die Zusammenhänge eines Progno-
semodells, wie es beispielsweise eine einfache lineare Re-
gression darstellt, ist nachvollziehbar und verständlich. Bei-
spielsweise dient folgendes Regressionsmodell zur Prognose
des Gewichts eines Menschen (y) in Abhängigkeit von seiner
Körpergrösse (x):
y = –133 + 415,91 * ϰ cm
Dieses Prognosemodell sagt aus, dass der Mensch pro Zenti-
meterKörpergrösseetwa400 ganGewichtzunimmt,wasin-
tuitiv nachvollziehbar und verständlich ist. Werden nun wei-
tere Variablen zum Modell hinzufügt, bspw. das Alter, wird
das Model wesentlich komplizierter, weil die Körpergrösse
logischerweise nicht unabhängig ist vom Alter. Sogenannte
Confounder (Störfaktoren) können zwar auch in einer linea-
ren Regression abgebildet werden, sind aber nicht mehr in-
tuitiv interpretierbar. Sie müssen mittels numerischer oder
grafischer Hilfsmittel nachvollziehbar gemacht werden.
Ein Prognose- oder Klassifizierungsmodell in Form eines
Entscheidungsbaums ist grundsätzlich – ähnlich wie eine
einfache lineare Regression – nachvollziehbar und verständ-
lich. So kann der Entscheidungsbaum von der Wurzel bis
zum Blatt durchschritten werden (oder umgekehrt), um Re-
geln in Form von Entscheidungssequenzen abzuleiten. Ein
einzelner Entscheidungsbaum wird jedoch selten angefer-
tigt, stattdessen werden ganze Entscheidungswälder gene-
riert oder mit neuronalen Netzen kombiniert, um die Ergeb-
nisse zu verbessern. Solche Algorithmen gehören zu den so-
genannten Ensemble-Methoden (z. B. Bagging, Boosting)
und sind nicht mehr direkt nachvollziehbar. Abbildung 1
zeigt den Zusammenhang zwischen der Genauigkeit der
Modelle und deren Nachvollziehbarkeit.
Für Blackbox-Systeme ist es nur mithilfe von Reverse-En-
gineering möglich, die Zusammenhänge zwischen Input-
und Output-Daten herzustellen. Dabei werden die Merk-
male der Ursprungsdaten mit den Prognosen des Blackbox-
Modells kombiniert, einem Lernprozess unterzogen und
daraus ein Whitebox- resp. Erklärungsmodell generiert. Ab-
bildung 2 veranschaulicht die Vorgehensweise.
Ein Ansatz für das Reverse-Engineering ist das regelba-
sierte Lernen (Rule Based Learning). Damit werden inner-
halb der Blackbox Gesetzmässigkeiten erkannt und Regeln
abgeleitet. Die Regeln werden in folgender, verständlicher
Form aufbereitet:
IF (i < 0) AND (x = 10) THEN z
Abbildung 1: GENAUIGKEIT VS. NACHVOLL-
ZIEHBARKEIT VON KI/ML [2]
Genauigkeit
Neuronale Netze
Entscheidungswälder
Entscheidungsbäume
Lineare Regression
Nachvollziehbarkeit
Blackbox-
Modelle
Whitebox-
Modelle
Abbildung 2: REVERSE-ENGINEERING VON BLACKBOX-MODELLEN
Daten
ML/KI
Blackbox-
Modell
Regeln
lernen
Whitebox-
Modell
Merkmale und
Beobachtungen
Merkmale
Prognosen

200
INTERNE REVISION
EXPE RT FOCUS 2020 | 4
Insbesondere können dadurch auch Interaktionen und Kol-
linearitäten besser dargestellt werden. Dabei gilt es, den op-
timalen Trade-off zwischen Aussagefähigkeit resp. Genau-
igkeit und Komplexität zu finden. Denn einerseits ist eine
einzige, kurze Regel zwar gut verständlich, aber bei einer
tiefen Aussagekraft unbrauchbar. Anderseits ist eine hohe
Aussagekraft des Modells, die auf einer grossen Anzahl lan-
ger Regeln (d. h. vieler Terme) basiert, zu komplex und unver-
ständlich. Regelbasiertes Lernen wird ähnlich wie bei den
Entscheidungswäldern mit Ensemble-Techniken kombiniert,
um das Regelset zu optimieren.
4. VORHANDENE IMPLEMENTATIONEN
UND FRAMEWORKS
Es gibt verschiedene Umsetzungen von Rule Based Learning.
Im POC der internen Revision der Coop-Gruppe wurde der
sogenannten Rule-fit-Algorithmus von Friedman/Popescu [3]
und das Generalized Linear Rule Model (GLRM) Explainer
von IBM Research [4]verwendet.
Rule-fit besteht im Wesentlichen aus drei Schritten: Der
ersteSchritterzeugtmittelsEnsemble-TechnikeineVielzahl
an interpretierbaren Regeln. Im zweiten Schritt wird mit
diesen Regeln ein multiples Regressionsmodell trainiert. Im
dritten und letzten Schritt werden mittels einer Schrump-
fungsmethode die Anzahl und Komplexität der Regeln mi-
nimiert. Die Problematik des klassischen Rule-fit-Algorith-
mus ist, dass mit der Zunahme der Merkmale in den Grund-
daten die Anzahl der möglichen Regeln exponentiell steigt,
was zu Performanceproblemen führen kann. Es gibt di-
verse Umsetzungen dieses Algorithmus in R und Python.
Die interne Revision der Coop-Gruppe verwendete für ihr
POC eine Python-Umsetzung [5].
Das von IBM Research entwickelte Framework Aix360 Ex-
plainable AI enthält eine ganze Reihe von Algorithmen von
direkt interpretierbaren, sowohl überwachten als auch un-
überwachtenErklärungsalgorithmen [6].FürdasPOCderin-
ternen Revision der Coop-Gruppe wurde das GLRM Explai-
ner [7] verwendet. Dieser Algorithmus zeichnet sich dadurch
aus, dass er den Rule-fit-Algorithmus mit Methoden der li-
nearen Optimierung kombiniert, um die Rechenintensivi-
tät und die Genauigkeit zu optimieren.
Für das POC der internen Revision Coop-Gruppe wurde
ein öffentlich zugänglicher Retail-Datensatz von Walmart
verwendet. Dieser Datensatz wurde im Rahmen eines aus-
geschriebenen KI-Wettbewerbs in anonymisierter Form
zur Verfügung gestellt [8]. Das Blackbox-System, mit dem
die interne Revision der Coop-Gruppe die Algorithmen
austestete, wurde durch den Autor selbst mittels eines Ex-
tra-Tree-Regressors aus der Python-Bibliothek Scikit-learn
trainiert.
Bei beiden Erklärungsalgorithmen wurde eine unter-
schiedliche Anzahl Schätzer (d. h. Anzahl Entscheidungs-
bäume) eingesetzt und die Resultate verglichen. Wie bereits
erwähnt, muss ein Trade-off zwischen Aussagekraft und
Komplexität gefunden werden. Als Aussagefähigkeit wurde
das Bestimmtheitsmass R2
und als Komplexität die Anzahl
der ermittelten Regeln multipliziert mit der mittleren An-
zahl an Termen pro Regel verwendet.
Abbildung 3: GENAUIGKEIT VERSUS KOMPLEXITÄT BEI REGELBASIERTEM LERNEN
Genauigkeit
0,7
0,68
0,66
0,64
0,62
0,6
0,5
0,58
0,56
0,54
0,52
0 100 200 300 400 500
AIX 360 GLRM Explainer Rule-fit Friedman/Popescu
Komplexität

201
INTERNE REVISION
4 | 2020 EXPE RT FOCUS
Abbildung 3 zeigt die Entwicklung der Aussagekraft zur
Komplexität bei kontinuierlicher Erhöhung der Anzahl
Schätzer. Es stellt sich heraus, dass der Algorithmus von
IBM Research mit nur wenig Genauigkeitseinbussen die
Komplexität besser reduzieren kann als der Rule-fit-Algo-
rithmus.
Ein wichtiges Element zur Reduktion der Komplexität ist
die sogenannte Lasso-Regression (Least Absolute Shrinkage
and Selection Operator), die bei beiden Methoden in ähnli-
cher Weise eingesetzt wird. Im Rule-fit gelingt es dadurch,
die Anzahl der Regeln um rund das Sechsfache zu reduzie-
ren, ohne dabei wesentlich an Aussagekraft zu verlieren. Die
Tabelle zeigt einen Auszug eines Regelsets mit insgesamt
135 Regeln, das durch den Rule-fit-Algorithmus erstellt
worden ist. Die erste Regel sagt, wenn eine bestimmte Laden-
grösse unterschritten wird und die Verkaufsstelle Nr. 10 nicht
beliefert wird, prognostiziert das Blackbox-System einen
sinkenden Bedarf an 11 067 Wareneinheiten. Die zweite
Regel sagt, wenn eine bestimmte Ladengrösse unterschrit-
ten wird und die Verkaufsstelle Nr. 1 nicht beliefert wird,
sinkt der Bedarf der Warengruppe 95 sogar um über 30 000
Wareneinheiten. Obwohl die zweite Regel über einen wesent-
lich grösseren Koeffizienten verfügt, ist die Wichtigkeit
(d. h. Aussagekraft) weniger gross als die der Regel eins. Dies
hat damit zu tun, dass der Rule-fit den sogenannten Support
berücksichtigt. Der Support ist der prozentuale Anteil der
Wareneinheiten, für welche die Regel gilt. Für die Aussage-
kraft ist eine Regel dann besonders wichtig, wenn sie idealer-
weise die Grundmenge halbiert. Neben Regeln gibt es auch
einzelne lineare Koeffizienten, wie bspw. Nr. 23. Gemäss
dem Prognosemodell sinkt der Bedarf um 375 Wareneinhei-
ten bei der Zunahme der Arbeitslosenrate. Diese Regel ist so-
wohl aufgrund des kleinen Koeffizienten als auch aufgrund
der geringen Wichtigkeit vernachlässigbar.
5. FAZIT
Die von der internen Revision der Coop-Gruppe getesteten
Ansätze sind nur ein kleiner Ausschnitt aus einer ganzen
Reihe von Algorithmen, mit welchen Blackbox-Systeme rück-
wirkend analysiert werden können. Aufgrund der verwende-
ten Daten setzte der Autor eine Rule-Learning-Methode ein,
die auf einem Regressionsmodell basiert. Das abgeleitete
Regelset ermöglicht es, die treibenden Merkmale des Black-
box-Algorithmus zu identifizieren und zu beurteilen.
Aus Sicht des Autors eignet sich die Rule-Learning-Me-
thode vor allem bei Klassifikationsmodellen, bei denen im
Gegensatz zu Regressionsmodellen nicht kontinuierliche
Werte, sondern Gruppenzugehörigkeiten prognostiziert
werden. Dabei lassen sich Verzerrungen (bspw. bei einem Al-
gorithmus zur Bonitätsprüfung) binnen Kurzem feststellen.
Denn basieren Regeln mit hoher Aussagekraft auf kritischen
Merkmalen (wie Geschlecht, Ethnie, Herkunft usw.), weist
dies auf einen möglichen Bias hin.
Der Revisor kann bei einer Prüfung von Blackbox-Algo-
rithmen anhand der abgeleiteten Regeln mit den Data Scien-
tists und den Prozess- und Linienverantwortlichen ins Ge-
spräch kommen. Ähnlich wie beim Process Mining wird
nicht über den Soll-, sondern über den Ist-Zustand gespro-
chen. Die Diskussion kann so inhaltlich auf einem höheren
Level erfolgen und sowohl die interne Revision als auch die
geprüften Einheiten und die Data Scientists zu neuen Er-
kenntnissen führen. n
Anmerkungen: 1) SAP Innovation Awards 2019
Entry Pitch Deck, https://www.sap.com/bin/sap
dxc/inm/attachment.2044/pitch-deck.pdf, Zugriff
am 24. Februar 2020. 2) In Anlehnung an: Linden,
A., Reynolds, M., Alaybeyi, S., 5 Myths About Exp-
lainable AI, Gartner Group, Dezember 2019. 3) Fried-
man, J. H., Popescu, B. E., Predictive Learning via
Rule Ensembles, 2005, http://statweb.stanford.edu/
~jhf/ftp/RuleFit.pdf, Zugriff am 12. Februar 2020.
4) IBM Research, Trusting AI, https://www.re
search.ibm.com/artificial-intelligence/trusted-ai/,
Zugriff am 4. Februar 2020. Aus Gründen der Les-
barkeit wird im Text auf die Binnengrossschrei-
bung verzichtet. Deshalb wird der Produktname
RuleFit im Text Rule-fit geschrieben. 5) Molnar, C.,
RuleFit, in Python, https://github.com/christophM/
rulefit, Zugriff am 20. Januar 2020. 6) IBM aix360,
in: AI Explainability 360 Toolkit, https://aix360.
readthedocs.io, Zugriff am 14. Februar 2020. 7) IBM
aix360, GLRMExplainer, https://github.com/IBM/
AIX 360/blob/master/aix360/algorithms/rbm/GLRM.
py, Zugriff am 25. Januar 2020. 8) Walmart, Store
Sales Forecasting, https://www.kaggle.com/c/wal
mart-recruiting-store-sales-forecasting, Zugriff am
20. Januar 2020.
Tabelle: AUSZUG AUS DEM REGELSET (RULFIT)
Nr Rule Type Coef Support Importance
1 Size = 171111.5 Store_10 = 0 rule –11067 0.62 5383
2 Size = 171111.5 Store_1 = 0 Dept_95 = 1 rule –30773 0.01 3030
3 Dept_92 = 0 Dept_38 = 0 Dept_95 = 0 rule –14031 0.95 2927
4 Dept_92 = 0 Size 171111.5 Dept_90 = 0 rule –6012 0.35 2867
5 Dept_2 = 0 Dept_95 = 0 Dept_38 = 0 rule –12700 0.95 2649
6 Type_B = 0 Dept_94 = 1 rule 25499 0.01 2468
7 MarkDown3 = 29.949999809265137 rule –5416 0.77 2285
8 Dept_2 = 0 Dept_72 = 0 Size 98659.5 rule –4747 0.71 2155
… … … … …
23 Unemployment linear –375 1.00 594

Die Prüfung von Algorithmen - Mario Kündig - April 2020

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Die Prüfung von Algorithmen - Mario Kündig - April 2020

Semelhante a Die Prüfung von Algorithmen - Mario Kündig - April 2020 (20)

Die Prüfung von Algorithmen - Mario Kündig - April 2020