Warum das Monitoring von Machine-Learning-Modellen niederschwelliger gestaltet werden sollte
Im Zeitalter der Digitalisierung ist die künstliche Intelligenz (KI) nicht mehr wegzudenken. Über den privaten Gebrauch hinaus nimmt sie insbesondere in industriellen Prozessen eine zentrale Rolle ein. Maschinelle Lernsysteme (ML), eine spezifische Ausprägung der KI, werden branchenübergreifend eingesetzt, um Prozesse in Fertigung, Produktion, Gesundheitswesen und weiteren Sektoren zu optimieren. Diese Systeme sind beispielsweise in der Lage, Wartungsintervalle von Maschinen prädiktiv zu bestimmen oder fehlerhafte Komponenten in Automobilteilen zu identifizieren, bevor diese in den Produktionsprozess einfließen.
Obwohl ML-Systeme vielfältig genutzt werden, verstehen hauptsächlich Experten und Expertinnen, wie diese Systeme wirklich funktionieren. Dies führt dazu, dass Menschen ohne spezielle Kenntnisse auf die Zuverlässigkeit und Fehlerlosigkeit dieser Systeme angewiesen sind. Jedoch sind ML-Systeme nicht immun gegen Fehlfunktionen. Diverse Faktoren können die Genauigkeit und Verlässlichkeit der von ML-Systemen generierten Prognosen beeinträchtigen. Zur Minimierung dieser Schwächen ist eine kontinuierliche Überwachung und Anpassung durch Expertinnen und Experten in komplexen Verfahren erforderlich. Bei einem ML-Fachkräftemangel gibt es jedoch kaum Möglichkeiten, die Wartung und Instandhaltung des ML-Systems dauerhaft zu gewährleisten.
Dies führt zu einer herausfordernden Diskrepanz: Einerseits gibt es eine deutliche Zunahme relevanter Use Cases für die Anwendung von ML-Systemen. Andererseits besteht ein akuter Mangel an qualifizierten Fachkräften, die über tiefgreifendes Wissen im Bereich des maschinellen Lernens verfügen, um diese Systeme adäquat zu überwachen und zu warten.
Daher die Frage: Wie sollte ein ML-Überwachungstool gestaltet sein, damit auch Nicht-ML-Expertinnen und -Experten eigenständig Fehlerquellen identifizieren und entsprechende Gegenmaßnahmen einleiten können? Wir wollen diese Frage näher beleuchten, indem wir uns das Thema Drifterkennung näher anschauen.
Was ist Drift und warum ist es wichtig, ihn zu erkennen?
Ein Modell entsteht durch die Analyse von Mustern in Trainingsdaten, mit dem Ziel, die Gegenwart auf Basis historischer Beobachtungen zu modellieren. Übereinstimmen die Trainingsdaten mit den Daten der realen Welt, kann das Modell zuverlässige Prognosen liefern. Verändern sich die Daten und Muster der realen Welt, ist das Modell nicht mehr in der Lage, sie abbilden zu können. Da sich die reale Welt ständig verändert, müssen die Modelle ebenso dauerhaft auf neue Gegebenheiten angepasst werden, um die reale Welt zukünftig weiterhin richtig abbilden zu können. Beispielsweise sind Modelle, die vor der Coronapandemie trainiert wurden, nicht in der Lage, die Auswirkungen dieser Pandemie erfolgreich abzubilden. Sie müssen an die neuen Gegebenheiten angepasst werden. Diese Veränderungen der realen Welt, sog. Drifts, können in mehrere Kategorien eingeteilt werden. Darunter den Data Drift und den Concept Drift.
Data Drift
Ein Data Drift tritt auf, wenn die Daten, die zum Training eines Modells verwendet wurden, von den Daten abweichen, die das Modell im praktischen Einsatz verarbeiten muss. Diese Diskrepanz kann dazu führen, dass die Effizienz des Modells nachlässt, da sich die zugrundeliegenden Datenmuster verändert haben. Ein Data Drift kann plötzlich, sukzessive oder saisonal auftreten. Gründe dafür können durch eine Veränderung des Nutzungsverhaltens, saisonale Veränderungen oder Veränderungen durch externe Ereignisse hervorgerufen werden. Ein Beispiel dafür ist Instacart im Jahr 2020, ein App-Anbieter, der darauf spezialisiert ist, die Verfügbarkeit von Lebensmitteln in Supermärkten zu prognostizieren. Durch die drastische Veränderung des Kaufverhaltens während der Coronapandemie sank die Performance ihres Modells von 93 % auf 61 %.
Concept Drift
Concept Drift bezieht sich auf die Veränderung der Beziehung zwischen Eingabe- und Ausgabedaten. Das bedeutet, dass sich die Art und Weise, wie die Eingabedaten mit dem zu vorhergesagtem Ergebnis zusammenhängen, im Laufe der Zeit ändern. Hat sich das Geschäftsziel, das Ergebnis der Prognose des Modells verändert, muss das Modell neu evaluiert und angepasst werden. Ein Concept Drift kann durch unterschiedliche Faktoren hervorgerufen werden. Die Annahmen, die beim Erstellen und Trainieren der Modelle noch gültig waren, können sich über die Zeit verändert haben. Neue Technologien, Regularien oder Trends können dazu führen, dass sich die Vorgaben für die Modellvorhersagen über die Zeit verändern. Ein bekanntes Beispiel ist die Vergabe von Krediten nach Kreditwürdigkeit. Hat sich die Definition von Kreditwürdigkeit durch Veränderungen von Regularien in der realen Welt verändert, kann das ursprüngliche Modell diese Veränderung nicht berücksichtigen.
Der Design Thinking Prozess: Eine kreative Lösungsfindung für zugängliches Monitoring
Da wir nun wissen, warum ein Drift auftreten kann, müssen wir eine Methode finden, wie wir einen Drift gut und verständlich abbilden können, damit auch Personen ohne ML-Expertise ihn erkennen und beheben können. Dafür nutzen wir eine im Design bewährte Methode: Design Thinking.
Der Design Thinking Prozess ist eine kreative Methode, um innovative Lösungen für komplexe Probleme zu entwickeln. Da das Monitoring von Machine-Learning-Modellen derzeit hauptsächlich von ML-Expertinnen und -Experten durchgeführt wird und noch nicht von ML-Laien, soll dieser Ansatz es ermöglichen, sich Stück für Stück der Lösung des Problems zu nähern. Der Design Thinking Prozess umfasst folgende Schritte:
Verstehen: In dieser Phase werden die Bedürfnisse, Wünsche, Hoffnungen, Ängste und Sorgen der Zielgruppe erkundet, um anschließend eine Lösung zu entwickeln, die diese Gefühlszustände anspricht. User-Interviews, Stakeholder-Interviews oder Workshops sind Möglichkeiten, sich ein erstes Bild der Zielgruppe zu verschaffen.
Problem definieren: Im zweiten Schritt wird das Problem aus Sicht der Zielgruppe neu definiert. Dabei helfen Personas, Szenarien oder User Journeys, um ein vollständiges Bild der Zielgruppe zu erhalten.
Ideen entwickeln: In der dritten Phase geht es darum, Ideen zu entwickeln, die potenziell zur Lösung des Problems beitragen. Kreativität ist keine Wissenschaft, daher gibt es kein festes Schema, das befolgt werden kann – lediglich Methoden, die unterstützen, Ideen zu finden.
Prototyp entwerfen: In dieser Phase werden die Ideen mithilfe gängiger Tools wie Figma in klickbare Prototypen überführt, um sie greifbar zu machen und an potenziellen Nutzern zu testen. Das Ziel ist es nicht, sofort die perfekte Lösung zu finden, sondern durch Feedback der Nutzer:innen schrittweise die bestmögliche Lösung zu entwickeln.
Nutzungstests durchführen: Der Prototyp wird an realen Nutzer:innen getestet, und die gewonnenen Erkenntnisse fließen in seine Weiterentwicklung ein. Ziel ist es, durch kontinuierliches Nutzerfeedback den Prototyp anzupassen und zu verbessern, bis eine optimale Lösung gefunden ist.
Entwicklung eines nutzer:innenzentrierten Monitoring-Tools: Ein Schritt-für-Schritt-Ansatz
Um anhand der Design-Thinking-Methode einen Prototyp für das Monitoring von Drift für Personen ohne Expertise auszuarbeiten, wollen wir ein reales Beispiel heranziehen. Dadurch können wir den Prototyp auf Basis der Bedürfnisse einer konkreten Zielgruppe ausarbeiten und im Anschluss User-Tests durchführen, die zeigen, ob der Prototyp verständlich ist.
Als Beispiel ziehen wir die Qualitätssicherung in der Gastronomiebranche heran. Gastronomieunternehmen sind dafür verantwortlich, dass ihre Produkte gesundheitlich unbedenklich sind und den geltenden lebensmittelrechtlichen Vorgaben entsprechen. Machine Learning bietet ihnen dabei eine effektive Unterstützung.
Eines der vielen Regularien bezieht sich auf die vorgegebene Qualität von Frittieröl in der Lebensmittelbranche. Frittieröl wird verwendet, um in der Gastronomie Lebensmittel wie Pommes oder Nuggets zu frittieren. Laut der Deutschen Gesellschaft für Fettwissenschaften (DGF) soll das Frittieröl ausgetauscht werden, wenn der Total-Polar-Materials-Wert (TPM) einen Grenzwert von 24 % überschreitet. Zur Einhaltung dieses Grenzwertes müssen regelmäßige Messungen am Frittierbecken vorgenommen werden. Es liegt in der Verantwortung der Mitarbeitenden, Veränderungen, auffällige Gerüche oder eine Verschlechterung des Öls zu erkennen und rechtzeitig das Öl auszutauschen, um Qualitätseinbußen zu verhindern und eine Gesundheitsgefahr für Konsument:innen auszuschließen.
Für diesen Zweck werden professionelle Messgeräte entwickelt, die den Mitarbeitenden helfen, die Ölqualität zu bestimmen und den optimalen Wechselzeitpunkt zu finden. Mit Hilfe von maschinellem Lernen können diese Geräte speziell darauf trainiert werden, vorherzusagen, wann das Öl gewechselt werden muss, um kosteneffizient zu arbeiten und gleichzeitig eine hohe Qualität zu gewährleisten.
Phase 1: Zielgruppenanalyse – Die Bedürfnisse der Nutzer:innen verstehen
Zunächst wurden die Personen, die in einer Fast-Food-Filiale arbeiten, näher untersucht, um herauszufinden, wer ein berechtigtes Interesse am Monitoring von Modellen hat. Für diesen Zweck wurden Interviews durchgeführt. Ziel der Interviews war es, tiefere Einblicke in die Zusammenarbeit zwischen Messgeräteherstellern und Kunden zu erhalten sowie potenzielle Motivationen für die Nutzung eines Monitoring-Tools zu untersuchen.
Die Interviews ergaben, dass das Bereitstellen von Möglichkeiten zur selbstständigen Instandhaltung der Modelle auf Kundenseite entlastend für die Fachkräfte sein kann. Fehlerquellen könnten durch den verbesserten Austausch schneller erkannt und behoben werden. Auf Kundenseite schafft die Möglichkeit der eigenständigen Wartung mehr Vertrauen in die Nutzung von ML-Systemen. Es ermöglicht tiefere Einblicke in die Prozesse des Modells und kann strategische Entscheidungen erklären und lenken.
Phase 2: Prototyping – Von Ideen zu greifbaren Lösungen
Im Anschluss an die Interviews wurden Ideen gesammelt, die in einem High-Fidelity-Prototyp umgesetzt wurden. Der Prototyp zeigt eine Übersicht der aktuellen Ölqualität im Vergleich zur Prognose, ein Trendanalyse-Tool und eine Ansicht über die verschiedenen Modellversionen.
Drifterkennung
Thematisch soll die Übersicht den Nutzer:innen einen allgemeinen Überblick über die eingehenden Daten geben. Dafür soll ein Liniendiagramm den historischen Verlauf der Messdaten anzeigen. Zusätzlich sollen im selben Diagramm die erwarteten Prognosewerte der KI dargestellt werden. Durch die überlagerten Linien sollen Nutzer:innen größere Abweichungen visuell erkennen. Neben der visuellen Darstellung des Diagramms werden textliche Hilfestellungen in Form von Hero-Cards eingesetzt. Idealerweise kann dadurch auf einen Blick erkannt werden, ob das Modell gut oder schlecht funktioniert.
Erkennt die KI eine größere Abweichung in den Eingangsdaten im Vergleich zu den prognostizierten Werten, wird eine dritte Karte sichtbar. Diese erklärt den Grund für die Veränderung in knappen Worten und ist in der Signalfarbe rot gekennzeichnet, um den Fokus auf sich zu lenken.
Als zweiten Menüpunkt gibt es das Trendanalyse-Tool. In dieser Ansicht werden wiederkehrende Abweichungen des Normalzustands festgehalten. Erkennt das Tool, dass die Prognosen jedes Jahr in einem bestimmten Monat von den Eingangsdaten abweichen, kann dies vermerkt und beobachtet werden. Tritt diese Abweichung häufiger auf, kann es als Trend registriert werden und in zukünftige Retrainings miteinfließen. Erkennen die Nutzer:innen, dass diese Abweichung nur eine einmalige Erscheinung ist, können sie diese Datenpunkte entfernen, damit sich nicht in zukünftige Retrainings einfließen. Dadurch haben die Nutzer:innen aktiv die Möglichkeit, das Modell zu verbessern.
In der dritten Ansicht werden alle aktuellen und vergangenen Modellversionen angezeigt. Zu jeder Modellversion wird festgehalten, ob diese aktiv oder inaktiv ist, wie hoch die letzte gemessene Vorhersagegenauigkeit war und auf welchem Trainingsdatensatzstand das Modell trainiert wurde.
In jeder Ansicht wird den Nutzer:innen ein Chatbot zur Verfügung gestellt. Dieser soll bei Schwierigkeiten unterstützen. Der Chatbot soll insbesondere bei Fragen zum Wording helfen oder bei Unklarheiten in Bezug auf Diagramme, Ursachen und Handlungsmöglichkeiten.
Ursachenanalyse
Nachdem die Nutzer:innen die Möglichkeit zur Veränderungserkennung bekommen haben, sollen die Ursachen für die Veränderungen verstanden werden. Auch hier soll Hilfestellung geboten werden, indem mögliche Gründe im System bereits hinterlegt werden. Nicht hinterlegte Gründe sollen von den Nutzer:innen hinzugefügt werden, damit sie zukünftig berücksichtigt werden können. Um den Nutzer:innen diese Hilfestellung zu geben, wird eine Schritt-für-Schritt-Anleitung, auch Wizard genannt, verwendet. Ein Wizard ist eine Darstellungsform, die Nutzer:innen ermöglicht, eine vordefinierte Folge von Schritten durchzuführen.
Im Falle einer dauerhaften Veränderung zwischen Prognose und tatsächlich gemessener Ölqualität werden in dem Wizard bereits mögliche Gründe hinterlegt, die die Nutzer:innen überprüfen können. Dadurch können sie beteiligte Personen auf die Veränderung ansprechen oder das Modell auf die neuen Umstände anpassen.
Im Falle einer Veränderung des Nutzungsverhaltens müssen die Nutzer:innen den Grund selbstständig herausfinden. Das System kann hierzu Hilfestellungen geben, kann aber keine konkreten Ursachen herausfiltern, ohne sie vorher gelernt zu haben. Gehen wir von einer saisonalen Veränderung des Nutzungsverhaltens in den Winter- und Sommerferien aus, dann kann diese Veränderung angezeigt werden und auch als Ferienzeiten markiert werden. Handelt es sich bei den Veränderungen um unvorhersehbare Ereignisse, beispielsweise die vorübergehende Schließung der Filiale für eine Woche wegen Umbau, dann kann das Modell diese untypische Veränderung nicht hervorsehen.
Die Nutzer:innen können diesen Grund dann selbständig dem Modell beibringen. Oder sogar diesen Zeitraum aus den Daten entfernen, damit sie nicht in die zukünftigen Trainingsdaten einfließen und die Prognosen beeinflussen. Die Nutzer:innen haben die Möglichkeit, die aufgetretene Veränderung zu benennen, eine Beschreibung hinzuzufügen und Tags zu setzen. Dadurch können die Nutzer:innen bei wiederkehrenden Mustern benachrichtigt werden.
Handlungsmöglichkeiten
Nachdem ein Drift und dessen Ursache erkannt werden, wird den Nutzer:innen die Möglichkeit gegeben, das Problem zu beseitigen. Die Handlungsmöglichkeiten sind davon abhängig, welche Ursachen zugrunde liegen. Die Fehlerbehebung kann beispielsweise durch fehlerhafte Nutzung der Fritteuse hervorgerufen werden. Dann können Schulungen für Mitarbeitende vorgeschlagen werden, um eine korrekte Nutzung der Fritteuse sicherzustellen, damit das Modell wieder bessere Prognosen machen kann.
Neben den Handlungsmöglichkeiten, die vor Ort umgesetzt werden können gibt es das Retraining als letzte Option. Dadurch kann das Modell an die neuen Gegebenheiten angepasst werden. Das Retraining steht als Möglichkeit im Fokus und kann sowohl unter dem Versionsmenüpunkt als auch direkt im Wizard angestoßen werden. Daraufhin öffnet sich ein weiterer Wizard, der den Nutzer:innen in drei Schritten zum Retraining verhilft. An dieser Stelle wird davon ausgegangen, dass das Retraining durch einen einfachen Button- Klick umgesetzt werden kann. Im ersten Schritt können die Nutzer/-innen eine Version auswählen, die als Basis für das Retraining verwendet werden soll. In einer Vorher/Nachher- Ansicht wird die Vorhersagegenauigkeit des ausgewählten Modells angezeigt. Mit einem Button-Klick kann das Retraining gestartet werden. Woraufhin die Nutzer:innen direkt die Vorhersagegenauigkeit des neuen Modells sehen, sowie die prozentuale Verbesserung. Ist die neue Vorhersagegenauigkeit höher als die vorigen Modells, können die Nutzer:innen sich dazu entscheiden, das neue Modell zu verwenden.
Phase 3: Nutzungstests – Feedback für eine optimierte User Experience
Im Anschluss wurden qualitative und quantitative Nutzungstests mit Personen durchgeführt, die unterschiedlich viel Erfahrung im Bereich Machine Learning ausweisen. Das Ziel der Nutzungstests besteht in der Beantwortung folgender Fragestellungen:
- Können die Nutzer:innen selbstständig erkennen, dass das Modell nicht optimal funktioniert?
- Erkennen die Nutzer:innen selbständig Handlungen, um das Modell verbessern zu können?
- Sind die Nutzer:innen in der Lage, diese Handlungen selbstständig durchzuführen?
- Können die Nutzer:innen anschließend erkennen, dass das Modell durch diese
Handlungen besser funktioniert?
- Erkennen die Nutzer:innen Möglichkeiten sich Hilfe zu beschaffen, falls sie nicht
weiterkommen?
Die Probanden und Probandinnen bekamen vier Aufgaben, die sie selbstständig lösen sollten. Dabei sollten sie zu Beginn selbstständig den Prototyp erforschen und erste Gedanken schildern. Im weiteren Verlauf des Nutzertests beziehen sich die Aufgaben auf das Erkennen von Drifts, die ihre Ursache in der Veränderung des Mitarbeitendenverhaltens haben, sowie auf Veränderungen des Kaufverhaltens. In beiden Fällen sollen die Testpersonen Handlungsmöglichkeiten erkennen und in der Lage sein, sie selbstständig umzusetzen. Dabei wurde die Think-Aloud-Methode verwendet, eine bereits zentrale Methode im Bereich des Usability Testings. Nach jeder abgeschlossenen Aufgabe wurden Fragen zur Machbarkeit gestellt und auf einer Likert-Skala festgehalten.
Erkenntnisse: So gestalten Sie das Monitoring für Personen ohne ML-Expertise verständlich
Die Auswertung der Nutzungstests hat viele aufschlussreiche Erkenntnisse geliefert. Diese Erkenntnisse können genutzt werden, um Richtlinien zu erstellen, die beschreiben, wie man das Monitoring von ML-Modellen für Personen ohne ML-Expertise zugänglicher gestalten kann.
Handlungsempfehlungen planen
Die erste Schlüsselerkenntnis bei der Ausarbeitung eines Konzepts für das Monitoring von Modellen für Personen ohne ML-Expertise ist, dass die Wichtigkeit in den Vorüberlegungen der Handlungsempfehlungen liegt. Die Testpersonen sind darauf konzentriert, schnell das Problem zu erkennen und es ebenso schnell zu beseitigen. Daher stehen die Handlungsmöglichkeiten für die Nutzer:innen im Fokus. Die Gründe für eine Abweichung der tatsächlichen Messwerte von den prognostizierten Messwerten sind umfangreich. Um Verwirrung bei den Nutzer:innen zu vermeiden, soll bereits im Vorfeld geklärt werden, unter welchen Bedingungen welche Handlungsempfehlung von dem System vorgegeben wird. Dabei sollten die Handlungsempfehlungen so präzise und genau wie möglich sein.
Die Testpersonen schlugen vor, eine Art Baumdiagramm-Konzept zu entwickeln. Jede mögliche Ursache für einen Drift wird mit einer passenden Lösung notiert. Diese Lösung kann bei Eintritt der Ursache den Nutzer:innen vorgeschlagen werden. Dadurch kann das System immer eine optimale Handlungsempfehlung geben.
Hilfestellungen geben
Eine weitere Schlüsselerkenntnis ist das Bereitstellen von Hilfestellungen. Das System muss so gestaltet sein, dass der Inhalt auch mit wenig Zeitaufwand verstanden werden kann. Eine Möglichkeit, dies zu erreichen, ist die Einführung eines Onboardings. Ein Onboarding beschreibt die Einführung in die Software mittels Erklärungen, Touren und Beispielen. Dadurch bekommen Nutzer:innen einen ersten Einblick in das Tool und haben die Möglichkeit, bei Unklarheiten wieder darauf zurückzugreifen. Zusätzlich kann ein Chatbot zur Verfügung stehen, der jederzeit ansprechbar ist und das Verständnis der Nutzer:innen weiter erhöht. Beibehalten werden können Karten, die beim Anklicken mehr Informationen bereitstellen.
Ebenso helfen Schritt-für-Schritt-Anleitungen, um ein Verständnis dafür aufzubauen, aus welchen Gründen ein Drift aufgetreten ist. Können die Nutzer:innen trotz Hilfestellungen die Ursache der Veränderung nicht beheben, sollte eine Person mit Expertise auf dem Gebiet des maschinellen Lernens hinzugezogen werden.
Minimale Darstellung von Informationen durch Rollenverteilung
Reduzieren Sie die dargestellten Informationen auf ein Minimum, da zu viele Informationen zu Verwirrungen führen können. Die Option, ein tieferes Verständnis aufzubauen, sollte jedoch weiterhin verfügbar sein. Ein ausgearbeitetes Rollensystem kann dabei Helfen.
Wording und textliche Unterstützung
Eine weitere Schlüsselerkenntnis ist die Wichtigkeit des Wordings und der textlichen Unterstützung. Vermeiden Sie fachspezifische Wörter wie „Retraining“, „Vorhersagegenauigkeit“, „Metriken“ oder langgezogene Wörter wie „durchschnittliche Ölqualität vor Ölwechsel“ oder erklären Sie diese Wörter in einem vorherigen Onboarding. Die Nutzungstests zeigten, dass sich die Testpersonen verstärkt auf die textlichen Hilfen gestützt haben. Daher ist das Ausarbeiten von kurzen und präzisen Überschriften und Erklärungen essenziell.
Einflussfaktoren auf das Modell darstellen
Als nächste Schlüsselerkenntnis ist der Wunsch nach einer Übersicht über alle möglichen Einflussfaktoren, die sich auf die Qualität des Öls auswirken. Um den Nutzer:innen ein besseres Verständnis für das Modell zu geben, können Sie Metriken im Dashboard anzeigen, die aufzeigen, welche Features mit welcher Gewichtung in die Prognosen einfließen. Dadurch können Nutzer:innen beispielsweise erkennen, dass die Art des Produkts, das in einer Fritteuse frittiert wird, mehr Einfluss auf die Ölqualität hat als die Marke des verwendeten Öls.
Tagesgeschäft einbinden
Die Einbindung des Tagesgeschäfts ist essentiell. Die Testpersonen hätten gerne gesehen, wie stark sich das Nutzen eines ML-Modells auf das Geschäft auswirkt. Dabei sollte dargestellt werden, wie viel Öl und wie viele Kosten durch die Nutzung des Modells bereits eingespart wurden. Das Bedürfnis, eine Bestätigung zu erhalten, dass die Nutzung des ML-Modells keinen Mehraufwand und keine Mehrkosten verursacht, sondern einen positiven Effekt hat, wurde deutlich. Die Darstellung dieser Metriken kann prominent direkt nach dem Öffnen des Tools angezeigt werden, um das Vertrauen in das ML-Modell weiter zu stärken.
Spielerische Interaktionen zur Verfügung stellen
Mehr Interaktion könnte durch spielerische Elemente entstehen. Eine Idee, die während eines Nutzungstests aufkam, ist die Darstellung einer virtuellen Fritteuse. Diese Fritteuse soll spielerisch die unterschiedlichen Einflussfaktoren auf das Frittieröl darstellen. Dies wäre eine Option, das klassische Liniendiagramm zu ersetzen und sich noch weiter von den Zahlen und Daten zu entfernen. Es beinhaltet eine bildliche Gegenüberstellung zwischen der Ideal-Fritteuse, die das ML-Modell vorgibt, und der aktuellen Ist-Fritteuse mit den durchschnittlichen Messwerten der Ölqualität, der Darstellung der aktuellen Produkte, die frittiert werden, und der bildlichen Darstellung des aktuell genutzten Öls. Diese Darstellungsform könnte sowohl in 2D als auch in einer spielerischen 3D-Form angezeigt werden.
Animationen der Diagramme
Schließlich ist Animation auch ein wichtiger Bestandteil, um mehr Verständnis zum Thema Monitoring von ML-Modellen aufzubauen. Grundsätzlich sollen alle Diagramme interaktiv gestaltet sein oder animiert. Vergleichen Sie beispielsweise den Ist-Zustand mit dem Soll-Zustand, indem Sie beide Werte in einer Animation übereinanderlegen.
Wenige Einstellungsmöglichkeiten zur Verfügung stellen
Die Möglichkeit, die Ursachen eigenständig und ohne Hilfestellung zu untersuchen, kann bei Personen ohne ML-Expertise Unmut hervorrufen. Die Ursache sowie die Lösung des Problems sollen schnell erkennbar sein, ohne dass die Nutzer:innen sie selbstständig suchen müssen.
Ausblick
Die Ermöglichung des Monitorings von Drift für Personen ohne ML-Expertise erfordert eine gezielte Berücksichtigung grundlegender Aspekte. Denn nicht jeder verfügt über die Zeit oder das Interesse, sich eingehend mit dem Monitoring zu beschäftigen. ML-Modelle werden häufig aus wirtschaftlichen Motiven eingesetzt, was die Berücksichtigung wirtschaftlicher Aspekte bei der Gestaltung des Monitorings umso wichtiger macht. Dabei ist es entscheidend, die Nutzer:innen bestmöglich zu unterstützen und sie schrittweise an das Thema Monitoring heranzuführen. Komplexe Diagramme sind für viele nicht attraktiv, daher sollten Abweichungen zwischen Prognosen und tatsächlichen Werten klar erklärt und verständlich dargestellt werden. Geben Sie anschließend eine geeignete Handlungsempfehlung, zum Beispiel durch einen Retrainings-Button, der die Prognosen an die neuesten Daten anpasst. Berücksichtigen Sie dabei auch potenzielle Veränderungen im Arbeits- oder Kaufverhalten. Bei Unklarheiten steht eine Chat-Funktion mit einem Chatbot zur Verfügung, und als letzte Instanz kann eine Person mit ML-Expertise hinzugezogen werden.
Die gewonnenen Schlüsselerkenntnisse sind das Ergebnis einer ersten Designiteration des Prototyps. Weitere Designiterationen und Nutzungstests können neue aufschlussreiche Erkenntnisse liefern und ermöglichen die Anwendung dieser Erkenntnisse auf andere Use Cases.