Eine Lupe im Farbverlauf symbolisiert Synonymsuche, Schlagwortsuche und Bi-Encoder
Search

Suchtechnologien in Vergleichsstudie: Schlagwortsuche vs. Synonymsuche vs. Bi-Encoder

Lesezeit
13 ​​min

Im Rahmen des Service-Meister-Projekts wurde eine Studie durchgeführt, um die entwickelten Suchtechnologien gegeneinander zu evaluieren. Dieser Artikel zeigt die erhaltenen Studienergebnisse und analysiert sie.

Als Teil des Konsortiums des Service-Meister-Projekts arbeiten KROHNE, inovex und die Berliner Hochschule für Technik (BHT) in einem Schnellboot zusammen Das Projekt soll KROHNE-Servicetechniker:innen bei der Durchführung von komplexen Aufgaben unterstützen. Dafür wurden drei Suchtechnologien entwickelt, die es ermöglichen, nach relevanten Service-Berichten zu suchen, die eine Lösung für das aktuelle Problem enthalten können. Damit eingeschätzt werden kann, welche Suchtechnologie als bestes funktioniert und gleichzeitig sichergestellt werden kann, dass die entwickelten Suchtechnologien eine gewisse Qualität liefern, wurde eine Studie durchgeführt. In unserem Artikel (hier) wurde beschrieben, wie die Studie aufgebaut ist. Wir empfehlen daher, ihn zuerst durchzulesen, um einen besseren Überblick über das Studiendesign zu bekommen.

Allgemeines zur Studie

Wie es in unserem ersten Artikel erwähnt wurde, hat unsere Studie drei Versionen. Jede Version enthält die gleichen 18 Problembeschreibungen. Der Unterschied zwischen den drei Versionen ist die Zuordnung von den Problembeschreibungen zu der Suchtechnologie, mit der die relevanten Service-Berichte gesucht werden. Damit alle Versionen die gleichen Qualität besitzen, haben wir die folgenden 4 Kategorien definiert:

  1. Wenn die Schlagwortsuche genau oder mehr als 4 Ergebnisse liefert, dann wird die Problembeschreibung der Kategorie ‚1‘ zugewiesen.
  2. Wenn die Schlagwortsuche weniger als 4 Ergebnisse, aber die Synonymsuche mehr als 4 Ergebnisse, dann wird die Problembeschreibung der Kategorie ‚2‘ zugewiesen. Das liegt daran, dass die Wahrscheinlichkeit zum Zurückliefern der tatsächlichen Lösung bei der Rückgabe von mehreren Ergebnissen höher ist.
  3. Wenn Schlagwortsuche weniger als 4 Ergebnisse und auch die Synonymsuche die gleiche Anzahl von Ergebnissen liefert, dann wird die Problembeschreibung der Kategorie ‚3‘ zugewiesen.
  4. Wenn Schlagwortsuche keine Ergebnisse liefert aber die Synonymsuche schon, dann wird die Problembeschreibung der Kategorie ‚4‘ zugewiesen.

Nachdem allen Problembeschreibungen eine Kategorie zugewiesen wurden, wurden die Versionen so erstellt, dass jede Version (ungefähr) die gleiche Anzahl von Problembeschreibungen für jede Kategorie enthält. Das Bi-Encoder-Modell wurde so trainiert, dass alle Service-Berichte, absteigend sortiert nach dem höchsten Score, zurückgeliefert werden. Daher ist es Kategoriezuteilung nicht betroffen. Insgesamt enthält jede Version 18 Problembeschreibungen, wobei jede der 6 Problembeschreibungen innerhalb einer Version jeweils einer Suchtechnologie zugewiesen wird.

Die Suchtechnologien

Die drei implementierten Suchtechnologien sind Schlagwortsuche und die Synoynmsuche von inovex und der Bi-Encoder von der Berliner Hochschule für Technik (BHT). Die Schlagwortsuche sucht nach einer Übereinstimmung mit der eingegebenen Problembeschreibung in den Service-Berichten. Die Synonymsuche ist eine Erweiterung der Schlagwortsuche und nutzt ein Machine-Learning-Modell, das für jedes gegebene Wort, inklusive KROHNE-spezifischer Wörter, Synonyme aussucht. Es wird dann nach Übereinstimmungen mit der Eingabe oder mit den gefundenen Synonymen in den Service-Berichten gesucht. Bei dem Bi-Encoder handelt es sich ebenfalls um ein Machine-Learning-Modell, das aus zwei BERT-Encodern besteht.

Pilotstudie

Die Pilotstudie war die erste Stufe der Studie und alle Teilnehmenden waren Teil des Service-Meister Teams. Insgesamt hatten wir 8 Teilnehmende. Das Ziel der Pilotstudie war, die Studien-App zu testen und Rückmeldung von den Teilnehmenden zu bekommen, ob die Fragestellung klar war. Es wurden daher Eins-zu-eins-Gespräche mit den Teilnehmenden durchgeführt, um ein detailliertes Feedback zu bekommen, ob der Umgang mit der App einfach und die Aufgabe verständlich war. Nach den Gesprächen wurde das Frontend angepasst unter der Berücksichtigung des Feedbacks der Testpersonen.

Abbildung 1: Benutzerschnittstelle der Studien-App.

inovex-interne Studie

An der zweiten Stufe der Studie nahmen Mitarbeiter:innen von inovex und der BHT teil. Die Studien-App war ungefähr für drei Wochen offen und 31 Teilnehmer:innen haben die Studie abgeschlossen. Im Folgenden werden die Ergebnisse der Studie und die Interpretationen vorgestellt.

Statistiken

Ein Überblick über die Zuordnung der Teilnehmenden zu den Versionen, die zufällig erfolgte, ist in Abbildung 1 zu finden.

Abbildung 2:  Zuordnung der Teilnehmer zu den drei Versionen der Studie. Auf der X-Achse sind der drei Versionen der Studie und auf der Y-Achse ist die Anzahl der Teilnehmer, die jeder Version zugewiesen wurde, zu sehen.

Das Ziel war, dass jede Version der Studie ein Drittel der Teilnehmer:innen zugewiesen bekommt. Die nullte Version hat 12 Teilnehmende, die erste Version 8 und die zweite Version 11 Teilnehmende.

Die Teilnehmer:innen dürften für alle 18 Schritte die gezeigten Service-Berichte auf einer Skala 1 (sehr schlecht) bis 5 (sehr gut) bewerten. In Abbildung 2 ist eine Übersicht über die Frequenz, mit der jede Suchtechnologie mit jeder der fünf Werten bewertet wurde, zu sehen. Laut der Abbildung haben alle Suchtechnologien eine ähnliche Anzahl von “5“ Bewertungen bekommen. Die Ergebnisse des Bi-Encoders wurden hier etwas öfter mit “5“ bewertet als die Schlagwortsuche, die Synonymsuche wurde absolut am häufigsten mit “5“ bewertet. Der Bi-Encoder hat offensichtlich mehr “3“ Bewertungen als die anderen Suchtechnologien und Schlagwortsuche hat fast viermal “1“ Bewertungen so häufig wie die anderen beiden Suchtechnologien bekommen. Aus der Abbildung 2 kann man keine Erkenntnisse ziehen, welche Suchtechnologie im Allgemeinen besser ist. Für einen formalen Vergleich der Suchtechnologien wurden statistische Hypothesentests durchgeführt.

Abbildung 3: Barplot mit der Gesamtanzahl an Bewertungen, die jede Suchtechnologie bekommen hat. Die X-Achse repräsentiert die Likert-Skala von 1 bis 5 und auf der Y-Achse ist die Gesamtanzahl von der Bewertung, die jede Suchtechnologie bekommen hat, zu sehen.

Hypothesentests Vorverarbeitung

Statistische Hypothesentests sind mathematische Funktionen, die die gesammelten Beobachtungen als Eingabe entgegennehmen und abhängig von dem resultierenden Wert entscheiden, ob eine Hypothese gültig oder ungültig ist. Welchen Hypothesentest man auswählt, hängt vom Studiendesign und Format der Daten ab. Bei unseren Daten wurde nicht davon ausgegangen, dass die vorliegenden Daten einer statistischen Verteilung unterliegen. Die gesammelten Daten sind außerdem abhängig, d.h. jede:r Teilnehmende bewertet die drei Suchtechnologien, die zu vergleichen sind. Der Test, der sich für unseren Anwendungsfall eignet, ist der Wilcoxon-Signed-Rank-Test. Der Wilcoxon-Signed-Rank-Test ist ein nichtparametrischer Test für abhängige Beobachtungen. Der Test nimmt als Eingabe zwei Listen, wobei alle zwei Werten an der gleichen Stelle in den Listen abhängig sind.

Damit unsere Daten dem Format der Eingabe für den Test entsprechen, wurden diese vorverarbeitet, sodass wir insgesamt drei Listen erhalten. Jede Liste repräsentiert eine Suchtechnologie und besteht aus 31 Elementen. Jedes Element in der Liste repräsentiert die durchschnittliche Bewertung eines/einer Teilnehmenden für die Suchtechnologie. Also wir hatten drei Listen:

Liste 1 : [Durchschnittliche Bewertung von Teilnehmer:in 1 für die Schlagwortsuche, Durchschnittliche Bewertung von Teilnehmer:in 2 für die Schlagwortsuche, ……., Durchschnittliche Bewertung vom Teilnehmer:in 31 für die Schlagwortsuche]

Liste 2: [Durchschnittliche Bewertung von Teilnehmer:in 1 für die Synoynmsuche, Durchschnittliche Bewertung von Teilnehmer:in 2 für die Synonymsuche,…………., Durchschnittliche Bewertung von Teilnehmer:in 31 für die Synoynmsuche]

Liste 3: [Durchschnittliche Bewertung von Teilnehmer:in 1 für den Bi-Encoder, Durchschnittliche Bewertung von Teilnehmer:in 2 für den Bi-Encoder,………….,  Durchschnittliche Bewertung von Teilnehmer:in 31 für den Bi-Encoder]

Für die durchschnittliche Bewertung wurde für jeden Teilnehmer die Summe von den sechs Bewertungen, die von ihm für eine bestimmte Suchtechnologie gegeben wurde, durch sechs geteilt. In Abbildung 4 ist ein Boxplot zu finden, der die Verteilung der Daten zeigt. Der Median von der Synonymsuche und dem Biencoder ist der gleiche und beide haben eine maximale durchschnittliche Bewertung von 5 bekommen, wohingegen die Schlagwortsuche nur ein paar Werte über 4.25 hat und daher als Ausreißer betrachtet wurden. Schlagwortsuche hat weniger Streuung in den Daten im Vergleich zu den anderen zwei Suchtechnologien; 50% der mittleren Datenpunkte haben einen Wert zwischen 3 und 3.5 gegeben. Der Biencoder und die Schlagwortsuche haben den gleichen minimalen Wert und die Synonymsuche hat einen interessanten Ausreißer beim Wert 2. Aus diesen Beobachtungen lässt sich schlussfolgern, dass keine der Suchtechnologien in allen Aspekten die Beste ist. Aber die Synonymsuche hat die besten Bewertungen abgesehen von dem Ausreißer und die Schlagwortsuche hat die schlechtesten durchschnittlichen Bewertungen. Bi-Encoder hat Ähnlichkeiten mit sowohl die Synonymsuche als auch die Schlagwortsuche. Man kann daher von diesem Plot einschätzen, dass der Bi-Encoder auf dem zweiten Platz nach der Synonymsuche ist.

Abbildung 4: Boxplot, der einen Eindruck über die Verteilung der statistischen Bewertung. Auf der X-Achse  sind die drei Suchtechnologien und auf der Y-Achse ist die Likert-Skala zu sehen.

Zweiseitige Hypothesentests

Für den Wilcoxon-Hypothesentest wurde die Schlagwortsuche als Baseline genutzt und folgende Nullhypothese und Alternativhypothese wurden definiert:

Nullhypothese (H0): Beide Suchtechnologien sind gleich gut bzw. beide Suchtechnologien haben die gleiche zentrale Tendenz.

Alternativhypothese (H1): Eine Suchtechnologie ist besser als die andere.

Es wurden folgende drei Tests durchgeführt, wobei in jedem Test zwei Suchtechnologien auf die oben erwähnte Nullhypothese geprüft wurden. es werden drei Tests durchgeführt:

  1. Schlagwortsuche vs Synonymsuche
  2.  Schlagwortsuche vs Bi-Encoder
  3. Synonymsuche vs Bi-Encoder

Das Signifikanzniveau setzen wir auf 0.05. Dieser Wert gibt an, wie hoch die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, obwohl sie wahr ist (False Negative). Eine Nullhypothese wird verworfen, falls der von dem Wilcoxon-Test resultierende Wert (p-Wert) kleiner ist als das Signifikanzniveau (0.05).

Für die Durchführung jedes Tests wurde die Python-Bibliothek scipy verwendet, die der Wilcoxon-Test als Funktion zur Verfügung stellt. Als Eingabe wurde für jeden Test die entsprechend vorverarbeitete zwei Liste entgegengenommen. In Tabelle 1 sieht man eine Übersicht der p-Werte, die als Ergebnisse der Hypothesentests rausgekommen sind.

In Tabelle 1 sieht man eine Übersicht der p-Werte, die als Ergebnisse der Hypothesentests rausgekommen sind.

Tabelle 1: p-Werte aus den zweiseitigen Hypothesentests

Aus der Tabelle kann man ablesen, dass nur die Nullhypothese des ersten Tests verworfen werden kann. Dies bedeutet, dass die Schlagwortsuche und die Synonymsuche nicht gleich gut sind, also eine ist besser als die andere.

Bei den anderen zwei Tests konnte die Nullhypothese nicht verworfen werden. Das heißt, es kann nicht daraus gefolgert werden, dass der Bi-Encoder weder gleich gut ist wie die Schlagwortsuche noch wie die Synonymsuche. Der p-Wert des zweiten Tests ist kleiner als der dritte Test (näher an dem Signifikanzniveau). Mit anderen Worten hätte der zweite Test eine höhere Möglichkeit verworfen zu werden als der dritte. Es kann daher  angenommen werden, dass der Bi-Encoder mehr ähnlich zu der Synonymsuche als zu der Schlagwortsuche ist. Eine größere Teilnehmer:innenzahl hätte zu mehr signifikanten Ergebnissen führen können. Um eine bessere Idee zu bekommen, wie ähnlich die Suchtechnologien sind, wurden wieder drei statistische Hypothesentests mit Wilcoxon durchgeführt, aber dieses Mal einseitige Tests.

Einseitige Hypothesentests

Zweiseitige und einseitige Tests unterscheiden sich in zwei Aspekten:

  1. Das Signifikanzniveau ist die Hälfte des Wertes (0.05/2 = 0.025). Also die Nullhypothese wird dann genau verworfen, wenn der resultierende p-Wert kleiner als 0.025 ist.
  2. Die Null-und Alternativhypothese sind anders

Nullhypothese (H0): Die erste Suchtechnologie (auf der linken Seite in der ersten Spalte in der Tabelle) ist besser oder gleich gut die zweite Suchtechnologie (auf der rechten Seite in der ersten Spalte in der Tabelle) Alternativhypothese (H1): Die zweite Suchtechnologie ist besser als die erste.

Tabelle 2: p-Werte aus den einseitigen Hypothesentests

Das Ergebnis des vierten Tests zeigt, dass die Synonymsuche besser als die Schlagwortsuche ist. Der Grund dafür ist, dass die Nullhypothese (die Schlagwortsuche ist besser oder gleich gut die Synoynmsuche) verworfen werden konnte, und daher gilt die Alternativhypothese. Das passt zum ersten zweiseitigen Test, da es uns bekannt war, dass beide Suchtechnologien nicht gleich gut sind.

Die Ergebnisse der fünften und sechsten Tests sind ein bisschen schwerer zu interpretieren. Die Nullhypothese kann in beiden Fällen nicht verworfen werden. Dies bedeutet, wir können nicht sagen, dass die Schlagwortsuche besser ist oder gleich gut wie die Schlagwortsuche ist, aber gleichzeitig können wir nicht annehmen, dass die Synonymsuche besser oder gleich gut der Bi-Encoder ist. Da der p-Wert von dem fünften Test aber viel kleiner ist als der p-Wert von dem sechsten Test, hätte der fünfte Test eine höhere Möglichkeit verworfen zu werden, hätten wir mehr Teilnehmer gehabt. Daraus folgt, dass die Wahrscheinlichkeit, dass der Bi-Encoder besser als die Schlagwortsuche ist, höher ist als die Wahrscheinlichkeit, dass der Bi-Encoder besser als die Synonymsuche ist.

Qualitätskontrolle der Versionen

Für eine robuste Studie sollten die drei Versionen der Studie die gleiche Qualität besitzen. Dafür wurde der Datensatz in drei Teile aufgeteilt, um diese Qualität zu überprüfen. Jeder Teil enthält nur die Ergebnisse einer einzigen Version. Die drei zweiseitigen Hypothesentests wurden nochmal durchgeführt, aber dieses Mal innerhalb einer Version. Um sicherzustellen, dass die Studie robust ist, sollten alle p-Werte  auf der gleichen Zeile ähnlich sein. Laut der Tabelle 3 scheinen die p-Werte für jede Zeile verschieden zu sein. Mögliche Gründe sind, dass die Anzahl der Teilnehmer nicht groß genug ist, um signifikante Ergebnisse zu bekommen oder die Zuteilung von den Suchtechnologien zu den Problembeschreibungen innerhalb einer Version nicht ganz fair war.

Tabelle 3: p-Werte aus den zweiseitigen Hypothesentests für die einzelnen Versionen

Diskussion

Nach der Durchführung von den sechs statistischen Hypothesentests, kann davon ausgegangen werden, dass die Synonymsuche die beste Suchtechnologie ist, gefolgt von dem Bi-Encoder und dann die Schlagwortsuche auf dem letzten Platz. Eine größere Teilnehmer:innenzahl hätte eventuell zu einer robusteren Studie geführt. Man kann die Ergebnisse trotzdem als eine Indikation verwenden, muss aber gleichzeitig berücksichtigen, dass die Anzahl der gesammelten Beobachtungen in der Studie nicht groß genug war.

Eine Schwäche der Studie ist, dass die Teilnehmer:innen keine Fachexpertise haben. Wären die Teilnehmenden Experte:innen, wären die Ergebnisse auch präziser. Zusammenfassend kann man sagen, dass die Studie einen ersten Eindruck von der Ergebnisqualität der einzelnen Suchalgorithmen liefert und weitere mögliche Verbesserungspotenziale impliziert.

Hat dir der Beitrag gefallen?

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert