Hinweis:
Dieser Blogartikel ist älter als 5 Jahre – die genannten Inhalte sind eventuell überholt.
In meinem Artikel über Erfolgsfaktoren habe ich 5 entscheidende Elemente bei der Umsetzung von Datenprodukten herausgearbeitet. Das wichtigste Element ist der Feedback Loop. Dabei geht es darum, die Interaktion der Nutzer:innen mit dem Dienst zu nutzen, um den Dienst selbst zu verbessern oder Input für neue Angebote zu schaffen. Warum das sinnvoll ist, möchte ich gerne anhand von etwas mehr Details verraten.
„The economy, stupid“*
Ohne Alleinstellungsmerkmal wird es für Produkte schnell schwierig, sich auf einem Markt zu behaupten – das gilt natürlich auch für Datenprodukte. Da Daten leicht kopiert werden können, muss man kreativ werden, um ein Alleinstellungsmerkmal auf Basis von Daten zu definieren. Natürlich gibt es auch für Daten Eintrittsbarrieren: Nicht jeder kann Datenvolumina ab einer bestimmten Größenordnung sinnvoll verwalten. Nicht jeder kann alle Bücher der Library of Congress scannen lassen. Darauf sollte man sich allerdings nicht verlassen.
Eine gute Option für ein Daten-Alleinstellungsmerkmal sind Transaktionsdaten. Dazu eine kleine Anekdote.
Wer sich noch daran erinnert: Vor ein paar Jahren konnte man als Verlag sehr viel Geld mit Straßenkarten verdienen. Das Prinzip war relativ einfach. Der Verlag hat sich die Stammdaten** (Master Data) der Straßen, Ortschaften etc. besorgt, diese grafisch aufbereitet und über Tankstellen und Buchhandlungen verkauft. Aus der Datenperspektive ist dabei interessant, dass es zu dem Zeitpunkt noch möglich war, mit Stammdaten Geld zu verdienen. Als natürliche Konsequenz hat Nokia damals (2007) Naveteq – das heutige Here – für 8 Mrd. US Dollar gekauft. Nokia hat dabei den Wert von Stammdaten über- und den Wert von Transaktionsdaten unterschätzt. Stammdaten lassen sich nämlich relativ leicht erheben. Man braucht dazu Geld oder eine große Community (siehe z. B. OpenStreetMap). Daher musste Nokia Here 2015 für deutlich weniger Geld, nämlich 2,8 Mrd. Euro, an die deutschen Automobilbauer weiterverkaufen.
Während man Stammdaten mit etwas Aufwand für sich nutzbar machen kann, ist es relativ schwierig, an die Transaktionsdaten zu kommen. Es gibt nur wenige Firmen, die genügend Sensoren auf allen Straßen haben, um zu erfassen, wie viel Verkehr dort gerade ist. Die Fahrzeuge selbst können einem diese Information liefern, die Fahrer (Mobiltelefone) und die Mobilfunkanbieter. Bis jetzt hat es nur Google geschafft, diese Information via Google Maps den Nutzer:innen auf einfache Weise wieder zurückzuspielen und die Information in die Routenplanung zu integrieren. Die Akquisition von Waze hat da sicher nicht geschadet. Damit hat Google gegenüber den meisten anderen App-Kartenanbietern ein Alleinstellungsmerkmal – sicherlich auch ein Grund dafür, dass Google Maps in den USA zu den am häufigsten genutzten Apps überhaupt zählt.
Es gibt weitere Beispiele für den Wertvorteil der Transaktionsdaten gegenüber den Stammdaten: Foursquare (Besuche von Plätzen), Walmart (Nachfrage nach Produkten), Börsen (Nachfrage nach und Angebot an Aktien), Tesla (Eingriffe der Fahrer in den Autopilot).
Während es sehr kompliziert ist, sich über Stammdaten ein Alleinstellungsmerkmal zu erarbeiten, fällt dies bei Transaktionsdaten relativ leicht; sofern man eine ausreichend große Nutzer:innengruppe und seine Data Value Chain im Griff hat.
Die Datenwertschöpfungskette
Beim Feedback Loop geht es darum, mit jeder Nutzung der eigenen Daten wieder neue Daten zu generieren, die das existierende Alleinstellungsmerkmal vergrößern. Damit dies möglich ist, muss der Anbieter eines Dienstes die Interaktion der Nutzer:innen mit dem Dienst wieder für sich nutzen. Als gute Übung, um zu überprüfen, ob das funktioniert, benutze ich sehr gerne eine Datenwertschöpfungskette (Data Value Chain). Diese beschreibt den Fluss der Daten von deren Entstehung bis zur Nutzung. Die Datenwertschöpfungskette kann sowohl für Stammdaten als auch für Transaktionsdaten aufgezeichnet und auf ihre Durchgängigkeit hin überprüft werden.
Meine eigene Datenwertschöpfungskette enthält die Schritte, die der folgenden Abbildung zu entnehmen sind:
Wichtig ist vor allem, dass die Wertschöpfungskette für einzelne Datenobjekte durchgängig ist. Ein Beispiel:
Google-Suche
Nehmen wir die Google-Suche. Ganz genau weiß man natürlich nicht, welche Faktoren in das Ranking der Websites einfließen, wir können aber eine begründete Vermutung wagen. Die Master-Data-Wertschöpfungskette hat folgenden Aufbau: Die Websites werden gecrawlt, gespeichert und sicherlich bereinigt. Dann werden die unterschiedlichen Textinhalte mit dem Google Knowledge Graph integriert. Es folgen verschiedene Analysen, um die Wichtigkeit der Websites zu bestimmen. Durch die individuelle Suche kann das Ergebnis angezeigt werden. Diese Suche ist nun wiederum die Transaktion auf den Stammdaten. Google speichert jede Suchanfrage, die für die Anfrage angezeigten Links, die geklickten Links etc. Die Klickdaten werden mit den Stammdaten integriert und mit den Klicks aller anderen Nutzer:innen. Jeder Klick wird benutzt, um z.B. den Search Intent zu analysieren und das Suchergebnis zu bewerten. Hier entsteht jetzt der Feedback Loop: Die Parameter, die das Ranking der Websites bestimmen, können für die Nutzer:innen variiert und durch das Klickverhalten kann die Parameter-Kombination optimiert werden.
„A fool is a man who never tried an experiment in his life“***
Was das Beispiel verdeutlicht: Wenn man die Data Value Chain schließt, kann man jede Ausgabe von Daten als Experiment nutzen. Das Feedback der Nutzer:innen hilft dabei, die optimale Kombination von Parametern zu finden. Dieses Prinzip wird von allen großen Datenprodukt-Anbietern umgesetzt und setzt sich auch bei neueren Services durch:
Amazon
Bei Amazon werden durch die Feedback Loop individuelle Empfehlungen generiert. Ich habe hierzu eines der ersten Paper zum Thema Collaborative Filtering von Amazon aus dem Jahr 2003 herausgesucht. Das Prinzip ist also relativ alt.
Tesla
Bei Tesla nennt sich die Feedback Loop Fleet Learning. Durch die Eingriffe der Autofahrer bei aktiviertem Autopilot lernt das System, kritische Situationen besser zu meistern.
Weltauto.at
Mir gefällt auch die App von Weltauto.at. Durch einfaches Wischen kann der/die Nutzer:in dem System beibringen, welche Präferenzen er für sein Auto hat. Durch eine Kombination aus Content und Collaborative-Filtering-Ansätzen versteht das System nach wenigen Selektionen, wie das Wunschauto aussehen soll.
Donde Fashion/Zalando Fashion Flow
Bei Donde Fashion, einer App für die Suche nach Mode, bin ich mir nicht genau sicher, ob auf Basis der ausgewählten Trageformen eine Präferenz für den/die Nutzer:in gelernt wird. Vom Prinzip her würde es sich aber anbieten. Zalando hat das Prinzip mit Fashion Flow schon umgesetzt.
Uber Movement
Uber stellt in einem neuen Service die Fahrtverlaufsdaten seiner Nutzer:innen öffentlichen Einrichtungen zur Verfügung. Dadurch soll eine bessere Stadt-/Verkehrsplanung ermöglicht werden. Wobei ich anmerken muss, dass bei städtischen Planungszyklen der Feedback Loop schon sehr lange Zeiträume einnehmen kann.
Ich möchte noch erwähnen, dass ein A/B-Test nur ein erster Schritt auf dem Weg zu einem echten Feedback Loop ist. Während der A/B-Test Feedback einmalig für bestimmte Optionen bewertet, ist ein Feedback Loop ein kontinuierlicher Prozess, der zu ständiger Verbesserung und damit Selbstoptimierung führt. Andrew Ng, Chief Scientist von Baidu, hat zum „Virtuous Circle“ von Künstlicher Intelligenz eine schöne Vorlesung gehalten. Der Artikel von Edd Wilder-James arbeitet diesen Aspekt auch schön heraus.
Diese Idee ist auch in der betriebswirtschaftlichen Literatur beliebt. Zum Beispiel schreiben Rob Markey, Fred Reichheld und Andreas Dullweber 2009 im Harvard Business Review über „Closing the Customer Feedback Loop“. Die technischen Möglichkeiten der Datenerfassung und auch die Algorithmik sind so weit, dass (1) die Nutzung des Feedback Loop eine ganz neue Bedeutung gewonnen hat und (2) jedes Unternehmen davon profitieren kann.
Technische Perspektive
Ich möchte an dieser Stelle nicht zu tief in die Verfahren des maschinellen Lernens abtauchen. In unserem Blog finden sich dazu zahlreiche Beiträge, es gibt tolle Online-Kurse oder Übersichten, wie und wann maschinelles Lernen für Produkte relevant ist. Den Verfahren sind allerdings einige Eigenschaften inhärent, die bei der Gestaltung des Feedback Loop berücksichtigt werden sollten, insbesondere wenn man aus den Daten eine Vorhersage ableiten möchte, also etwas lernen will. Beim maschinellen Lernen werden die Parameter eines Modells so adjustiert, dass zu einem gegebenen Input der passende Output generiert wird. Dazu gibt man dem Algorithmus Trainingsdaten, die zur Anpassung der Modellparameter genutzt werden. Es gibt sehr unterschiedliche Lernverfahren. Für den Kontext des Feedback Loop ist das (Deep) Reinforcement Learning (RL) sehr relevant. Die Güte des Verfahrens bemisst sich nach der Qualität der Vorhersage für unbekannte Input-Daten. Das Feedback der Nutzer:innen entspricht dem Trainingsdatensatz. Damit man die Daten sinnvoll verwenden kann, benötigt man viele Daten, um die statistische Signifikanz sicherzustellen. Input-Daten und Zielparameter müssen klar zugeordnet werden. Die Daten müssen breit und tief sein, also viele der Handlungsmöglichkeiten der Nutzer:innen abbilden. Bei der Auswahl des Algorithmus sollten verschiedene Optionen evaluiert werden, da die Algorithmen für unterschiedliche Szenarien optimiert wurden.
Feedback Loop: Gut fürs Geschäft und technologisch interessant
In diesem Artikel habe ich begründet, warum ein geschlossener Feedback Loop ein sehr gutes Mittel darstellt, um sich ein Alleinstellungsmerkmal im Markt der Datenprodukte zu sichern. Anhand einiger Beispiele konnte ich zeigen, dass erfolgreiche Firmen dieses Mittel schon heute nutzen, um einen Mehrwert für den Kunden zu generieren. Aus meiner Sicht ist die Datenwertschöpfungskette ein sinnvolles Mittel, um die Umsetzbarkeit eigener Ideen zu überprüfen. Insbesondere wenn die eigene Idee die Nutzung ausgefallener maschineller Lernverfahren einschließt, ist der Feedback Loop ein gutes Mittel, um an Trainingsdaten zu kommen.
Im nächsten Artikel habe ich eine Zusammenfassung der wichtigsten Aspekte geplant, die man bei der Erstellung eines Feedback Loop beachten sollte. Dazu interessiert mich natürlich auch eure Meinung und ich freue mich auf Kommentare!
- * Presidential Campaign, Bill Clinton, 1992
- ** Zur Erinnerung: Stammdaten sind diejenigen Daten, welche Objekte der Realität beschreiben. Auf das Beispiel angewendet: Der Ernst-Reuter-Platz in Berlin ist ein „Platz“, hat eine „Dimension“, „Koordinaten“ und einen „Namen“. Transaktionsdaten sind Daten, die beschreiben, was mit dem Objekt passiert. Zum Beispiel die „Anzahl der Autos“, die über den „Platz“ fahren.
- *** Erasmus Darwin (1731–1802)
5 Kommentare