Was ist Generative AI?
Generative AI bezeichnet eine Reihe von Methoden, die neue Daten erzeugen, die aussehen wie existierende Daten, die es so aber noch nicht gab. Generative AI unterscheidet sich zu „klassischer“ KI darin, dass es hier nicht darum geht, Entscheidungen zu treffen oder Handlungen auszuführen, sondern die Erzeugung von täuschend echt aussehenden Daten im Vordergrund steht. Bekannte Generative-AI-Modelle sind (Chat)GPT für Texte aller Art und Dall-E, Stable Diffusion und Midjourney für Bilder. Es gibt aber auch Generative-AI-Modelle für Sprache, Musik, Videos, 3D-Daten und mehr.
Wie funktioniert Generative AI?
Generative AI basiert auf Machine Learning, um gigantisch große Datensätze zu analysieren und einen Prozess zu erlernen, der diese Daten erzeugen könnte. Es ist hier nicht wichtig, dass der „echte“ Entstehungsprozess erlernt wurde; es geht nur darum, dass dieser Prozess Daten erzeugt, die so aussehen wie der zugrundeliegende Datensatz. Je nach Anwendung gibt es im Moment zwei dominante Ansätze:
Texte werden meist von Large Language Models (LLMs) generiert, die mit Self-Supervision und mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden. Bei Self-Supervision lernt das LLM die Struktur von Text, indem es das jeweils nächste Wort in einem Text vorhersagt. Mit RLHF werden dann die Antworten des Modells erst von Menschen und später vom Computer bewertet und so verbessert. RLHF ist ein Hauptgrund für den Erfolg von ChatGPT.
Bildsynthese basiert momentan vor allem auf Diffusion Models. Diese Modelle lernen einen Rauschprozess, der Bilder in vielen kleinen Schritten in weißes Rauschen umwandelt. Für die Synthese wird dieser Prozess dann umgekehrt. Ausgehend von zufälligem Rauschen entfernt das Modell dann in vielen kleinen Schritten das Rauschen, bis am Ende ein täuschend echtes Bild entstanden ist. Dieser Rückwärtsprozess kann mittels Guidance gesteuert werden, um z. B. ein Bild zu erzeugen, das zu einer Textbeschreibung passt oder ein Foto stilisiert.
Generative AI – Historie
Warum steht Generative AI aktuell so stark im Fokus der öffentlichen Aufmerksamkeit?
Obwohl Forscher:innen sich schon seit den 1950er-Jahren mit generativen Modellen beschäftigen und sich die Entwicklungsrate in den letzten Jahren z. B. durch Diffusion Models deutlich gesteigert hat, beobachteten wir mit Tools wie ChatGPT aktuell große Durchbrüche in der Generative-AI-Ära. Die Gründe für diesen Erfolg und die damit einhergehende rekordverdächtige Popularität sind zum einen die Verfügbarkeit von Rechenleistung und zum anderen der Zugang zu großen Datensätzen für das Training dieser Modelle. Auch durch das intensive Marketing der beteiligten Firmen hat diese Entwicklung aktuell und seit Monaten eine große Aufmerksamkeit in den Medien, allen Kanälen und beim Publikum erreicht, deutlich mehr als jede andere Entwicklung in diesem Bereich zuvor.
Diese Werkzeuge, die dank ihrer leichten Verwendbarkeit Millionen von Nutzern in ihr Leben integriert haben, sorgen zugleich für große Ängste und Unsicherheit, die teilweise durch Unwissenheit entstehen. Darunter fallen Sorgen in Bezug auf den Abbau von Arbeitsplätzen, Fehlinformationen, Urheberrechtsverletzungen und mehr. Auf diese Bedenken gehen wir später noch näher ein. Auch aufgrund der Schwere dieser Bedenken zieht Generative AI große Aufmerksamkeit auf sich.
Wie lange beschäftigen sich Menschen bereits mit Generative AI?
Die Essenz von Generative AI existiert praktisch bereits seit den Anfängen der Informatik. Zu Anfang waren die Ansätze noch einfach und algorithmisch. Prominente Beispiele sind die algorithmischen Kunstwerke AARON von Harold Cohen, die dieser seit den frühen 1970ern entwickelte. Die Grundlage heutiger Ansätze, die generativen Modelle, wird ebenfalls schon sehr lange erforscht und angewendet. Klassische generative Modelle lernen die Form bzw. die Verteilung von Daten mithilfe von parametrischen Modellen oder beschreiben die Entstehungsprozesse durch mathematische Modellierung. Diese Methoden können auch im Kontext von Generative AI eingesetzt werden. Texterzeugung mit Hidden Markov Models ist zum Beispiel eine beliebte Übungsaufgabe im Informatikstudium. Allerdings sind diese Ergebnisse selten so gut wie mit ChatGPT.
Mit Deep Learning kamen auch neue generative Modelle: RNNs und LSTMs (Textmodelle, die inzwischen durch Transformer wie GPT abgelöst wurden) wurden unter anderem für Dialogsysteme eingesetzt. Eine Google-Scholar-Suche nach „Question Answering LSTM“ liefert beispielsweise über 53.000 Treffer. Im Bereich Bildsynthese waren GANs lange Zeit der „Stand der Kunst“ . Populär waren hier zum Beispiel StyleGAN, mit dem Fotos in Gemälde im Stil beliebter Künstler umgewandelt werden können, oder die Seite this-person-does-not-exist.com, die Portraits von Personen erzeugt, die es gar nicht gibt.
Qualität und Grenzen von Generative AI
Welche Qualität wird aktuell mit Generative AI erreicht?
In den letzten Jahren wurden große Fortschritte in der Generierung komplexer Formate gemacht. Dies betrifft vor allem die Bereiche Text und visueller Content. LLMs generieren unterschiedliche Textstrukturen, die von Menschen geschriebenen Texten sehr nahekommen. Bei Bildern lässt sich nicht immer sofort entscheiden, ob diese von einer KI generiert wurden. Ähnliches gilt für Audio, Video und 3D-Modellierung.
Ganz so gut wie menschliche Intelligenz ist die KI aber noch nicht. Die Modelle besitzen kein umfassendes Weltwissen und – wenn überhaupt – nur ein begrenztes Verständnis von Semantik. Neue Kontexte, die nicht in den Trainingsdaten abgebildet sind, überfordern die Modelle noch. Außerdem gilt, dass die Kreativität generativer KI noch begrenzt ist. Besonders bei komplexen Aufgaben ist die KI auf sehr genaue Anweisungen angewiesen – Menschen können hingegen auch mit kurzen, unvollständigen oder sogar falschen Anweisungen arbeiten.
Was sind die derzeitigen Grenzen von Generative AI?
Generative-AI-Modelle beziehen ihr Wissen und Können aus den Daten, auf denen sie trainiert wurden. Auf Basis dieser Daten sind die Modelle in der Regel sehr gut darin, Muster zu erkennen und semantische Brücken zu schlagen. Faktisches Wissen, das nicht in den Daten steckt, kann ein Modell dagegen nur schwer aus dem Kontext erschließen.
Ein Beispiel: Ein Generative-AI-Modell für Sprache, das vor der russischen Invasion in der Ukraine trainiert wurde, hat kein Wissen über dieses Ereignis, d. h. es wird nicht fähig sein, korrekte Texte darüber zu verfassen. Allerdings versucht ein Generative-AI-Modell immer eine Antwort zu produzieren. Diese Antwort mag syntaktisch richtig sein und auch stilistisch richtig klingen, beinhaltet aber falsche Fakten. Man spricht hier davon, dass das Modell halluziniert.
Auch bei generierten Bildern ist dieses Halluzinieren ein Problem. Ein Beispiel dafür war vor einiger Zeit ein Modell, welches bei hohen Zoom-Stufen die Bilder eines Samsung-Smartphones verbesserte. Das Problem: Dieses Modell fügte in Fotos von einem verwaschenen gelben Kreis mit dunklen Flecken einen Mond ein – weil es genau das eben anhand der Trainingsdaten gelernt hatte.
Sowohl für visuelle als auch textuelle Generative-AI-Modelle zeigt sich, dass beide noch Probleme haben, größere Kontexte korrekt zu produzieren. Während kürzere Absätze bereits konsistent geschrieben werden können, nimmt die Qualität für längere Texte ab. Das zeigt sich durch falsche und fehlende Referenzen innerhalb von Texten mit zunehmender Länge.
Aber auch für visuelle Modelle gilt dies. So ändern z. B. Modelle, die Videos erzeugen, häufig die Haarfarbe der Protagonisten. Für alle Modelle gilt, dass sie Schwierigkeiten haben, Hände korrekt zu erzeugen. Das liegt daran, dass die menschliche Hand sehr viele Positionen einnehmen kann und es daher in den Trainingsdaten sehr viele Varianten von Händen gibt. Das Modell hat demnach Schwierigkeiten, Hände als solche richtig zu generalisieren.
Zudem führt auch der Bias, also die Voreingenommenheit, die in den Trainingsdaten steckt, zu Problemen. Fragt man etwa das Midjourney-Modell danach, wie Professor:innen aus den jeweiligen Fachgebieten aussehen, erzeugt es – gefragt nach einem/einer Wirtschaftsprofessor:in – ein Bild von einem Mann im Anzug. Gefragt nach dem/der Professor:in aus der Anthropologie erzeugt es das Bild einer Frau im Alt-Hippie-Look.
Wer sind die großen Player in der Generative AI?
Der Markt erstreckt sich größtenteils auf die USA, da viel Kapital und Rechenleistung benötigt werden, um die Forschung voranzutreiben. Die großen Tech-Unternehmen bilden hierbei ein Monopol (OpenAI, Microsoft, Meta, Google). Währenddessen etabliert sich die Open-Source-Community zunehmend als ein weiterer großer Player (Hugging Face). Auch in Europa sehen wir viel Bewegung (Stability AI, Mistral AI, Aleph Alpha, Nyonic, möglicherweise LEAM).
In den letzten Jahren hat sich jedoch gezeigt, dass die Tech-Giganten mit viel Kapital, Ressourcen und Zugang zu großen Datenmengen den Generative-AI-Markt besetzen. Die akademische Forschung ist dadurch limitiert, dass große Experimente nicht so einfach finanziert werden können. Es entstanden jedoch bereits Kooperationen zwischen beispielsweise der Ludwig-Maximilians-Universität München und dem Start-up Stability AI, wodurch Stable Diffusion zugänglich gemacht werden konnte.
Tech-Giganten
OpenAI
Mit GPT-3, GPT-4, ChatGPT Plus, Dall-E und InstructGPT ist OpenAI derzeit eines der führenden Unternehmen im Generative-AI-Umfeld. Nachdem Microsoft 2019 und 2021 in OpenAI investiert hatte, kündigten Microsoft und OpenAI im Januar 2023 die Verlängerung ihrer Partnerschaft an.
Microsoft
Auch Microsoft rückt verstärkt mit eigenen Produkten wie Microsoft 365 Copilot, Microsoft Dynamics 365 Copilot, Microsoft Security Copilot und der KI-Integration in Bing in den Vordergrund.
Meta
Meta veröffentlichte viele Modelle, u. a. OPT, OPT-IML, die Llama-Modelle und Alpaca. Mit LLaMA 2 ist nun auch die kommerzielle Nutzung erlaubt und es öffnen sich Türen zu Innovationen in der Open-Source-Welt.
Google spielt mit Bard und PaLM in Bezug auf die Skalierung in der Generative AI groß mit. Dabei ist Google DeepMind (ehemals Google Brain und DeepMind) heute eines der größten innovativen Forschungslabs.
Open-Source-Community
Neben den großen Investoren etabliert sich die Open-Source-Community ebenfalls als konkurrenzfähiger Player. Sie genießt mit ihrem Fokus auf Transparenz und einfachen Zugang zu neuen Technologien große Aufmerksamkeit. Dadurch konnte sie bereits viele Forschungsansätze weiterverfolgen und Alternativen zu den State-of-the-Art-Modellen geschaffen werden.
Hugging Face
Hugging Face startete 2016 mit einer Chatbot-App und ist heute mit dem „Open-Science“-Ansatz eine der größten Plattformen für Machine Learning. Mit HF Hub, einer Deployment-Infrastruktur und BigScience ist das Unternehmen aus der Community nicht mehr wegzudenken.
Europa
Stability AI
Auch in Europa etablieren sich Unternehmen wie Stability AI mit Sitz in London, die sich auf Open-Source-Modelle konzentrieren. LAION ist eine deutsche gemeinnützige Organisation, die große Machine-Learning-Modelle und Datensätze u. a. für Stable Diffusion bereitstellt.
Aleph Alpha
Ein recht junges Start-up, Aleph Alpha aus Heidelberg, forscht an großen Generative-AI-Modellen (u. a. Luminous) und stellt diese unter anderem für sogenannte kritische Unternehmen bereit, bei denen Datensicherheit und verlässliche Information relevant sind. Mit dem schnellsten europäischen kommerziellen Rechenzentrum und seiner Spezialisierung auf Basistechnologien stellt das Unternehmen einen unabhängigen Konkurrenten für OpenAI in Europa dar.
Rechenkapazität
NVIDIA
Darüber hinaus spezialisiert sich NVIDIA auf die Bereitstellung von Rechenkapazitäten, mit denen u. a. LLMs wie ChatGPT und Bard trainiert wurden. Die heutigen KI-Modelle werden größer und brauchen daher Tausende GPUs für die Entwicklung und Bereitstellung. NVIDIA hält dabei den größten Marktanteil in der KI-Chipherstellung.
LEAM
In Deutschland wurde LEAM (Large European AI Models) als Initiative des KI-Bundesverbands gegründet, um die Politik davon zu überzeugen, die notwendige Infrastruktur für KI-Systeme aus der EU zu fördern.
Was sind die derzeitigen Entwicklungen in der Generative AI?
Besonders in den letzten Jahren konnten wir eine erhebliche Vergrößerung der Generative-AI-Modelle beobachten. Während ELMo im Jahr 2018 noch 94 Mio. Parameter zählte, verdreifachte BERT-Large diese nur ein Jahr später auf über 340 Mio. Parameter. GPT-2 zog 2019 mit 1,5 Mrd. und GPT-3 in 2020 mit 175 Mrd. Parametern nach. Die neuesten Veröffentlichungen wie GPT-4 (1 Billion Parameter) im Jahr 2023 verdeutlichen, wie zeit- und kostenaufwendig die Entwicklung großer Modelle heute geworden ist.
Die LLMs verbesserten sich mit der Zeit im Hinblick auf die Anfrageanalyse als auch die Qualität der Modellausgaben. Eine wesentliche Rolle hierbei spielt Reinforcement Learning From Human Feedback (RLHF), eine Methode, mit der LLMs mithilfe menschlicher Bewertungen lernen. Dadurch kann das Training an die menschliche Evaluierung angepasst und somit ein kontrolliertes Verhalten garantiert werden. Da dies ein recht teurer Prozess sein kann, gehen derzeitige Entwicklungen in Richtung RL Optimizer und Datenqualität.
Neben dem Trend zu größeren Generative-AI-Modellen gibt es auch den Trend zu kleineren Modellen. Diese liefern eine nicht ganz so gute Qualität, sind dafür aber auf Consumer-Hardware lauffähig. Außerdem werden Modelle verbessert, indem diese auf neuen Daten nachtrainiert werden (Fine-tuning). Beispiele hierfür sind LoRA und Self-instruct. Control Net zeigt, wie Diffusion Models auf einem Laptop mit zusätzlichen Nebenbedingungen wie Körperhaltung oder Tiefenbildern angereichert werden können.
Welche Risiken und Bedenken gibt es in Bezug auf Generative AI?
Jede Technologie hat neben ihrem eigentlichen Nutzen immer auch unerwartete Nebenwirkungen. Für Generative AI lassen sich diese grob in drei Cluster einteilen: Rechtliche und wirtschaftliche Risiken, Risiken für Gesellschaft und Umwelt sowie Risiken bezüglich Ethik und Moral.
Rechtliche Risiken
Rechtliche Risiken sind unter anderem die Verletzung von geistigem Eigentum durch generierte Inhalte (Beispiele: GPL-Code in Github Copilot, Getty Images verklagt Stability AI), Haftungsfragen bei Erzeugung verbotener Inhalte sowie Risiken bei Datenschutz und Datensicherheit, auch in Bezug auf die DSGVO. Mit zunehmenden Fähigkeiten der Modelle können außerdem Arbeitsplätze verdrängt und/oder die wirtschaftliche Ungleichheit zwischen denjenigen mit und ohne Zugang zu Generative AI verstärkt werden.
Gesellschaftliche Risiken
Gesellschaftliche Risiken betreffen die Diskriminierung und Verstärkung von Vorurteilen (Bias) in den Trainingsdatensätzen durch Generative AI. Böswillige Akteure können Generative-AI-Modelle nutzen, um sehr schnell sehr viel Desinformation und Propaganda zu erzeugen und zu verbreiten. Bilder vom Papst in einer Daunenjacke oder von Trump, der sich gegen seine Verhaftung wehrt, sowie ein gefälschtes Interview mit Michael Schumacher geben einen ersten Vorgeschmack darauf. Da Inhalte so einfach zu erzeugen sind, lässt sich Generative AI aber auch für Mobbing durch Deep Fakes, Spam und gezielte Phishing-Angriffe einsetzen.
Außerdem werden die Umweltbelastung durch hohe CO₂-Äquivalent-Emissionen bei Training und Betrieb der Modelle (siehe Bericht auf golem) und die Ausbeutung von Crowd-Workern bei der Erzeugung der Trainingsdaten (wie TIME über OpenAI berichtet) häufig ebenfalls übersehen.
Schließlich kann der zunehmende Einsatz von Generative AI zu kultureller Erosion führen, da die erzeugten Daten keinen kulturellen Kontext enthalten bzw. diejenigen Wertvorstellungen und Normen transportieren, die besonders oft in den Trainingsdaten auftreten – meist sind das diejenigen aus Nordamerika und Europa.
Ethische Risiken
Risiken bezüglich Ethik und Moral sind mangelnde Transparenz, wenn die Modelle in Entscheidungsprozesse involviert sind, und Fragen der Rechenschaft, besonders wenn durch die generierten Inhalte ein Schaden entsteht. Durch immer realistischere Erzeugnisse von Generative AI beginnt außerdem zunehmend die Grenze zwischen Realität und Fiktion zu verwischen. Dies kann z.B. zu einer weiteren Polarisierung der Gesellschaft führen.
Fazit
Die Technologie der Generative AI öffnet uns mit ihren zahlreichen sehr guten Ergebnissen viele Türen sowohl im Privatleben als auch im Geschäftsalltag. Die Forschung und Entwicklung in diesem Bereich machte in den letzten Jahren rasante Schritte und erreichte mit Tools wie ChatGPT große Durchbrüche. Die Tech-Giganten und die Open-Source-Community erforschen und entwickeln ständig neue Ansätze, um Generative-AI-Modelle zu verbessern. Durch die neue Tool-Landschaft entstehen jedoch auch ethische sowie rechtliche Risiken, mit denen wir bisher noch nicht in diesem Ausmaß konfrontiert waren. Voreingenommenheit und schädliche Inhalte zählen u. a. zu diesen gravierenden Bedenken. Darüber hinaus gibt es offene Fragestellungen im Bereich des Urheberrechts und der Privatsphäre, die aktuell in laufenden Verfahren geklärt werden müssen.