Blog

Header - Blogartikel Halluzination von LLMs

Fakt oder Fiktion? Warum Large Language Models „halluzinieren“ und was das für Unternehmen bedeutet

Von Dr. Julia König und Marius Kleboth am 01. Oktober 2025

Large Language Models (LLMs) wie ChatGPT, Gemini und Co. sind längst zu unverzichtbaren Werkzeugen geworden, die Prozesse automatisieren und die Produktivität steigern können. Doch trotz ihrer beeindruckenden Fähigkeiten gibt es ein unvermeidliches Phänomen, das man nicht außer Acht lassen darf: die sogenannte „Halluzination“. 

Anfang September 2025 veröffentlichte OpenAI selbst ein Paper zum Thema “Why Language Models Hallucinate” in dem Adam Tauman Kalai und seine Kollegen bei OpenAI untersuchen, wie es dazu kommt, dass Modelle von OpenAI selbst (wie bspw. GPT-5) aber auch Modelle von Konkurrenten wie DeepSeek halluzinieren, und ob sich dieses Phänomen verhindern lässt. In diesem Blogartikel wollen wir ihre wichtigsten Erkenntnisse zusammenfassen.

Was sind KI-Halluzinationen?

Im Gegensatz zu einer menschlichen Halluzination, die eine Sinnestäuschung (Sehen, Hören, Riechen, Fühlen, Schmecken) ohne objektive Realität bezeichnet, bedeutet das „Halluzinieren“ bei einem Large Language Model das Generieren von plausibel klingenden, aber faktisch falschen Informationen. Das Modell erfindet scheinbar korrekte Zitate, Daten oder Ereignisse, die in seinen Trainingsdaten nicht vorhanden sind. Es handelt sich dabei nicht um eine bewusste Täuschung, sondern um ein direktes Resultat der komplexen Mechanismen, die der Funktionsweise dieser Modelle zugrunde liegen.

Halluzination mit Robotern

Die technischen Ursachen: Ein Blick hinter die Kulissen

Um zu verstehen, warum ein LLM halluziniert, müssen wir uns seine grundlegende Funktionsweise vor Augen führen.

  1. Modelle lernen Wahrscheinlichkeiten

Die Basis eines Large Language Models ist die statistische Vorhersage. Während des Trainings lernt das Modell, das wahrscheinlichste nächste Wort in einer Abfolge von Wörtern zu bestimmen. Es erkennt Muster und Beziehungen in einem gigantischen Korpus an Textdaten. Diese Vorhersage basiert nicht auf einem echten Verständnis, sondern auf der Wahrscheinlichkeit, dass bestimmte Wörter in einem bestimmten Kontext zusammen auftreten. Während dies bei konsistenten Mustern (z. B. der Rechtschreibung) sehr gut funktioniert, sind seltene Fakten oder arbiträre Informationen im Trainingsmaterial oft inkonsistent oder gar nicht vorhanden. Die Folge: Statt zu schweigen, versucht das Modell, die Lücke mit der statistisch wahrscheinlichsten, aber oft falschen Information zu füllen.

  1. Mangelnde Konsistenz der Daten

In ihrem Paper zeigen die Wissenschaftler von OpenAI, dass Halluzinationen selbst bei Modellen auftreten können, die auf “perfekten” Trainingsdaten trainiert wurden, die nur korrekte Informationen enthalten. In der Realität werden LLMs allerdings auf riesigen Datensätzen trainiert, die aus großen Teilen des Internets bestehen und daher von Natur aus fehlerbehaftet, widersprüchlich und unvollständig sind. Die Trainingsdaten sind also alles andere als zuverlässig und Halluzinationen sind bei Modellen, die auf realen Daten trainiert wurden, noch wahrscheinlicher. Stößt ein Modell auf eine Information, die nur selten oder in widersprüchlichen Versionen vorkommt, kann es keine verlässliche Schlussfolgerung ziehen. Es tendiert dazu, eine plausibel klingende, aber falsche Kombination der erlernten Muster zu generieren, die in der Realität nicht existiert.

  1. Halluzinationen in den grundlegenden Modellen sind unausweichlich

LLMs erlernen eine Wahrscheinlichkeitsverteilung unserer Sprache. Das bedeutet konkret sie lernen unter anderem, wie wahrscheinlich eine mögliche Antwort auf folgende Frage ist: “Wann wurde Adam Tauman Kalai geboren? Wenn du die Antwort weißt, antworte mit dem Tag und Monat”. Sowohl “03-07”, “15-06”, als auch “01-01” sind hier zwar alles plausibel klingende Antworten, aber alle falsch. Aktuelle Sprachmodelle lernen während ihres Trainings nicht, dass diese Antworten “komplett unmöglich” sind, also eine Wahrscheinlichkeit von 0% haben, sondern ordnen ihnen nur eine kleine, aber nicht zu vernachlässigende Wahrscheinlichkeit zu. Kalai et al. zeigen, dass durch die Art und Weise des Trainings diese Art von Fehler unausweichlich ist, und diese zwar durch nachträgliche Änderungen am System, wie beispielsweise Prompts, RAG1 oder die Verwendung von Tools reduziert werden können, dies aber zum einen kein Allheilmittel ist und auch das Verhalten vom Modell davon entfernt, was es während des Trainings gelernt hat.

  1. Fehlgeleitete Anreize durch Bewertungssysteme 

Der Hauptvorschlag der Wissenschaftler ist nicht neu: Sprachmodelle müssen lernen, nicht um jeden Preis eine schlau klingende Antwort zu liefern. Stattdessen sollten sie schlicht mit “Das weiß ich nicht“ antworten, wenn sie sich unsicher sind. Also beispielsweise dann, wenn sie keiner möglichen Antwort eine besonders hohe Wahrscheinlichkeit zuordnen können. Hier gibt es allerdings aktuell ein entscheidendes Problem: Diese Art von Antwort ist aktuell bei der Bewertung und Optimierung von LLMs nicht vorgesehen. Ein “Das weiß ich nicht” wird genauso schlecht bewertet wie eine falsche, komplett erfundene Antwort. Stellen Sie sich eine Prüfung mit Multiple-Choice-Fragen vor: Ein Student, der rät, kann zufällig eine richtige Antwort erwischen und punktet, während der Student, der „Ich weiß es nicht“ schreibt, garantiert null Punkte bekommt. Ähnlich werden Large Language Models dazu angeleitet, lieber zu raten, als „Ich weiß es nicht“ zu sagen, da ein glücklicher Treffer die Bewertung des Modells verbessert, während ein ehrlicher Ausdruck von Unsicherheit garantiert zu einer niedrigeren Punktzahl führt. Dies trägt maßgeblich zur Prävalenz von Halluzinationen in aktuellen Sprachmodellen bei. Viele Benchmarks2 messen die Genauigkeit der Antworten, ohne eine Unterscheidung zu treffen, ob eine falsche Antwort geraten oder eine Unwissenheit eingestanden wurde.

Kalai et al. betonen hier, dass es nicht ausreicht, nur neue Benchmarks zu schaffen, die falsche Antworten stärker abstrafen, sondern auch die bestehenden Tests angepasst werden müssen, damit diese nicht weiterhin die Bewertung der LLMs verzerren.

Fazit

Das Verständnis der technischen Ursachen von KI-Halluzinationen ist der erste Schritt zur verantwortungsvollen Implementierung. Es zeigt, dass Large Language Models keine Wissensdatenbanken sind, sondern hochentwickelte statistische Werkzeuge. Der effektive Einsatz von KI im Geschäftsalltag erfordert daher stets menschliche Kontrolle, eine klare Abgrenzung der Anwendungsbereiche und die Entwicklung von Prozessen, die eine Verifikation der Ergebnisse sicherstellen. So können Sie das volle Potenzial der Technologie nutzen und gleichzeitig die Risiken minimieren.

Quellen:

  1.  “Retrieval Augmented Generation”, dem Modell werden zur Beantwortung von Fragen relevante Informationen zur Verfügung gestellt. Vom Prinzip her ähnlich, wie wenn man zur Beantwortung einer Aufgabe Quelltexte zur Verfügung gestellt bekommt.
  2. Sprachmodelle werden gegen große Sammlungen von “Prüfungsfragen” evaluiert, die verschiedenste Bereiche wie Mathematik, Chemie oder Allgemeinwissen abdecken. Die Modelle werden danach bewertet wie viele Fragen sie korrekt beantworten können. Ein Beispiel hierfür ist “Humanity’s Last Exam” (https://agi.safe.ai/)

Sie möchten erfahren, wie KI-Systeme in der Praxis sinnvoll eingesetzt werden können, um echten Mehrwert zu schaffen? Entdecken Sie hier unsere Referenzprojekte, in denen KI-Lösungen erfolgreich implementiert wurden!

Sie interessieren sich für die individuelle Entwicklung Ihres KI-Projektes?

Was können wir für Sie tun?

Um diesen Service zu nutzen, klicken Sie auf den Button oben. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Infos

Kontaktieren Sie uns.
Wir freuen uns von Ihnen zu hören.

„In einem ersten Startgespräch nehme ich Ihre Anfrage auf und koordiniere die weiteren Schritte. Ich freue mich darauf, Sie kennenzulernen!“

Leah Danisman, geb. Soldner
Customer Relationship Managerin

Um diesen Service zu nutzen, klicken Sie auf den Button oben. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Infos

Falls kein passender Termin über das Buchungssystem für Sie dabei ist, können Sie mich gerne kurz telefonisch kontaktieren. Wir finden einen zeitnahen Termin.