Warum Googles KI Google (oder sonst irgendetwas) nicht buchstabieren kann

Wie viele Ps sind in „Google“? Laut Google sind es zwei.

Außerdem gebe es „genau 1 ‚r‘ im Wort ‚poop‘“, behauptet Googles AI Overview, ebenso wie zwei „d“s im Wort „journalism“, das die KI allerdings als „j-o-u-r-n-a-d-i-s-m“ buchstabierte. Immerhin erkannte Google, dass im Nachnamen des US-Präsidenten ein P vorkommt – schrieb ihn jedoch als „t-r-p-u-m“.

Man musste kein Prophet sein, um vorherzusagen, dass Googles KI-zentrierte Überarbeitung der Suche schlecht aufgenommen werden würde. Das haben wir schon einmal erlebt. Als Google erstmals AI Overviews in die Suche integrierte, zitierte die Funktion satirische Beiträge von The Onion und Reddit und empfahl Menschen, Steine zu essen oder Klebstoff auf Pizza zu streichen.

Jetzt, da Google sein Engagement verdoppelt, generative KI zum Mittelpunkt seines 29 Jahre alten Kernprodukts zu machen, überrascht es nicht, dass erneut Probleme auftreten.

„Das Zählen innerhalb von Wörtern ist eine bekannte Herausforderung für LLMs, und wir arbeiten daran, dieses spezielle Problem zu beheben“, teilte Google TechCrunch in einer E-Mail mit.

Diese einfachen Rechtschreibfehler kommen vielen bekannt vor. LLMs – also die Art künstlicher Intelligenz, die Chatbots und andere Textgeneratoren antreibt – sind nicht darauf ausgelegt, Rechtschreibung wirklich zu verstehen. Seit Jahren ist es ein Running Gag, dass man ein neues KI-Modell fragen sollte, wie viele „r“s im Wort „strawberry“ vorkommen. Diese KI-Modelle – die in Sekunden Apps programmieren oder Probleme lösen können, an denen Mathematiker jahrzehntelang scheiterten – buchstabieren ungefähr so gut wie Kindergartenkinder.

Googles Probleme mit den AI Overviews gehen allerdings über alberne Rechtschreibfehler hinaus. Google hat bereits vergangene Woche einen Fehler behoben, bei dem die Suche nach dem Wort „disregard“ scheinbar eine Wörterbuchdefinition anzeigte, die jedoch lautete: „Verstanden. Lass mich wissen, wenn du eine neue Eingabe oder Frage hast!“ Die Rechtschreibfehler bleiben aber besonders amüsant, weil sie sich so schwer beseitigen lassen.

Wie Forscher bereits erklärt haben, als wir sie nach diesen Buchstabierungsproblemen fragten, nehmen KI-Modelle Sätze nicht als Spracheinheiten wahr, die aus Wörtern und Buchstaben bestehen. Viele LLMs basieren auf sogenannten Transformer-Modellen, die Texte in Tokens zerlegen – das können ganze Wörter, Silben oder Buchstaben sein, je nach Modell. Statt wie ein Mensch zu „lesen“, wandelt die KI den Text in numerische Repräsentationen um, die anschließend kontextualisiert werden, damit die KI eine logisch wirkende Antwort erzeugen kann.

„LLMs basieren auf dieser Transformer-Architektur, die bemerkenswerterweise Texte gar nicht wirklich liest. Wenn man einen Prompt eingibt, wird er in eine Kodierung übersetzt“, erklärte Matthew Guzdial, KI-Forscher und Assistenzprofessor an der University of Alberta, gegenüber TechCrunch. „Wenn das Modell das Wort ‚the‘ sieht, hat es eine bestimmte Kodierung für die Bedeutung von ‚the‘, aber es kennt nicht die einzelnen Buchstaben ‚T‘, ‚H‘ und ‚E‘.“

Die tokenbasierte Architektur, die LLMs wie Googles AI Overview antreibt, ist grundsätzlich eingeschränkt, und Forscher sind nicht besonders optimistisch, dass das Rechtschreibproblem vollständig gelöst werden kann.

„Es ist ziemlich schwierig, die Frage zu umgehen, was genau ein ‚Wort‘ für ein Sprachmodell eigentlich sein sollte. Und selbst wenn sich menschliche Experten auf ein perfektes Token-Vokabular einigen würden, würden Modelle vermutlich trotzdem davon profitieren, Dinge noch weiter zu ‚chunking‘-artig zusammenzufassen“, sagte Sheridan Feucht, Doktorand an der Northeastern University, der an der Interpretierbarkeit großer Sprachmodelle forscht, gegenüber TechCrunch. „Meine Vermutung ist, dass es wegen dieser Unschärfen keinen perfekten Tokenizer geben kann.“

Das ist nicht unbedingt ein dringendes Problem für Forscher, denn der Nutzen von LLMs liegt nicht in ihrer Fähigkeit zu buchstabieren. Doch diese offensichtlichen Fehler erinnern uns daran, dass KI nicht perfekt ist – auch wenn sie manchmal wie eine allwissende Macht jenseits unseres Verständnisses erscheinen mag. KI-Ausgaben sollten niemals blind vertraut werden, ohne ihre Genauigkeit zu überprüfen.
Quelle : https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/

Warum Googles KI Google (oder sonst irgendetwas) nicht buchstabieren kann

Kommentare

Schreibe einen Kommentar Antwort abbrechen