
Yann Lecun verlässt Meta
13/11/2025Fei-Fei Li, die Stanford-Informatikerin, die beim Aufbau von ImageNet half und Maschinen im Grunde beibrachte, Objekte zu erkennen, sagt nun, dass wir aus Sprachmodellen so ziemlich alles herausgeholt haben, was möglich ist. ChatGPT kann Sonette schreiben und Code debuggen, sicher, aber es kann immer noch nicht herausfinden, wie man Geschirr in einem Schrank stapelt oder sich um einen Stuhl herum manövriert, den jemand im Flur stehen gelassen hat. Die Kluft zwischen sprachlicher Gewandtheit und physischem Verständnis könnte sich, wie sich herausstellt, als das erweisen, was clevere Chatbots von tatsächlich nützlichen Maschinen unterscheidet.
Warum sprachbasierte KI ihre Grenzen erreicht hat

Das Versprechen von künstlicher Intelligenz, die menschliche Sprache wirklich versteht, ist trotz all der beeindruckenden Demos und aufmerksamkeitserregenden Schlagzeilen auf eine Mauer gestoßen, die Forscher erst jetzt beginnen, offen anzuerkennen. Trotz Fortschritten beim multimodalen Lernen und bei Inferenzfähigkeiten haben diese Systeme Schwierigkeiten mit dem kontextuellen Verständnis auf eine Weise, die fundamentale semantische Einschränkungen offenbart. Die grammatikalischen Herausforderungen bestehen fort, selbst während Modelle zunehmend flüssigen Text generieren, wodurch Verständnisillusionen entstehen, die interpretative Lücken verschleiern, die keine noch so große Menge an Trainingsdaten zu beheben scheint. Inkonsistenzen beim Schlussfolgern plagen selbst die ausgeklügeltsten Modelle, während die Wissensspeicherung bestenfalls unzuverlässig bleibt, und die Dimensionalitätsbeschränkungen, die erforderlich sind, um komplexe Sätze zu verarbeiten, erfordern Rechenressourcen, die schlichtweg nicht skalieren. Aktuelle Tests ergaben, dass selbst die fortschrittlichsten KI-Modelle nur eine Genauigkeit von 83% bei grundlegenden Sprachverständnisaufgaben erreichen, was hinter den 89% zurückbleibt, die Menschen mühelos schaffen. Mustererkennung, wie sich herausstellt, ist kein Verständnis.
Räumliche Intelligenz verstehen: Die nächste Grenze
Während Sprachmodelle hervorragend darin sind, sequenzielle Token zu verarbeiten und kohärenten Text zu generieren, fehlt ihnen grundlegend die Fähigkeit, dreidimensionalen Raum wahrzunehmen, Objekte zu manipulieren oder zu verstehen, wie physische Kräfte in realen Umgebungen interagieren, was bedeutet, dass sie im Wesentlichen mit einem auf den Rücken gebundenen kognitiven Arm operieren. Räumliche Intelligenz erfordert verkörperte Wahrnehmung und Handlung, die Art, die entsteht, wenn ein System tatsächlich um Möbel herum manövrieren, Objekte mit unterschiedlichen Gewichten und Texturen greifen oder vorhersagen muss, wie ein Stapel Blöcke aufgrund von Physik und nicht aufgrund statistischer Muster in Trainingsdaten umkippen wird. Diese Verschiebung hin zu realweltlichem dynamischen Denken stellt eine Abkehr von der relativ aufgeräumten Domäne der Sprache dar, wo Fehler möglicherweise ungeschickte Sätze produzieren, aber nicht dazu führen, dass ein Roboterarm versehentlich Ihre Kaffeetasse umstößt oder die Entfernung zu einem Türrahmen falsch einschätzt. Autonome Fahrzeuge veranschaulichen diese Evolution, indem sie mehrere Sensoren für Echtzeit-3D-Kartierung integrieren, während sie gleichzeitig Fußgänger und Verkehrsschilder identifizieren und Routen dynamisch basierend auf Verkehrsbedingungen anpassen.
Jenseits der sequenziellen Sprachverarbeitung
Seit Jahrzehnten gehen Forscher von der Annahme aus, dass die Sprachverarbeitung den Höhepunkt der menschlichen Intelligenz darstellt, das, was uns von anderen Spezies unterscheidet, aber dieser enge Fokus hat ein paralleles kognitives System verschleiert, das möglicherweise ebenso fundamental ist: räumliche Intelligenz. Anders als Sprache, die sich sequenziell durch die Zeit entfaltet, funktioniert räumliche Kognition durch dimensionales Bewusstsein und verarbeitet mehrere visuelle und geometrische Beziehungen gleichzeitig. Forschungen zeigen, dass räumliche Fähigkeiten fünf verschiedene, messbare Fertigkeiten umfassen, darunter mentale Rotation und räumliche Visualisierung, die alle unabhängig von sprachlicher Kapazität existieren. Aktuelle visuelle Sprachmodelle demonstrieren diese Trennung deutlich, indem sie durchschnittliche Werte von 24,95 im Vergleich zur menschlichen Leistung von 68,38 über räumliche Bewertungen hinweg erzielen, was zeigt, dass sprachliche Verarbeitungskompetenz nicht automatisch in räumliche Denkfähigkeit übersetzt wird. Die Ironie ist, dass wir, während wir unsere verbale Raffinesse gefeiert haben, übersehen haben, wie räumliches Denken mit seiner non-verbalen Verarbeitung dreidimensionaler Umgebungen möglicherweise eine völlig separate Form von Intelligenz darstellt, die überhaupt kein zeitliches Denken oder Worte benötigt.
Verkörperte Wahrnehmung und Handlung
Räumliche Intelligenz, wie sich herausstellt, kann nicht als irgendein körperloser kognitiver Prozess existieren, der in abstrakten neuronalen Netzwerken herumschwebt, denn der ganze Sinn des Verstehens dreidimensionaler Räume besteht darin, tatsächlich etwas Nützliches darin zu tun. Der gesamte Wahrnehmungs-Handlungs-Zyklus erfordert verkörperte Kognition, bei der Sensoren RGB-D-Daten aufnehmen, Systeme 3D-Modelle von Umgebungen erstellen und Roboter dieses räumliche Bewusstsein in tatsächliche physische Bewegungen durch Handlungskarten übersetzen. Dies ist kein philosophisches Geschwätz über Bewusstsein, sondern technische Notwendigkeit, die Brücke zwischen hochrangiger Argumentation und niederrangiger Motorsteuerung. Roboter, die natürlichsprachliche Befehle wie „greif die Tasse auf der linken Seite“ verarbeiten, benötigen sensomotorische Kopplung, die das, was sie wahrnehmen, mit der Art und Weise verbindet, wie sie sich bewegen, was bedeutet, dass räumliche Intelligenz grundsätzlich davon abhängt, einen Körper zu haben, der mit realer Geometrie interagiert. Fortgeschrittene Systeme verwenden implizite neuronale Repräsentationen wie NeRFs, um detaillierte 3D-Szenenmodelle zu konstruieren, die geometrische Komplexität in Maßstäben von einzelnen Objekten bis hin zu ganzen Räumen erfassen.
Real-World Dynamic Reasoning
Ein Roboter, der sehen und sich durch den Raum bewegen kann, erweist sich nur als Startlinie, nicht als Ziel, denn die wahre Herausforderung beginnt, wenn sich die Umgebung weigert, stillzuhalten. Dynamisches Schlussfolgern erfordert, dass KI-Systeme Echtzeitsimulationen von sich ändernden Bedingungen verarbeiten, Objekte verfolgen, die ihre Position ändern, Oberflächen, die sich verformen, und Hindernisse, die ohne Vorwarnung auftauchen. Der Spatial-DISE-Benchmark zeigt, wie aktuelle Vision-Language-Modelle besonders mit Szenarien kämpfen, die mentale Simulation über mehrere Blickwinkel hinweg erfordern, eine Lücke, die sich vergrößert, wenn sich Umgebungen zwischen Beobachtungen weiterentwickeln. Die Verarbeitung multisensorischer Eingaben wird essenziell, wenn visuelle Daten allein nicht Impuls, Reibung oder das Gewicht von Objekten erfassen können, alles Faktoren, die bestimmen, ob die geplante Aktion eines Roboters erfolgreich sein wird oder ein teures Chaos verursacht. Die Benchmark-Evaluierung offenbarte eine bemerkenswerte Leistungslücke zwischen modernsten Vision-Language-Modellen und menschlicher räumlicher Denkfähigkeit, was darauf hindeutet, dass das Erreichen menschenähnlicher räumlicher Intelligenz ein fernes Ziel bleibt.
Wie sich räumliche Intelligenz von der Sprachverarbeitung unterscheidet
Sprache verarbeitet Informationen sequenziell, ein Wort nach dem anderen in einer zeitlichen Kette, die über die Zeit hinweg Bedeutung aufbaut, während räumliche Intelligenz über mehrere Dimensionen gleichzeitig operiert und Beziehungen zwischen Objekten, Entfernungen und Ausrichtungen auf einmal verarbeitet, ohne sie in eine bestimmte Reihenfolge bringen zu müssen. Der Unterschied ist wichtig, weil Sprache auf symbolischer Abstraktion beruht, bei der willkürliche Laute oder Zeichen für Konzepte stehen, die möglicherweise nichts mit ihrer physischen Form zu tun haben, während räumliches Denken in den tatsächlichen physischen Eigenschaften von Objekten und Umgebungen verwurzelt bleibt, ihren Größen und Formen und wie sie im realen Raum zusammenpassen. Was diese Unterscheidung kniffliger macht, ist, dass Sprache typischerweise mit statischen Mustern umgeht, festen Grammatiken und Vokabularen, die die Welt beschreiben, während räumliche Intelligenz von dynamischer Interaktion lebt und sich ständig aktualisiert, während sich Objekte bewegen, Perspektiven sich verschieben und neue räumliche Beziehungen aus der physischen Auseinandersetzung mit der Umgebung entstehen. Verschiedene Sprachen verwenden grundlegend unterschiedliche Bezugssysteme für räumliche Orientierung, wobei einige auf der Position des Betrachters beruhen, andere Himmelsrichtungen verwenden und wieder andere Beziehungen zwischen den Objekten selbst beschreiben.
Sequenzielle vs. Mehrdimensionale Verarbeitung
Während das Gehirn Informationen über verschiedene Kanäle verarbeitet, arbeitet die grundlegende Architektur der Sprachverarbeitung auf einem sequentiellen, zeitabhängigen Modell, das in starkem Kontrast zur simultanen, multidimensionalen Natur der räumlichen Kognition steht. Die sequentiellen Vorteile der Sprache ergeben sich aus der zeitlichen Auflösung des auditiven Systems, wobei die linke Hemisphäre Informationen linear durch Strukturen wie den inferioren Frontalgyrus verarbeitet, im Grunde genommen Wörter eines nach dem anderen aneinanderreiht. Räumliche Aufgaben erfordern jedoch etwas völlig anderes, nämlich dass das Gehirn mehrere dimensionale Beziehungen gleichzeitig jongliert, was multidimensionale Herausforderungen schafft, die nicht ordentlich in die lineare Verarbeitung passen. Diese Unterscheidung wird besonders deutlich bei Zuständen wie dem Williams-Syndrom, bei dem Personen Stärken in verbalen Fähigkeiten neben bemerkenswerten Schwächen im visuell-räumlichen Denken zeigen, was verdeutlicht, wie sich diese beiden kognitiven Systeme unabhängig voneinander entwickeln können.
| Verarbeitungstyp | Gehirnregion | Primärer Modus |
|---|---|---|
| Sprache | Linke Hemisphäre | Sequentiell |
| Räumlich | Rechte Hemisphäre | Simultan |
| Temporal | Auditives System | Linear |
| Visuell-Räumlich | Fronto-Parietal | Multidimensional |
Symbolische Abstraktion vs. Physische Verkörperung
Wenn Kognitionswissenschaftler untersuchen, wie das Gehirn Bedeutung verarbeitet, finden sie eine merkwürdige Aufteilung zwischen Systemen, die Information als willkürliche Codes behandeln, und solchen, die direkt auf die physische Realität abbilden, und diese Unterscheidung wird besonders deutlich beim Vergleich von gesprochener Sprache mit räumlichem Denken. Symbolische Sprache funktioniert durch abstrakte Bezeichnungen, Wörter wie „links“ oder „innerhalb“, die keine physische Ähnlichkeit mit dem haben, was sie repräsentieren, während räumliche Kognition in Gebärdensprachen ikonische Repräsentation verwendet und Hände buchstäblich im Raum positioniert, um Beziehungen zu zeigen. Diese verkörperte Kommunikation erfordert die Aufrechterhaltung tatsächlicher räumlicher Konfigurationen im Geist, nicht nur das Abrufen willkürlicher Symbole. Forschung zeigt, dass Gebärdensprachnutzer verbesserte Fähigkeiten zur mentalen Vorstellung entwickeln, gerade weil ihre Sprache nicht von der physischen Realität abstrahiert, sondern stattdessen direkte räumliche Abbildung erfordert, was nahelegt, dass Verkörperung grundlegend verändert, wie Kognition funktioniert. Studien, die gehörlose Gebärdende vergleichen, die verschiedene Versionen der Nicaraguanischen Gebärdensprache erworben haben, zeigen, dass konsistentere räumliche Sprachverwendung mit überlegener Leistung bei räumlich geleiteten Suchaufgaben korreliert, was demonstriert, dass sprachliche Komplexität direkt räumliche kognitive Fähigkeiten formt.
Statische Muster vs. Dynamische Interaktion
Die verkörperte Natur der Gebärdensprache offenbart etwas Tieferes als nur die Art und Weise, wie Symbole auf die Realität abgebildet werden, denn die eigentliche Trennlinie zwischen Sprache und räumlicher Intelligenz zeigt sich darin, wie die Kognition mit Informationen umgeht, die einfach nur daliegen, im Vergleich zu Informationen, die sich ständig verändern und aktualisieren. Statische Sprache beruht auf festen Mustern, Wörtern und Grammatikregeln, die man einmal auswendig lernt und wiederholt anwendet, weshalb das verbale Arbeitsgedächtnis beim Halten diskreter Einheiten hervorragend abschneidet. Dynamische Kognition hingegen verlangt ständige Neuausrichtung, wenn sich Perspektiven ändern, und Bildgebung des Gehirns bestätigt diese Aufspaltung, indem sie zeigt, dass das Broca-Areal bei regelbasierter Sprache aufleuchtet, während der parietale Kortex die räumliche Aktualisierung übernimmt.
- Verbales Gedächtnis meistert statischen Abruf, versagt aber, wenn Umgebungen Anpassung in Echtzeit verlangen
- Gebärdensprachnutzer übertreffen andere in mentaler Rotation, weil ihre Kommunikation dynamische räumliche Kartierung erfordert
- Sprachaufgaben überstehen Kontextwechsel unverändert, räumliche Aufgaben brechen ohne Umgebungsbewusstsein zusammen
- Starker Wortschatz sagt Navigationsfähigkeit nicht voraus, die Systeme korrelieren kaum
- Erfahrung ist wichtiger für dynamische räumliche Leistung als jede angeborene verbale Begabung
Die technischen Hürden, die die Entwicklung von räumlicher KI blockieren
So ehrgeizig die Vision für Spatial AI auch erscheinen mag, die Realität beim Aufbau dieser Systeme beinhaltet die Navigation durch ein frustrierendes Labyrinth technischer Hindernisse, die selbst eine grundlegende Bereitstellung wie einen Engineering-Albtraum erscheinen lassen. Das grundlegende Problem beginnt mit den Geodaten selbst, die in inkompatiblen Formaten von Sensoren ankommen, die trotz identischer Spezifikationen auf dem Papier völlig unterschiedliche Ausgaben produzieren, welche separate Trainingspipelines erfordern. Ein Auto, das in hochauflösenden Bildern klar sichtbar ist, verschwindet im Wesentlichen, wenn die Auflösung von 0,3 Metern auf 5 Meter sinkt, was Modelle zwingt, von Grund auf neu trainiert zu werden. Währenddessen bleibt die Sensor-Interoperabilität eine höfliche Fiktion, wobei die optisch-zu-SAR-Übersetzung Domänenlücken schafft, die sich einer Zusammenarbeit widersetzen. Die Verarbeitung von Bildern, die 40.000 Pixel pro Seite überschreiten, erfordert entweder Hardware-Budgets, die mit kleinen Nationen konkurrieren, oder die Akzeptanz von Kompromissen, die den Zweck vollständig zunichte machen. Die Qualitätssicherung verschärft diese Probleme, da die Validierung von Geospatial-AI Frameworks erfordert, die nicht nur semantische Genauigkeit, sondern auch geometrische Präzision überprüfen, ein Standard, der weit über traditionelle Computer-Vision-Validierungspraktiken hinausgeht.
Anwendungen in der realen Welt, die räumliche Intelligenz transformieren wird
Trotz all der technischen Kopfschmerzen, die Ingenieure am liebsten unter ihren Schreibtischen verschwinden lassen möchten, hat räumliche Intelligenz tatsächlich begonnen, greifbaren Wert in Umgebungen zu liefern, wo die Navigation im physischen Raum darüber entscheidet, ob ein Unternehmen gedeiht oder lediglich überlebt.
- Lager der Lieferkette nutzen jetzt räumliche Kartierung und LiDAR-Sensoren für Echtzeit-Produktverfolgung, wobei Amazon durch intelligente Automatisierung, die Arbeiter effizient leitet, Arbeitskosten senkt. Prädiktive Analytik hilft, Engpässe vorherzusehen, bevor sie den Betrieb stören.
- Einzelhandel im Immobilienbereich erzielt 25% Layoutverbesserungen, indem Kundenbewegungsmuster analysiert und die Produktplatzierung basierend auf Heatmap-Daten optimiert werden.
- Baustellen setzen Drohnenüberwachung und 3D-Overlays ein, um Abweichungen von Bauplänen sofort zu erkennen und Budget-Desaster zu verhindern.
- Stadtplaner kombinieren Satellitenbilder mit Verkehrsdaten, um Hitzeinseln vorherzusagen und Anfälligkeiten bei extremem Wetter zu simulieren.
- Automobilhersteller wie Ford wenden räumliches Computing während der gesamten Design- und Produktionsworkflows an.
Lernen aus der menschlichen Entwicklung: Präverbale Intelligenz in Maschinen
Warum würden Forscher, die sich mit maschineller Intelligenz beschäftigen, plötzlich besessen von Babys werden, die kaum aufrecht sitzen können, geschweige denn sprechen? Weil sich herausstellt, dass präverbale Kognition verborgene Baupläne für den Bau besserer KI-Systeme enthält, was sowohl demütigend als auch leicht absurd ist. Säuglinge zeigen logisches Denken, interpretieren kommunikative Absichten zwischen anderen und bilden Konzepte aus minimalen Beispielen, bevor sie ihr erstes Wort äußern – Fähigkeiten, die Annahmen darüber infrage stellen, dass Sprache für Denken notwendig ist. Modelle des maschinellen Lernens extrahieren nun akustische Merkmale aus Säuglingsvokalisationen und erreichen über 75% Genauigkeit bei klinischen Klassifizierungen, während KI, die mit am Kopf montiertem Säuglingsvideo trainiert wurde, Wortbedeutungen ohne vorprogrammierte linguistische Regeln lernt. Kritische Entwicklungsmeilensteine wie kanonisches Lallen treten um den achten Monat herum auf und liefern zeitliche Marker, die fundamentale Veränderungen in der Gehirnentwicklung und der stimmlichen Kapazität signalisieren. Die Implikation, unbequem für diejenigen, die in sprachzentrierte Ansätze investiert sind, legt nahe, dass räumliches und soziales Denken verbalen Fähigkeiten sowohl in biologischer als auch in künstlicher Intelligenz vorausgehen.
Fei-Fei Lis Vision für die Zukunft der Künstlichen Intelligenz

Fei-Fei Li hat entschieden, dass künstliche Intelligenz aufhören muss, so eloquent über Dinge zu sprechen, die sie tatsächlich nicht tun kann, was eine höfliche Art ist zu sagen, dass Sprachmodelle zu beeindruckenden Gesprächspartnern über eine Welt geworden sind, die sie grundlegend nicht verstehen. Ihre Vision drängt KI in Richtung räumlicher Intelligenz, wo Maschinen dreidimensionale Umgebungen verstehen und tatsächlich mit der physischen Realität interagieren, anstatt nur darüber zu sprechen. Dies stellt einen Perspektivwechsel von eloquenter Abstraktion zu fundierter Fähigkeit dar, der Wahrnehmung, Vorstellungskraft und Handlung zu Systemen kombiniert, die als echte kreative Kollaborationspartner funktionieren und nicht als ausgeklügelte Autovervollständigungs-Tools. Ihr Unternehmen World Labs hat Unterstützung von Radical Ventures, Andreessen Horowitz und Nvidia erhalten, um diese ehrgeizige Vision zu verfolgen.
-
- KI-Ethik erfordert Systeme, die Konsequenzen im physischen Raum verstehen, nicht nur sprachliche Plausibilität
- Kreative Arbeitsabläufe gewinnen Partner, die Welten generieren und manipulieren und Vorstellungskraft in greifbare Schöpfung verwandeln
- Trainingsmethoden müssen räumliche Äquivalente zur Next-Token-Vorhersage für kausalitätsgebundene Umgebungen finden
- Anwendungen umfassen Filmproduktion, Robotik, wissenschaftliche Simulation und immersive Bildung in mehreren Bereichen
- Freiheit von rein sprachlichen Einschränkungen ermöglicht die Erkundung unzugänglicher Orte und experimenteller Szenarien
- KI-Ethik erfordert Systeme, die Konsequenzen im physischen Raum verstehen, nicht nur sprachliche Plausibilität
Quellenangabe
-
- https://academic.oup.com/nsr/article/4/3/490/3852295
- https://www.youtube.com/watch?v=_PioN-CpOP0
- https://profiles.stanford.edu/fei-fei-li
- https://eu.36kr.com/en/p/3548078081093508
- https://a16z.substack.com/p/from-words-to-worlds-spatial-intelligence
- https://www.theneurondaily.com/p/dr-fei-fei-li-the-godmother-of-ai-on-why-we-need-spatial-intelligence
- https://www.klover.ai/fei-fei-li-and-the-human-centered-ai-inside-stanford-hais-policy-impact/
- https://techxplore.com/news/2025-02-limitations-language-ai-lag-humans.html
- https://hatchworks.com/blog/gen-ai/large-language-models-guide/
- https://www.projectpro.io/article/llm-limitations/1045



