
Neu-Delhi ist Gastgeber eines globalen KI-Gipfels
22/02/2026
Universitäten erweitern KI-Quantenausbildung
22/02/2026Yann LeCun glaubt, dass die künstliche Intelligenz an eine Wand gestoßen ist. Das Problem liegt nicht darin, klügere Chatbots oder bessere Textgeneratoren zu entwickeln. Es geht viel tiefer als das. Die heutigen KI-Systeme lernen fast ausschließlich durch Wörter und Sätze. Sie haben nie einen heißen Herd berührt oder auf einem Fuß balanciert. LeCun argumentiert, dass dies Maschinen hervorbringt, die beeindruckend sprechen, aber kein echtes Verständnis dafür haben, wie die physische Welt tatsächlich funktioniert. Diese Lücke könnte erklären, warum KI bei Aufgaben, die Kleinkinder mühelos meistern, überraschend hilflos bleibt.
LeCuns Kernargument : Warum Sprach-KI keine menschliche Intelligenz erreichen kann

Während große Sprachmodelle Essays schreiben und Fragen mit beeindruckender Gewandtheit beantworten können, funktionieren sie eher wie ausgeklügelte Suchmaschinen als denkende Geister. Yann LeCun argumentiert, dass diese Systeme grundlegenden Sprachbeschränkungen gegenüberstehen, die wahre Intelligenz verhindern. Sie zeichnen sich beim Umordnen von Wörtern und Mustern aus, stoßen aber an Verständnisbarrieren, wenn es um Verständnis der realen Welt geht.
Das Problem reicht tiefer als die meisten erkennen. Ein vierjähriges Kind nimmt etwa einhundert Billionen Bits visueller Information auf im Vergleich zu nur vierhunderttausend Bits aus Text. Sprache repräsentiert nur einen winzigen Bruchteil davon, wie Menschen tatsächlich lernen und denken.
Diese Systeme manipulieren Symbole ohne zu begreifen, was diese Symbole in der physischen Welt bedeuten. Sie können perfekt beschreiben, wie man Fahrrad fährt, während sie null Verständnis für Balance, Bewegung oder Motion haben. Dies erklärt das Paradox, wo KI-Systeme schwierige Prüfungen bestehen können, aber dennoch mit praktischen Aufgaben wie autonomem Fahren kämpfen, die Verständnis der realen Welt erfordern.
Warum Sehnerven 10.000x mehr Daten übertragen als Sprachtraining
Das menschliche Auge leitet Informationen mit atemberaubenden Geschwindigkeiten ins Gehirn weiter, die alles übertreffen, was Sprache liefern kann. Ihr Sehnerv bewältigt Datenübertragung mit etwa 10 Millionen Bits pro Sekunde, das ist echte Bandbreite der realen Welt, die durch 1,2 Millionen Nervenfasern fließt.
Vergleichen Sie das mit der Art, wie wir Wörter verarbeiten :
- Visuelle Eingabe : 10 Millionen Bits pro Sekunde fließen von Ihren Augen
- Sprachverarbeitung : Etwa 1.000 Bits pro Sekunde beim Lesen oder Zuhören
- Informationslücke : Augen liefern 10.000 Mal mehr Daten als Sprache
- Quellenvorteil : 125 Millionen Photorezeptoren liefern konstante Umgebungsupdates
Dieser massive Unterschied ist wichtig für den Bau wirklich intelligenter Maschinen. Sprachtraining füttert KI mit einem winzigen Informationsstrom im Vergleich zu dem, was das Sehen bietet. Ihr Gehirn entwickelte sich zunächst zur Verarbeitung visueller Reichhaltigkeit, Sprache kam viel später als clevere Abkürzung zum Teilen von Erfahrungen. Der Sehnerv überträgt diese visuellen Signale zum lateralen Kniehöcker, wo sie verarbeitet werden, bevor sie die Sehrinde erreichen, um zu erkennbaren Objekten und Szenen zu werden.
KI beherrscht Schach mühelos, versagt aber bei physikalischem gesunden Menschenverstand : Hier ist der Grund
Sprache liefert nur einen dünnen Ausschnitt der Weltinformationen, aber körperliche Erfahrung füllt tausende von Details aus, die unser Gehirn als selbstverständlich betrachtet. Schachprogramme besiegen Großmeister, weil das Spiel innerhalb strenger Regeln und begrenzter Möglichkeiten existiert. AlphaZero meisterte Schach durch Millionen selbst gespielter Partien und entwickelte Schachintuition, die menschlichen Experten ebenbürtig ist. Dennoch scheitert dieselbe Technologie, wenn sie einfache physikalische Fragen gestellt bekommt, die ein Kleinkind sofort beantwortet.
Der Unterschied offenbart fundamentale KI-Beschränkungen. Schach findet auf einem festen Brett mit definierten Zügen statt. Physikalische Realität umfasst unzählige Variablen, Schwerkraft, Textur, Schwung, räumliches Denken. Wenn ChatGPT versucht Schach zu spielen ohne explizite Brettmodellierung, scheitert es trotz Zugang zu umfangreichen Schachdatenbanken. Dem System fehlt wahres Verständnis von Zuständen und Beziehungen. Menschen erfassen physikalischen gesunden Menschenverstand durch Jahre des Berührens, Bewegens und Beobachtens echter Objekte, Erfahrung, die kein Sprachmodell erfasst. Schach verbessert strategisches Denken durch sorgfältige Planung und analytische Fähigkeiten, die sich durch direkten Umgang mit den räumlichen und taktischen Anforderungen des Spiels entwickeln.
Wie das Training von KI mit Video und Berührung echtes Verständnis schaffen könnte
Video und Berührung zusammen schaffen weitaus reichhaltigere Trainingsdaten als Text allein, Millionen von visuellen Details und physischen Empfindungen jede Sekunde im Vergleich zu ein paar hundert Wörtern. Diese Sinnesflut hilft KI-Systemen dabei, das aufzubauen, was Forscher Weltmodelle nennen, welche interne Karten davon sind, wie sich Objekte bewegen, abprallen und auf Kraft in realen Situationen reagieren. Wenn ein Roboter sowohl durch das Betrachten von Videos als auch durch das Fühlen von Objekten über Berührungssensoren lernt, beginnt er vorherzusagen, was als nächstes passiert in der physischen Welt, ähnlich wie Menschen es tun, ohne darüber nachzudenken. Fortgeschrittene Berührungssensoren können jetzt räumliche Merkmale so klein wie 7 Mikrometer erkennen und bieten beispiellose Details über Oberflächentexturen und Materialeigenschaften.
Sensorische Bandbreite Übertrifft Text
Die Zahlen zeigen, warum dies für die KI-Entwicklung wichtig ist :
- 97% der Fachkräfte finden Video effektiver als textbasierte Dokumente zum Lernen
- 77% der Lernenden bevorzugen es, Videos zu schauen anstatt Text zu lesen
- Bild- und Videodaten machten 41,9% des KI-Trainingsdatenmarktes im Jahr 2025 aus
- Videoanalyse sprang von 8,3 Milliarden Dollar im Jahr 2023 auf projizierte 22,6 Milliarden Dollar bis 2028
Diese Verschiebung hin zu visuellen Informationen spiegelt wider, wie Individuen natürlich durch die Welt navigieren, durch Beobachtung, Interaktion und Erfahrung anstatt durch schriftliche Beschreibungen allein. Die Produktionszeit für Schulungsvideos wurde um 62% reduziert mit KI-Tools, was demonstriert, wie künstliche Intelligenz bereits visuelle Inhalte effizienter verarbeiten und daraus lernen kann als traditionelle Methoden.
Weltmodelle sagen Physik voraus
Das Verständnis dafür, wie sich Objekte bewegen und interagieren, erfordert mehr als Mustererkennung. Weltmodelle verleihen Maschinen ein echtes Verständnis von Physiksimulationen und räumlichem Bewusstsein. Diese Systeme trainieren mit Videodaten und beobachten, wie Objekte in realen Umgebungen fallen, rollen und kollidieren.
Dieser Ansatz entwickelt Vorhersagegenauigkeit, die das Robotiktraining verändert. Maschinen lernen Umweltprognosen, indem sie unzählige Szenarien beobachten und Ursache und Wirkung verstehen, ohne teure Ausrüstung zu gefährden. Die autonome Navigation verbessert sich dramatisch, wenn Systeme vorhersehen können, wie ein rollender Ball springen könnte oder wie der Verkehr fließen könnte.
Im Gegensatz zu traditioneller KI, die Muster auswendig lernt, simulieren Weltmodelle potenzielle Ergebnisse vor dem Handeln. Sie komprimieren visuelle Informationen in kompakte Darstellungen und sagen dann zukünftige Zustände basierend auf physikalischen Gesetzen voraus. Die Kombination von KI mit domänenspezifischem Physikwissen ermöglicht es Modellen, Interaktionen zu erfassen, die rein datengesteuerte Ansätze möglicherweise übersehen. Dies markiert einen fundamentalen Wandel hin zu Maschinen, die ihre Umgebung wirklich verstehen.
Warum Tech-Giganten alle den gleichen begrenzten Ansatz verfolgen
- Schnelle Renditen : Organisationen fordern sofortige Gewinne und drängen Teams zu bewährten Sprachmodellen anstatt zu riskanten neuen Ansätzen.
- Infrastruktur-Bindung : US-Unternehmen planen 700 Milliarden Dollar für KI-Systeme in diesem Jahr, hauptsächlich zur Unterstützung bestehender Frameworks.
- Unklare Anwendungen : Ohne solide Anwendungsfälle bleiben Führungskräfte bei vertrautem Terrain, anstatt frische Möglichkeiten zu erkunden.
- Marktdruck : Wenn bereits Milliarden von Nutzern mit aktuellen Plattformen interagieren, fühlt sich ein Kurswechsel gefährlich an. Lokalisierungsteams stehen vor begrenzter Bandbreite und Ressourcen, wobei Start-ups oft auf einzelne Manager angewiesen sind, um mehrere Verantwortlichkeiten zu bewältigen.
Diese Herdenmentalität begrenzt innovatives Potenzial. Echte Freiheit entsteht durch das Erkunden ungetesteter Wege, nicht durch das Folgen von Menschenmassen.
LeCuns AMI Labs trainiert KI mit physischer Realität statt dessen
Während die meisten KI-Unternehmen Ressourcen in Sprachmodelle stecken, die das nächste Wort vorhersagen, bringt Yann LeCuns AMI Labs Maschinen bei, zu verstehen, wie die Welt tatsächlich funktioniert.
Das in Paris ansässige Unternehmen entwickelt Weltmodelle, Systeme, die dauerhafte Bilder der Realität im Geist der Maschine erschaffen. Diese Modelle lernen wie Kinder, indem sie Dinge beobachten und berühren, um zu sehen, was als nächstes passiert.
Anstatt massive Computerfarmen zu benötigen, trainiert AMI Labs seine Systeme mit nur wenigen tausend GPUs. Diese kleinere Anordnung lernt aus echten Interaktionen mit Umgebungen und entwickelt Gedächtnis- und Planungsfähigkeiten, die Sprachsystemen fehlen. Das Unternehmen führt Gespräche mit VCs, darunter Cathay Innovation, Greycroft und Hiro Capital, während es eine Bewertung von 3,5 Milliarden Dollar anstrebt.
Der Ansatz geht Probleme an, die textbasierte KI plagen, wie das Erfinden falscher Informationen. Indem das Lernen in der physischen Realität statt in Wortmustern verankert wird, können diese Modelle Konsequenzen durchdenken, bevor sie handeln, ein wichtiger Schritt hin zu wirklich intelligenten Maschinen.
Warum LeCun vorhersagt, dass Sprachmodelle bis 2030 obsolet werden

Laut LeCun werden die heutigen Sprachmodelle bis 2030 in den Hintergrund treten und durch Maschinen ersetzt werden, die verstehen, wie die reale Welt funktioniert.
Seine Zukunftsprognosen zur Sprachentwicklung basieren auf vier kritischen Lücken :
- Keine Planungsfähigkeit , Aktuelle Systeme können nicht vorausdenken oder vorhersagen, was als nächstes in physischen Räumen passiert
- Fehlende sensorische Eingabe , Ihnen fehlen Augen, Ohren und Tastsinn, um die Realität aus erster Hand zu erfahren
- Token-gebundenes Denken , Ihre Intelligenz endet bei Text und reicht nie über den Bildschirm hinaus
- Hierarchische Blindheit , Sie bauen keine mentalen Karten wie Menschen von Kindheit an auf
LeCun drängt kluge Köpfe dazu, sich von reiner Spracharbeit abzuwenden. Der Übergang zu verkörperter Intelligenz ist nicht nur technisch, es geht darum, Systeme zu bauen, die frei mit der chaotischen, unvorhersagbaren Welt interagieren, in der wir tatsächlich leben. Seine empfohlene Joint Embedding Predictive Architecture konzentriert sich darauf, die physische Welt durch visuelle Eingabe statt allein durch Text zu verstehen.
Quellenangabe
- https://economictimes.com/tech/artificial-intelligence/current-ai-technology-is-limited-just-good-at-language-ami-labs-executive-chairman-yann-lecun/articleshow/128594387.cms
- https://economistwritingeveryday.com/2025/07/22/meta-ai-chief-yann-lecun-notes-limits-of-large-language-models-and-path-towards-artificial-general-intelligence/
- https://www.youtube.com/watch?v=5PQtJxd4U0M
- https://garymarcus.substack.com/p/the-false-glorification-of-yann-lecun
- https://www.dqindia.com/news/yann-lecun-ai-india-impact-summit-future-innovation-india-africa-11133248
- https://www.benzinga.com/markets/tech/26/02/50741555/yann-lecun-says-llms-are-incredibly-useful-but-ai-still-cant-learn-to-drive-a-car-like-a-17-year-old-were-missing-something-big
- https://www.engineering.columbia.edu/about/news/metas-yann-lecun-asks-how-ais-will-match-and-exceed-human-level-intelligence
- https://www.noemamag.com/ai-and-the-limits-of-language
- https://discoveryeye.org/optic-nerve-visual-link-brain/
- https://int.livhospital.com/how-many-nerves-are-in-the-eye-the-best-answer/



