
Baidu stellt ERNIE 5.0 und neue Kunlun-Chips vor
17/11/2025SIMA 2 stellt einen Wandel dar, wie KI-Agenten virtuelle Räume durchqueren, nicht durch endlose manuelle Programmierung, sondern durch Geminis Reasoning-Architektur, die es ihnen ermöglicht, Dinge selbstständig herauszufinden, was großartig klingt, bis man bedenkt, wie viel Rechenleistung das tatsächlich erfordert. Das System trainiert über prozedural generierte 3D-Umgebungen von Genie 3, lernt Werkzeuge zu handhaben und Pläne auszuführen ohne ständige menschliche Anleitung, und bringt sich im Wesentlichen durch Versuch und Irrtum selbst etwas bei. Was dies jedoch besonders interessant macht, ist, wohin diese virtuellen Fähigkeiten tatsächlich führen könnten.
Gemini-betriebenes Reasoning verwandelt die Fähigkeiten virtueller Agenten

Googles SIMA 2-Architektur baut auf dem Gemini 2.5 Flash-Lite-Modell auf, das als zentrale Reasoning-Engine dient, die alles verarbeitet, was der Agent in virtuellen Umgebungen sieht und entscheidet zu tun. Diese Integration liefert multimodale Verarbeitungsfähigkeiten, die visuelle Daten, Text und Umgebungskontext gleichzeitig verarbeiten, anstatt Bilder als Nachgedanken zum Sprachverständnis zu behandeln. Das kontextuelle Verständnis des Systems erstreckt sich über ungefähr zehn Minuten Sitzungsspeicher und ermöglicht es Agenten, kohärente Aufgabenfortschritte aufrechtzuerhalten, ohne ständig zu vergessen, was sie Augenblicke zuvor getan haben. Leistungskennzahlen verdoppelten sich im Vergleich zur vorherigen Version, was nicht überraschend ist, da Geminis nativer Vision-First-Ansatz visuelle Informationen als primären Eingabekanal behandelt. Das Framework priorisiert High-Level-Reasoning über granulare motorische Kontrolle und betont das Verständnis realer Konzepte anstelle pixelgenauer Präzision. SIMA 2 funktioniert als selbstverbessernder Agent, der durch Versuch und Irrtum aus seinen Erfahrungen lernt und dabei die Art und Weise nachahmt, wie Menschen ihr Verhalten im Laufe der Zeit anpassen.
Selbstverbesserungsschleifen ermöglichen autonomes Lernen ohne menschliches Eingreifen
Eine der bedeutenderen Veränderungen im Design von SIMA 2 ist seine Fähigkeit, sein eigenes Lernen durch einen selbsterhaltenden Zyklus zu fördern, der ohne ständige menschliche Aufsicht funktioniert, was einen der anhaltenden Engpässe beim Training verkörperter KI-Systeme im großen Maßstab behebt. Nachdem der Agent erste Demonstrationen aufgenommen hat, tritt er in eine Phase der selbstgesteuerten Entwicklung ein, in der Gemini Aufgaben zuweist, Belohnungen schätzt und das System unabhängig in virtuellen Umgebungen übt. Fehlgeschlagene Versuche werden zusammen mit Erfolgen in einer Erfahrungsbank abgelegt und speisen nachfolgende Trainingsrunden, ohne dass jemand kennzeichnen muss, was schiefgelaufen ist. Diese autonome Fähigkeitenaufbau-Schleife, bei der der Agent seine eigene Leistung durch KI-generiertes Feedback statt durch teure menschliche Annotationen bewertet, erschafft im Wesentlichen eine Maschine, die sich selbst durch Versuch und Irrtum lehrt, was sowohl effizient als auch in seiner Unabhängigkeit etwas beunruhigend ist. Der Übergang des Systems vom Anweisungsbefolgenden zum interaktiven Begleiter markiert einen grundlegenden Wandel in der Art und Weise, wie KI-Agenten mit virtuellen Umgebungen interagieren.
Generalisierung über neuartige 3D-Umgebungen, die von Genie 3 generiert wurden
Während die meisten KI-Systeme scheitern würden, wenn sie in eine völlig unbekannte virtuelle Welt versetzt werden, und umfangreiches Neutraining oder sorgfältige Anleitung benötigen, um selbst auf einem grundlegenden Niveau zu funktionieren, behandelt SIMA 2 brandneue 3D-Umgebungen, die von Genie 3 generiert werden, als geringfügige Variationen von Problemen, die es bereits gelöst hat, was ein wesentlich anderer Ansatz zur Generalisierung ist als das, was frühere verkörperte Agenten erreichten. Die Umgebungsanpassungsfähigkeit ergibt sich aus multimodalem Lernen, das dem Agenten ermöglicht, abstrakte Konzepte wie „Bergbau“ oder „Ernten“ zu erkennen, unabhängig davon, wie verschiedene Welten diese Aktionen darstellen, und die Aufgabenvielseitigkeit erstreckt sich auf:
- Verarbeitung von Text, Skizzen und Emoji-Anweisungen in Echtzeit
- Orientierung innerhalb von Sekunden durch Ableitung von Regeln aus Umgebungshinweisen
- Ausführung mehrstufiger Pläne ohne umgebungsspezifische Trainingsdaten
Menschenähnliche Leistung bleibt über verschiedene Welten hinweg bestehen, was für Anwendungen wichtig ist, die uneingeschränkten Betrieb erfordern. Dieser Fokus auf breitere Strukturen statt auf spielspezifische Details ermöglicht es SIMA 2, Fähigkeiten von virtuellen Umgebungen auf potenzielle reale Robotikszenarien zu übertragen.
Verbindung von virtuellem Training und realen Robotikanwendungen
Während virtuelle Umgebungen sichere, skalierbare Trainingsumgebungen für KI-Agenten bieten, liegt der eigentliche Test von SIMA 2’s Fähigkeiten darin, ob Fertigkeiten, die durch das Navigieren in Spielwelten und das Erledigen digitaler Aufgaben erlernt wurden, tatsächlich auf physische Roboter übertragen werden können, die unter unordentlichen, unvorhersehbaren realen Bedingungen operieren, was eine anhaltende Herausforderung für die Forschung zu verkörperter KI darstellt. Die Forscher entwickelten SIMA 2 gezielt mit virtuellem Kompetenztransfer im Hinterkopf und trainierten Agenten auf grundlegende Fähigkeiten wie Navigation und Werkzeugmanipulation, die als Bausteine für physische Verkörperung dienen. Konzepte wie „Ressourcen sammeln“ in einer simulierten Umgebung lassen sich auf ähnliche Aufgaben in unterschiedlichen Kontexten übertragen, was zeigt, dass Agenten abstrakte Prinzipien extrahieren, anstatt spezifische Szenarien auswendig zu lernen. Dieser Ansatz ermöglicht es autonomen Verhaltensmustern, die durch Multi-Welt-Training entwickelt wurden, potenziell Industrieroboter, Servicemaschinen und kollaborative Systeme zu steuern, ohne umfangreiche reale Datensätze zu benötigen. SIMA 2’s Selbstverbesserungsmechanismus ermöglicht es dem Agenten, seine Fähigkeiten kontinuierlich zu verfeinern, indem er aus seinen eigenen generierten Erfahrungen lernt.
Kollaborative KI, die erklärt, plant und gemeinsam mit Nutzern ausführt

Im Gegensatz zu früheren KI-Agenten, die als undurchsichtige Black Boxes operierten und Aufgaben ausführten, ohne ihre Entscheidungsprozesse offenzulegen oder menschliche Aufsicht zu ermöglichen, geht SIMA 2 die Zusammenarbeit an, indem es tatsächlich erklärt, was es tut und warum es das tut, was sich als überraschend nützlich herausstellt, wenn man versucht, mit einer Maschine zusammenzuarbeiten, die sich durch eine komplizierte 3D-Umgebung navigiert. Die kollaborative Entscheidungsfindung des Systems entfaltet sich durch drei unterschiedliche Fähigkeiten:
- Beschreibung dessen, was es in der Umgebung beobachtet, und Bereitstellung von Kontext, der seine Entscheidungen begründet
- Darlegung geplanter Schritte vor der Ausführung, wodurch Benutzer bei Bedarf gegensteuern können
- Anpassung der Erklärungen basierend auf der Aufgabenkomplexität und dem Benutzerfeedback
Diese transparente Benutzer-Agenten-Interaktion bedeutet, dass man nicht einfach nur Befehle an ein undurchsichtiges System erteilt, sondern tatsächlich mit etwas arbeitet, das seine Überlegungen kommuniziert, was die gesamte Partnerschaft erheblich weniger frustrierend macht als traditionelle Automatisierung. Der Agent erhält Feedback vom Gemini-System, um seine Leistung durch iterative Selbstverbesserung zu verfeinern.
Quellenangabe
- https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
- https://binaryverseai.com/sima-2-generalist-ai-agent-for-3d-worlds-robots/
- https://blog.mods.monster/google-sima-2-ai-agent-that-learns-and-reasons-in-3d-worlds/
- https://www.youtube.com/watch?v=Zphax4f6Rls
- https://www.xugj520.cn/en/archives/sima-2-gemini-ai-virtual-worlds.html
- https://news.ycombinator.com/item?id=45916037
- https://www.techmeme.com/251113/p30
- https://techcrunch.com/2025/11/13/googles-sima-2-agent-uses-gemini-to-reason-and-act-in-virtual-worlds/
- https://aiandyou.org/blog/what_is_google_gemini_and_what_is_an_ai_agent/
- https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/



