KI-Antworten, die jedes Publikum fesseln
08/10/2025Menschen verzichten jetzt im Gericht auf Anwälte zugunsten von ChatGPT
09/10/2025Google’s jüngster Vorstoß in die Browser-Automatisierung durch Gemini 2.5 Computer Use stellt einen grundlegenden Wandel dar, wie KI-Systeme mit Web-Oberflächen interagieren, indem sie über einfache Textgenerierung hinausgehen und tatsächliche Punkt-und-Klick-Steuerung ausführen, die menschliches Verhalten nachahmt. Das Modell analysiert Screenshots, identifiziert Schaltflächen und Formularfelder und führt Aktionen aus, wie es eine Person an einer Tastatur tun würde, was unkompliziert klingt, bis man die Komplexität moderner Webanwendungen mit ihren endlosen Variationen im Design berücksichtigt.
Was macht Gemini 2.5 Computer Use anders als Standard-KI-Modelle
Der grundlegende Unterschied zwischen Gemini 2.5 Computer Use und Standard-KI-Modellen liegt darin, was passiert, nachdem das Modell eine Antwort generiert hat, nämlich dass diese Version nicht nur Text oder Code produziert, den Menschen selbst ausführen müssen, sondern tatsächlich spezifische UI-Aktionen wie Mausklicks und Tastatureingaben ausgibt, die direkt eine Computeroberfläche manipulieren können. Standard-Modelle funktionieren eher wie Berater, die Vorschläge generieren, die menschliche Vermittler zur Umsetzung benötigen, wohingegen dieses System durch Funktionsaufruf-Mechanismen arbeitet, die tatsächliche Browser-Interaktionen auslösen. Das Modell analysiert Screenshots, berechnet automatisch Pixelkoordinaten, die auf Bildschirmdimensionen skaliert werden, und generiert ausführbare Befehle, die clientseitige Anwendungen empfangen und ausführen. Es ist im Wesentlichen der Unterschied zwischen einer Wegbeschreibung zu einem Ziel und jemandem, der Sie tatsächlich dorthin fährt, obwohl Sie immer noch die unterstützende Infrastruktur benötigen, um diese Aktionen zu ermöglichen.
Wie Screenshot-Analyse automatisierte Browser-Interaktionen ermöglicht
Gemini 2.5s Ansatz zur Browser-Automatisierung stützt sich stark darauf, das, was es in Screenshots sieht, in tatsächliche Befehle umzuwandeln, die Schaltflächen anklicken, Formulare ausfüllen und durch Seiten navigieren, was zunächst unkompliziert klingt, bis man bedenkt, dass die KI nicht nur verstehen muss, wo Elemente positioniert sind, sondern auch, was sie tatsächlich im Kontext tun. Das Modell verwendet ausgeklügelte UI-Element-Erkennung, die über einfaches Pixel-Matching hinausgeht und interaktive Komponenten wie Dropdown-Menüs, Textfelder und Navigationsleisten identifiziert, selbst wenn diese in ungewohnten Layouts oder mit benutzerdefinierten Stilen erscheinen, die traditionelle DOM-basierte Erkennungsmethoden unbrauchbar machen. Diese Screenshot-zu-Aktion-Pipeline verleiht der KI im Wesentlichen ein visuelles Verständnis von Websites, ähnlich wie ein menschlicher Benutzer Informationen verarbeitet, obwohl es immer noch sorgfältiger Analyse bedarf, um beispielsweise zwischen einem dekorativen Schaltflächenbild und einem tatsächlich anklickbaren Element zu unterscheiden, das eine Funktion auslöst. Im Gegensatz zu traditionellen Automatisierungstools wie Playwright oder Selenium, die auf DOM-Selektoren basieren, bewältigt dieser visuelle Ansatz dynamisches Laden von Inhalten, indem er analysiert, was tatsächlich auf dem Bildschirm dargestellt wird, anstatt auf das Erscheinen bestimmter HTML-Elemente zu warten.
Screenshot-zu-Aktion-Konvertierungsprozess
Im Kern funktioniert der Screenshot-zu-Aktion-Konvertierungsprozess als kontinuierliche Rückkopplungsschleife, bei der visuelle Informationen durch eine überraschend unkomplizierte Pipeline in ausführbare Browser-Befehle umgewandelt werden, obwohl die zugrunde liegenden Mechanismen alles andere als einfach sind. Das Modell empfängt einen Screenshot, analysiert sichtbare UI-Elemente und deren Zustände und generiert dann strukturierte Funktionsaufrufe, die Aktionen wie Klicken oder Tippen repräsentieren. Diese Ausgaben kommen als JSON-formatierte Befehle mit Begrenzungsrahmen und Segmentierungsmasken an, im Wesentlichen Wahrscheinlichkeitskarten, die als base64-PNGs kodiert sind und genau bestimmen, wo interagiert werden soll. Nach der Ausführung jeder Aktion erfasst das System einen neuen Screenshot, der den resultierenden Seitenzustand zeigt, führt ihn dem Modell wieder zu, und der Zyklus wiederholt sich, bis die Aufgabe abgeschlossen ist oder jemand auf die Bremse tritt, was angesichts der Tatsache, dass wir über autonome Browser-Steuerung sprechen, wahrscheinlich weise ist. Anders als Bildgenerierungsmodelle, die Charakterkonsistenz über Prompts hinweg bewahren, muss dieses System kontextuelle Aufmerksamkeit über sequenzielle Browser-Zustände hinweg aufrechterhalten, um mehrstufige Arbeitsabläufe präzise auszuführen.
Fähigkeiten zur Erkennung von UI-Elementen
Jede erfolgreiche automatisierte Browser-Interaktion hängt von einer kritischen Fähigkeit ab, die die meisten Menschen wahrscheinlich als selbstverständlich ansehen: der Fähigkeit der KI, sich einen Screenshot anzusehen und tatsächlich zu erkennen, welche Pixel eine anklickbare Schaltfläche darstellen im Gegensatz zu einem dekorativen Bild, was erheblich schwieriger ist, als es klingt, wenn man den Wilden Westen des modernen Webdesigns berücksichtigt. Gemini 2.5 geht dies durch Computer-Vision-Modelle an, die darauf trainiert sind, Layouts, Typografie und Elementgrenzen zu analysieren und Pixelkoordinaten relativ zu Bildschirmdimensionen vorherzusagen, damit Aktionen über verschiedene Displaygrößen hinweg funktionieren. Das System kategorisiert erkannte Elemente, um geeignete Interaktionen zu ermöglichen:
- Schaltflächen lösen Klicks aus
- Textfelder empfangen Tastatureingaben
- Dropdowns öffnen sich zur Auswahl
- Kontrollkästchen wechseln Zustände
Dieses visuelle Denkvermögen erstreckt sich auf das Verständnis von UI-Zuständen wie deaktivierten Schaltflächen, was sinnlose Klickversuche verhindert, die Automatisierungssequenzen entgleisen lassen würden. Das Modell verarbeitet jeden Screenshot zusammen mit der Benutzeranfrage und Aktionshistorie, um den nächsten geeigneten Funktionsaufruf in seiner Betriebsschleife zu bestimmen.
Leistungsbenchmarks und Kontextfensterfähigkeiten
Gemini 2.5 Computer Use kommt mit Leistungszahlen, die tatsächlich einmal den Hype zu rechtfertigen scheinen, mit einem Score von 63,8% bei SWE-Bench Verified und der Behebung von über 60% der realen UI-Automatisierungsfehler im eigenen Payment Platform Team von Google, was die Art von interner Validierung ist, die normalerweise bedeutet, dass etwas über die handverlesenen Demo-Szenarien hinaus funktioniert. Das Modell kommt standardmäßig mit einem 1 Million Token Kontextfenster, wobei die Unterstützung für 2 Millionen Token bald verfügbar sein wird, was es ermöglicht, ganze Codebasen, umfangreiche Dokumentationssammlungen und komplizierte Multi-Datei-Projekte in einer einzigen Sitzung zu verarbeiten, ohne das übliche Kontext-Jonglieren, das Entwickler dazu bringt, ihre Tastaturen werfen zu wollen. Drittanbieter-Entwickler berichten, dass es etwa 50% schneller läuft als konkurrierende Lösungen und gleichzeitig bis zu 18% bessere Genauigkeit bei komplizierten Parsing-Aufgaben liefert, was darauf hindeutet, dass Google es geschafft hat, sowohl Geschwindigkeit als auch Qualität zu optimieren, anstatt sich nur eines zum Angeben auszusuchen. Das System behält native Multimodalität für besseres Verständnis über Text, Audio, Bilder, Video und Code hinweg bei und bewältigt komplexe Probleme, die mehrere Informationsformate gleichzeitig umfassen.
Hervorragende Benchmark-Testergebnisse
Wenn man Gemini 2.5 an den anspruchsvollsten Reasoning-Tests misst, die KI-Forschern zur Verfügung stehen, zeigt das Modell Leistungsunterschiede, die sich kaum als marginale Verbesserungen abtun lassen. Bei Humanity’s Last Exam, der über 100 Fachgebiete auf Expertenniveau umfasst, erreichte das Modell 18,8%, während GPT-4.5 nur 6,4% schaffte und Claude 3.7 Sonnet 8,9% erreichte, was darauf hindeutet, dass Google etwas gefunden hat, das seine Konkurrenten noch nicht repliziert haben. Die mathematischen und wissenschaftlichen Benchmarks erzählen eine ähnliche Geschichte:
- 84,0% bei GPQA Diamond für physikalisches Wissen auf Graduiertenniveau
- 92,0% bei AIME 2024 für mathematisches Problemlösen
- 86,7% bei AIME 2025, was Konsistenz über Testiterationen hinweg zeigt
- 94,5% bei MRCR mit 128k Token-Kontext für das Verstehen langer Dokumente
Dies sind keine inkrementellen Gewinne, es sind strukturelle Vorteile in der Reasoning-Fähigkeit. Das 1-Million-Token-Kontextfenster des Modells ermöglicht es, ganze Codebasen, lange Forschungsarbeiten und umfassende Dokumentationen zu verarbeiten, ohne über die gesamte Informationsspanne hinweg an Kohärenz zu verlieren.
Massive Token-Kontextkapazität
Die meisten Sprachmodelle arbeiten mit Kontextfenstern, die in Zehntausenden oder Hunderttausenden von Tokens gemessen werden, was beeindruckend klingt, bis man tatsächlich versucht, eine gesamte Codebasis zu analysieren oder jahrelange Korrespondenz zu verarbeiten, ohne alles in Fragmente zu zerhacken. Gemini 2.5 Pro und Flash unterstützen beide ein Kontextfenster von 1.000.000 Tokens, was ungefähr 50.000 Codezeilen oder acht durchschnittlich lange Romane entspricht, die auf einmal eingegeben werden.
Token-Kapazität | Reales Äquivalent |
---|---|
1.000.000 Tokens | 50.000 Codezeilen |
1.000.000 Tokens | 8 durchschnittliche englische Romane |
1.000.000 Tokens | 200+ Podcast-Transkripte |
1.000.000 Tokens | 5 Jahre Textnachrichten |
128.000 Tokens | Flash-Lite-Variantenlimit |
Dies eliminiert die üblichen Workarounds wie Zusammenfassung oder Retrieval Augmentation und ermöglicht es, massive Datensätze direkt in das Modell zu laden, ohne Vorverarbeitungsakrobatik. Google testet derzeit Kontextfenster mit 2.000.000 Tokens in Gemini 2.5 Pro im Rahmen früher Enterprise-Beta-Versuche in Vertex AI Studio.
Automatisierung mehrstufiger Web-Workflows und Formularverarbeitung
Durch die Analyse von Screenshots und die Steuerung von Maus- und Tastatureingaben über iterative Feedback-Schleifen nähert sich das Gemini 2.5 Computer Use-Modell der Browser-Automatisierung auf eine grundlegend andere Weise als traditionelle DOM-basierte Skripterstellung, was bedeutet, dass es mehrstufige Web-Workflows mit einer Flexibilität bewältigen kann, die dem tatsächlichen menschlichen Verhalten näher kommt.
Das Modell führt Aufgaben aus, indem es Formularfelder, Dropdown-Menüs und Schaltflächen visuell erkennt und dann Aktionen wie Tippen, Klicken und Scrollen über mehrere Seiten hinweg durchführt:
- Empfängt Screenshots und Aufgabenziele vom Benutzer
- Entscheidet über die nächste Aktion basierend auf dem aktuellen Schnittstellenzustand
- Gibt Maus- oder Tastaturbefehle an clientseitige Frameworks wie Playwright zurück
- Wiederholt den Zyklus mit aktualisierten Screenshots bis zur Fertigstellung
Google verlangt ausdrückliche Benutzerbestätigungen für sensible Operationen, was angesichts des Vorschau-Stadiums der Technologie und ihrer Abhängigkeit von visueller Erkennung statt zuverlässiger DOM-Analyse umsichtig ist. Entwickler können einen SDK-First-Ansatz auf Google Cloud nutzen, um diese Funktionen mit größerer Konsistenz und Unterstützung in ihre Anwendungen zu integrieren.
# Integrationsanforderungen und API-Implementierungsleitfaden
Obwohl die Computer Use-Fähigkeit eine bedeutende technische Errungenschaft darstellt, erfordert ihre tatsächliche Implementierung, dass Entwickler eine etwas fragmentierte Authentifizierungslandschaft durchqueren, in der Google drei unterschiedliche Wege anbietet—OAuth-Login, API-Schlüssel und Vertex AI-Tokens—jeder mit seinen eigenen Ratenlimits, Abrechnungsstrukturen und Integrationsmustern, die verschiedene Anwendungsfälle bedienen, sich aber für Teams, die einfach nur loslegen wollen, unnötig kompliziert anfühlen können.
Authentifizierungsmethode | Ratenlimits & wichtige Details |
---|---|
OAuth-Login | 60 Anfragen/Min., 1.000/Tag, automatische Updates |
Gemini API-Schlüssel | 100 Anfragen/Tag (kostenlose Stufe), Modellspezifität |
Vertex AI-Tokens | Unternehmensmaßstab, erfordert Abrechnungseinrichtung |
SDK-Installation | Python 3.9+, Node.js v18+, mehrsprachige Unterstützung |
Sicherheits-Best Practice | Umgebungsvariablen für Schlüsselspeicherung |
Das Google GenAI SDK unterstützt Python-, JavaScript-, Go- und Java-Installationen, obwohl eine ordnungsgemäße Umgebungskonfiguration nicht verhandelbar bleibt. Entwickler sollten beachten, dass Vertex AI-Implementierungen strengen Ratenlimits von 10 Anfragen pro Minute unterliegen, was die Workflow-Effizienz für Automatisierungsaufgaben mit hoher Frequenz beeinträchtigen kann.
Token-basierte Preisstruktur und Kostenmanagement
Das Verständnis der Preisstruktur von Gemini 2.5 fühlt sich ein bisschen an wie das Erlernen eines Fremdwährungssystems, bei dem man Kosten über mehrere Dimensionen gleichzeitig berechnen muss—Eingabe-Tokens zu 1,25 $ pro Million bis zu 200.000 Tokens, dann 2,50 $ über dieser Schwelle, Ausgabe-Tokens zu deutlich steileren 10 $ pro Million (mit einem Sprung auf 15 $ nach derselben Grenze), Context-Caching zu 0,125 $ pro Million Tokens plus einer laufenden Speichergebühr von 4,50 $ pro Million Tokens pro Stunde, und Grounding mit Google Search, das 1.500 kostenlose tägliche Anfragen bietet, bevor 35 $ pro 1.000 Anfragen berechnet werden, was bedeutet, dass Entwickler aktiv überwachen müssen, nicht nur wie viel ihre Anwendung mit der API kommuniziert, sondern auch wie viel sie sich merkt, wie oft sie sucht und ob der 50%-Rabatt des Batch-Modus es rechtfertigt, ihren gesamten Workflow zugunsten asynchroner Verarbeitung anstelle von Echtzeit-Interaktionen umzustrukturieren.
Effektives Kostenmanagement umfasst:
- Auswahl geeigneter Modelle basierend auf Aufgabenanforderungen
- Strategische Implementierung von Caching, um redundante Verarbeitung zu reduzieren
- Überwachung von Nutzungsmustern zur Identifizierung von Optimierungsmöglichkeiten
- Nutzung des Batch-Modus für nicht zeitkritische Operationen
Eine wichtige Überlegung ist, dass nur erfolgreiche Anfragen mit HTTP-200-Statuscodes auf Vertex AI abrechenbar sind, was Kostenverschwendung durch fehlgeschlagene Versuche und Wiederholungen minimiert.
Plattformverfügbarkeit über Google AI Studio und Vertex AI
Wenn Entwickler die Computersteuerungsfähigkeiten von Gemini 2.5 tatsächlich nutzen möchten, anstatt nur darüber zu lesen, finden sie sich beim Navigieren zwischen zwei unterschiedlichen Google-Plattformen wieder—Google AI Studio für schnelles Prototyping und Testen und Vertex AI für seriöse Produktionsbereitstellungen—wobei jede dasselbe zugrunde liegende Modell bietet, aber in unterschiedliche Tooling-Philosophien verpackt, wo AI Studio sich an die „Lass uns das ausprobieren und sehen, was passiert“-Menge mit seiner interaktiven Umgebung und Browserbase-Demo-Implementierung richtet, die zeigt, wie das Modell sich durch Weboberflächen klickt wie ein leicht roboterhafter Praktikant, während Vertex AI sich an die Unternehmensteams richtet, die MLOps-Pipelines, Versionskontrolle, Monitoring-Dashboards und das gesamte Infrastruktur-Gerüst benötigen, das verhindert, dass ein vielversprechender Prototyp zu einer warnenden Geschichte darüber wird, warum man experimentelle KI-Agenten nicht direkt in kundenorientierten Systemen bereitstellen sollte. Beide Plattformen berechnen zu Standard-Gemini-2.5-Pro-Tarifen ab dem ersten Token während dieser öffentlichen Vorschauphase, wodurch jegliche kostenlose Experimentierung eliminiert wird, auf die Hobbyisten gehofft haben könnten.
Sicherheitskontrollen und verantwortungsvolle Automatisierungspraktiken
Da die Erteilung der Fähigkeit an ein KI-Modell, Schaltflächen zu klicken und Formulare auf tatsächlichen Websites auszufüllen, ungefähr tausend neue Möglichkeiten schafft, dass Dinge katastrophal schiefgehen können, hat Google die Computersteuerungsfunktionen von Gemini 2.5 in mehrere Schichten von Sicherheitsmechanismen verpackt, die von „offensichtlich notwendig“ bis „hätte wahrscheinlich von Anfang an vorhanden sein sollen“ reichen—Echtzeitüberprüfungen, die automatisch kennzeichnen, ob eine Aktion sicher ausgeführt werden kann oder ob ein Mensch nervös zuerst auf „ja, ich bin sicher“ klicken muss, wobei sensible Vorgänge wie das Akzeptieren von Nutzungsbedingungen oder das Einleiten von Finanztransaktionen eindeutig in die Kategorie der obligatorischen Bestätigung fallen, während alltäglichere Aufgaben wie das Scrollen durch eine Seite oder das Klicken auf eine Suchschaltfläche automatisch ausgeführt werden, bis das Modell entweder seine Aufgabe abschließt oder auf eine seiner eingebauten Einschränkungen stößt.
Die Sicherheitsinfrastruktur der Plattform funktioniert durch mehrere sich ergänzende Ansätze:
- Sandbox-Umgebungen, die KI-Aktionen vom umfassenderen Systemzugriff isolieren
- Eingabe-Bereinigungsprotokolle, die das Einschleusen von Schadcode durch Eingabeaufforderungen verhindern
- Website-Whitelisting und -Blacklisting, die kontrollieren, mit welchen Domains die KI interagieren kann
- Umfassende Audit-Protokollierung, die jeden Screenshot, jede Eingabeaufforderung und jede Aktion zur Rechenschaftspflicht nachverfolgt
Diese Schutzmaßnahmen helfen dabei, Risiken zu mindern, einschließlich unbeabsichtigter Aktionen, die irreversible Vorgänge auslösen könnten, der Exposition gegenüber nicht vertrauenswürdigen Inhalten, die die Systemintegrität gefährden könnten, und potenzieller Richtlinienverstöße bei der Interaktion mit regulierten Diensten.
Quellenangabe
- https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro
- https://blog.google/technology/google-deepmind/gemini-computer-use-model/
- https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
- https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use
- https://www.adwaitx.com/gemini-2-5-computer-use-model-guide/
- https://ai.google.dev/gemini-api/docs/computer-use
- https://deepmind.google/models/gemini/pro/
- https://deepmind.google/models/gemini/
- https://scrapfly.io/blog/posts/how-to-automate-chrome-screenshots
- https://www.screenshotapi.net/blog/how-to-automate-website-screenshots-tech-guide