KI-Texte und Plagiate: Die ChatGPT-Debatte
26/06/2023KI, die Skizzen zur Erkennung von Objekten in einem Bild verwendet, könnte die Tumorerkennung verbessern.
28/06/2023OpenAIs meisterhafte Masche enträtseln
GPT-4 war das am meisten mit Spannung erwartete KI-Modell der bisherigen KI-Geschichte.
Doch als OpenAI es im März veröffentlichte, verrieten sie uns nichts über seine Größe, seine Daten, seine interne Struktur oder wie sie es trainiert und aufgebaut haben. Eine echte Blackbox.
Es stellte sich heraus, dass sie diese wichtigen Details nicht deshalb verschwiegen, weil das Modell zu innovativ oder die Architektur zu ausgeklügelt war, um sie zu teilen. Das Gegenteil scheint der Fall zu sein, wenn wir den neuesten Gerüchten Glauben schenken:
GPT-4 ist, technisch und wissenschaftlich gesehen, kaum ein Durchbruch.
Das ist nicht unbedingt schlecht – schließlich ist GPT-4 das beste Sprachmodell, das es gibt – nur… etwas enttäuschend. Nicht das, was die Leute nach drei Jahren Wartezeit erwartet haben.
Diese Nachricht, die noch nicht offiziell bestätigt wurde, verrät wichtige Erkenntnisse über GPT-4 und OpenAI und wirft Fragen über den wahren Stand der KI auf – und über ihre Zukunft.
GPT-4: Eine Mischung aus kleineren Modellen
Am 20. Juni ließ George Hotz, Gründer des selbstfahrenden Startups Comma.ai, durchsickern, dass GPT-4 kein monolithisches, dichtes Modell ist (wie GPT-3 und GPT-3.5), sondern eine Mischung aus 8 x 220-Milliarden-Parameter-Modellen. Später am selben Tag bestätigte Soumith Chintala, Mitbegründer von PyTorch bei Meta, das Leck. Erst am Tag zuvor hatte Mikhail Parakhin, der Leiter von Microsoft Bing AI, dies ebenfalls angedeutet.
Bei GPT-4 handelt es sich nicht um ein großes >1T-Modell, sondern um acht kleinere, geschickt zusammengestellte Modelle. Die Mischung aus Expertenparadigma, die OpenAI angeblich für dieses „Hydra“-Modell verwendet hat, ist weder neu noch wurde sie von ihnen erfunden. In diesem Artikel erkläre ich, warum dies für das Feld sehr relevant ist und wie OpenAI seinen Plan, drei wichtige Ziele zu erreichen, meisterhaft umgesetzt hat.
Zwei Vorbehalte.
Erstens: Es handelt sich um ein Gerücht. Die expliziten Quellen (Hotz und Chintala) sind solide, aber keine Mitarbeiter von OpenAI. Parakhin hat eine leitende Position bei Microsoft inne, aber er hat dies nie ausdrücklich bestätigt. Aus diesen Gründen sollte man das Gerücht mit Vorsicht genießen. Die Geschichte ist dennoch sehr plausibel.
Zweitens: Ehre, wem Ehre gebührt. Das GPT-4 ist genau so beeindruckend, wie die Nutzer sagen. Die Details der internen Architektur können daran nichts ändern. Wenn es funktioniert, funktioniert es. Dabei spielt es keine Rolle, ob es sich um ein einziges Modell oder um acht zusammenhängende Modelle handelt. Seine Leistung und seine Fähigkeit, Aufgaben zu schreiben und zu codieren, sind legitim. Dieser Artikel ist keine Kampfansage an das GPT-4 – nur eine Warnung, dass wir unsere Vorurteile vielleicht aktualisieren sollten.
Die Geheimniskrämerei um GPT-4
Ich muss OpenAI dafür loben, dass es die unangemessen hohen Erwartungen, die GPT-4 umgaben, meisterhaft gemeistert hat, indem es die unbefriedigenderen Aspekte des Modells vertuscht hat und gleichzeitig an der Spitze des Gesprächs blieb.
Als Connie Loizos von StrictlyVC im Januar die lächerlichen 100-Billionen-GPT-4-Diagramme erwähnte, die auf Twitter die Runde machten, sagte Altman zu ihr, dass „die Leute darum betteln, enttäuscht zu werden, und das werden sie auch sein„. Er wusste, dass der GPT-4, der im Sommer 2022 seine Ausbildungsphase beendet hatte, die Erwartungen der Leute nicht erfüllen würde.
Aber er wollte den fast schon mystischen Ruf von OpenAI nicht zerstören. Also versteckten sie GPT-4 vor der Öffentlichkeit, was seine geheimnisvolle Aura noch verstärkte.
Zu diesem Zeitpunkt hatte OpenAI seinen Status mit ChatGPT bereits gefestigt. In den Augen der Mehrheit waren sie führend in diesem Bereich (trotz Googles längerer und umfangreicherer Forschungs- und Entwicklungsgeschichte). Daher konnten sie nicht explizit zugeben, dass GPT-4 nicht der erwartete Durchbruch – und der große Sprung von GPT-3 – war, den sich die Leute wünschten.
Also konzentrierten sie sich auf Andeutungen und Andeutungen, dass es wirklich leistungsfähig sei (z. B. Funken von AGI, Superintelligenz ist nah und all das) und verteidigten ihre Entscheidung, die technischen Daten von GPT-4 nicht zu veröffentlichen, mit dem Hinweis auf den erhöhten Wettbewerbsdruck, wie Ilya Sutskever gegenüber The Verge erklärte.
Vor diesem Hintergrund lautete die gängige Interpretation von OpenAIs Geheimhaltung in etwa so: „Sie geben die Spezifikationen nicht preis, weil sie es sich nicht leisten können, dass Google oder Open-Source-Initiativen sie aus Gründen des geschäftlichen Überlebens und der Sicherheit kopieren. Außerdem lässt die SOTA-Leistung des GPT-4 darauf schließen, dass es sich bei der Architektur um eine wissenschaftliche Meisterleistung handeln muss.„
OpenAI hat bekommen, was es wollte. Altman war ehrlich – GPT-4 wäre eine Enttäuschung gewesen – aber gleichzeitig suggerierten die unterschwelligen Signale etwas anderes: GPT-4 ist magisch. Und die Leute haben es geglaubt.
In gewisser Weise ist es aber auch magisch. Wir haben es alle schon in Aktion gesehen. Es ist nur nicht das, was die meisten Menschen als revolutionäre Errungenschaft wahrnehmen würden. Es scheint nur ein alter Trick zu sein, der neu erfunden wurde. Die Kombination mehrerer Expertenmodelle zu einem einzigen, wobei jeder Experte auf verschiedene Bereiche, Aufgaben oder Daten spezialisiert ist, wurde erstmals 2021 erfolgreich eingesetzt. Vor zwei Jahren. Wer hat das gemacht? Du hast es erraten: Google-Ingenieure (einige von ihnen, wie William Fedus und Trevor Cai, wurden später von OpenAI angeheuert).
OpenAI hat mit Sicherheit noch mehr technische Raffinesse eingebracht (sonst hätte Google sein eigenes GPT-4 oder ein besseres), aber der Schlüssel zur absoluten Dominanz des Modells bei den Benchmarks ist einfach, dass es nicht nur ein Modell ist, sondern acht.
Ja, GPT-4 ist magisch, aber OpenAI hat es zu dem Modell gemacht, das wir in den Shows sehen. Eine clevere Mischung aus geschickter Irreführung und geschickten Handgriffen. Und der Trick ist lediglich ein Remake.
Die 3 Ziele, die OpenAI mit dem Verstecken von GPT-4 erreicht hat
Erstens haben sie die Fantasie der Menschen beflügelt. Obwohl Skeptiker dies als unwissenschaftliche Praxis ansahen, schürte es die Spekulationen über die Leistungsfähigkeit des Modells. Dies wiederum ermöglichte es ihnen, ihr bevorzugtes Narrativ zu etablieren – AGI und die Notwendigkeit, dafür zu planen – und die Regierung davon zu überzeugen, dass Sicherheitsanforderungen (vor allem für andere) und Regulierung (die ihren Zielen entspricht) an erster Stelle stehen. Die Illusion war komplett: Das GPT-4 hatte ein glänzendes Äußeres, also musste es auch im Inneren glänzen – und glänzend kann gefährlich sein.
In Wirklichkeit ist das GPT-4, wenn man es bissig ausdrücken will, besser als ein „Waschbär im Trenchcoat“ zu beschreiben.
Zweitens hinderten sie Open-Source-Initiativen und Konkurrenten wie Google oder Anthropic effektiv daran, die Techniken zu kopieren, die sie angeblich erfunden oder entdeckt hatten. Aber OpenAI hatte keinen Wassergraben in GPT-4. LLaMA ist nicht in der Lage, mit GPT-4 zu konkurrieren, aber vielleicht könnten es 8 miteinander verbundene LLaMAs – die Leute verglichen Äpfel mit Birnen, aber sie wussten es nicht. Vielleicht habe ich mich also geirrt und Open Source war doch nicht so weit zurück.
Der Graben ließ GPT-4 beeindruckender erscheinen, als es war.
Schließlich verbargen sie die Wahrheit, dass GPT-4 in Wirklichkeit kein großer KI-Durchbruch ist, und verhinderten so, dass Zeugen, Außenstehende und Nutzer den Glauben an den scheinbar halsbrecherischen Fortschritt auf diesem Gebiet verloren. Wenn wir pingelig sind, ist GPT-4 das Ergebnis davon, dass man einerseits genug Geld und Grafikprozessoren hatte, um acht ~GPT-3.5-Modelle zu trainieren und laufen zu lassen, und andererseits die Dreistigkeit besaß, eine alte Technik abzustauben, die von einem anderen Unternehmen erfunden wurde, ohne es jemandem zu sagen.
GPT-4 war eine Meisterklasse in Sachen Marketing.
Ein letzter Gedanke
Vielleicht sind OpenAI – und der Branche insgesamt – die Ideen ausgegangen, wie Hotz meint. Vielleicht schreitet die KI gar nicht so schnell von Meilenstein zu Meilenstein voran, wie Unternehmen, Medien, Vermarkter und arXiv es glauben machen. Vielleicht ist GPT-4 kein so großer Sprung von GPT-3, wie er hätte sein sollen.
Ein Gerücht bleibt ein Gerücht, bis wir eine offizielle Version erhalten (ich habe mich an OpenAI gewandt, aber noch keine Antwort erhalten). Es ist jedoch schwer, die Plausibilität der Geschichte zu bestreiten. Abgesehen vom Wert der Quellen, ist sie insgesamt stimmig. Deshalb gebe ich dieser Nachricht eine hohe Glaubwürdigkeit.
Ich zitiere die Schlussfolgerung von Hotz: „Wenn ein Unternehmen geheimnisvoll ist, dann deshalb, weil es etwas verbirgt, das nicht so cool ist.“ Vielleicht ist das GPT-4 doch nicht so cool.