Anthropic startet Claude Sonnet 4.5 mit Rekord-Codierungsleistung
01/10/2025DeepSeek startet V3.2-Exp und senkt Long-Context-KI-Kosten um 90 %
01/10/2025Das Training von KI-Modellen fühlt sich oft an wie das Zielen auf ein bewegliches Ziel. Ingenieure passen Einstellungen an, führen Experimente durch und hoffen, dass die Ergebnisse beim nächsten Mal stabil bleiben. Aber was wäre, wenn diese Unsicherheit verschwinden könnte? Eine neue Entwicklung vom Thinking Machines Lab zeigt, wie LoRA-Training konsistente, zuverlässige Ergebnisse liefern kann, ohne die übliche Raterei. Diese Veränderung bedeutet, dass Unternehmen darauf vertrauen können, dass ihre KI-Systeme vorhersehbar funktionieren, was Türen zu intelligenteren Anwendungen in verschiedenen Branchen öffnet. Die Auswirkungen reichen weit über bessere Testergebnisse hinaus.
Was macht LoRA zu einer effizienten Alternative zum vollständigen Fine-Tuning
Beim Training großer Sprachmodelle stehen Forscher vor einem bekannten Problem: Vollständiges Fine-Tuning erfordert enorme Rechenleistung und Speicher. Ein typisches Modell mit 7 Milliarden Parametern benötigt über 60 GB Speicher für ein vollständiges Retraining. Das übersteigt die Möglichkeiten der meisten Einzelpersonen.
LoRA verändert diese Gleichung dramatisch. Anstatt jeden Parameter zu aktualisieren, passt es nur 0,5-5% von ihnen an. Dieser Ansatz reduziert den Speicherbedarf von 16+ GB auf etwa 2 GB pro Gigabyte Modellgröße. Auch die Trainingsgeschwindigkeit erhöht sich deutlich. Die Technik funktioniert, indem sie die Gewichte des Basismodells einfriert, während nur kleine Adapter-Matrizen trainiert werden.
Die Einsparungen gehen über einzelne Maschinen hinaus. Kleinere Forschungsteams und Unternehmen können jetzt frei experimentieren, ohne massive Cloud-Computing-Rechnungen. Sie können Ideen schnell testen, schneller iterieren und angepasste Modelle bereitstellen, ohne das Budget zu sprengen. Diese Effizienz öffnet Türen, die vollständiges Fine-Tuning fest verschlossen hält.
Die Herausforderung der Konsistenz beim Training von KI-Modellen
Das Training von KI-Modellen funktioniert am besten, wenn das System jedes Mal gleichmäßige, vorhersehbare Ergebnisse liefert. Verbesserungslernen, eine beliebte Trainingsmethode für LoRA-Modelle, ist auf konsistente Ausgaben angewiesen, um zu verstehen, welche Änderungen die Leistung tatsächlich verbessern. Wenn die Antworten zwischen Trainingsläufen stark variieren, macht das Rauschen es nahezu unmöglich zu erkennen, ob Anpassungen die Genauigkeit des Modells verbessern oder verschlechtern. Genau wie hochwertige Trainingsdaten strengen Validierungsprüfungen auf Klarheit und Korrektheit unterzogen werden, erfordert LoRA-Training stabile Ausgaben, um richtig bewerten zu können, ob Modifikationen die Modellleistung tatsächlich verbessern.
Inkonsistente Antworten behindern das Training
Datenkonsistenz prägt alles beim Training von KI-Modellen, dennoch bleibt ihre Erreichung eine der größten Herausforderungen des Bereichs. Wenn Modelle während des Trainings gemischte Signale erhalten, fällt es ihnen schwer, zuverlässige Muster zu lernen. Man kann es sich vorstellen wie jemandem eine Fähigkeit beizubringen, während man ständig die Regeln ändert—Verwirrung folgt natürlicherweise.
Inkonsistente Datenformate schaffen unmittelbare Hindernisse. Labels können sich zwischen Sitzungen ändern. Die Qualität variiert stark zwischen Datensätzen. Diese Unstimmigkeiten zwingen Modelle zu raten, anstatt selbstbewusst zu lernen.
Die eigentliche Herausforderung? Modelle, die mit inkonsistenten Informationen trainiert wurden, produzieren unzuverlässige Ausgaben. Sie funktionieren möglicherweise in einem Moment perfekt und versagen im nächsten komplett. Organisationen verlieren wertvolle Ressourcen bei der Verfolgung dieser Probleme. Umfragedaten zeigen, dass 70% der Ingenieure Konsistenz als ihre größte Leistungsherausforderung identifizieren. Ohne verlässliche Trainingsdaten können selbst die ausgeklügeltsten Systeme keine vertrauenswürdigen Ergebnisse liefern. Konsistenz ist nicht nur hilfreich—sie ist absolut entscheidend für den Fortschritt.
RL erfordert vorhersagbare Ausgaben
Reinforcement-Learning-Systeme stehen vor einem grundlegenden Rätsel, das einfach klingt, sich aber als bemerkenswert schwierig erweist: Sie müssen vorhersagbare Ausgaben erzeugen, um etwas Wertvolles zu lernen. Wenn ein KI-Modell völlig unterschiedliche Antworten auf ähnliche Situationen generiert, kann es nicht erkennen, welche Aktionen tatsächlich funktioniert haben. Diese Unvorhersagbarkeit schafft Chaos im Lernprozess.
Stellen Sie sich vor, jemandem eine Fähigkeit beizubringen, wenn seine Leistung sich jedes Mal zufällig ändert. Der Ausbilder kann kein nützliches Feedback geben, weil es kein konsistentes Muster gibt, das verbessert werden könnte. Stabile Ausgaben lassen das System Ursache und Wirkung klar verstehen. Sie reduzieren die Trainingszeit dramatisch. Sie machen die KI sicherer für den Einsatz in der realen Welt.
Ohne Vorhersagbarkeit wird Reinforcement Learning zu einem Ratespiel. Das Modell hat Schwierigkeiten, Belohnungen mit bestimmten Verhaltensweisen zu verbinden, und wandert ziellos umher, anstatt Fortschritte in Richtung Meisterschaft zu machen. Belohnungsvorhersagefehler helfen dem System, Assoziationen zwischen Aktionen und Ergebnissen anzupassen, aber nur wenn die zugrunde liegenden Antworten konsistent genug bleiben, um bewertet zu werden.
Rauschreduzierung durch Determinismus
Wenn Konsistenz zum Ziel wird, verwandelt sich die Reduzierung von Rauschen in KI-Systemen in eine der kritischsten Herausforderungen, denen sich Ingenieure gegenübersehen. Stellen Sie sich Rauschen wie Störgeräusche bei einem Radio vor—es verwischt das klare Signal, das Sie hören möchten. Beim maschinellen Lernen zeigt sich Rauschen als zufällige Variationen, die das Training unvorhersehbar machen.
Moderne Ansätze gehen dies durch deterministische Vorverarbeitung an. Ingenieure verwenden feste Regeln, um Daten jedes Mal auf die gleiche Weise vorzubereiten. Spektrogramme und andere Methoden zur Merkmalsextraktion wandeln unübersichtliche Eingaben in standardisierte Formate um. Diese Vorhersagbarkeit ist für Systeme, die zuverlässige Ausgaben erfordern, von großer Bedeutung.
Diffusionsmodelle fügen eine weitere Ebene hinzu, indem sie vordefinierten Rauschplänen folgen. Jeder Schritt entfernt Rauschen systematisch, wie beim Schälen von Schichten einer Zwiebel. Frühere Phasen behandeln grobe Korrekturen, während spätere Stufen Details verfeinern und sicherstellen, dass jeder Trainingslauf demselben Pfad zur Klarheit folgt. Traditionelle Methoden stützten sich auf spektrale Subtraktion und statische Filter, hatten aber Schwierigkeiten sich anzupassen, wenn sich Rauschmuster unerwartet änderten.
Wie deterministische Modelle die Ergebnisse des Reinforcement Learning verbessern
Beim Training von KI-Modellen können unerwartete Änderungen die Ergebnisse beeinträchtigen und den Fortschritt schwer nachvollziehbar machen. Deterministische Modelle lösen dies, indem sie zufälliges Rauschen während des Trainings reduzieren, sodass jeder Durchlauf einem vorhersehbaren Pfad folgt. Diese Konsistenz ermöglicht es Forschern, Einstellungen mit Zuversicht zu optimieren und ihre Ansätze an spezifische Anforderungen anzupassen. In Kontexten des bestärkenden Lernens gewährleistet Importance Sampling genaue Belohnungsberechnungen bei gleichzeitiger Aufrechterhaltung robuster Leistung über verschiedene Lernraten hinweg.
Konsistenz reduziert Trainingsrauschen
Trainingsrauschen wirkt wie statisches Rauschen im Radio und erschwert es maschinellen Lernsystemen, die richtigen Signale aufzunehmen. Wenn deterministische Ansätze ins Spiel kommen, glätten sie diese Unterbrechungen und schaffen klarere Lernpfade.
So geht Konsistenz gegen Trainingsrauschen vor:
- Zuverlässige Ausgaben eliminieren unvorhersehbare Schwankungen, die den Lernprozess verwirren
- Stabile Rückkopplungsschleifen ermöglichen es Systemen zu verstehen, welche Aktionen wirklich am besten funktionieren
- Effiziente Erkundung wird möglich, wenn Modelle nicht zufälligen Schwankungen nachjagen
- Schnellere Konvergenz geschieht natürlich, da das System aufhört, sich selbst zu hinterfragen
Diese Rauschreduzierung erweist sich als besonders wertvoll für Lernalgorithmen mit Anleitung. Sie benötigen verlässliche Informationen, um intelligente Entscheidungen zu treffen. Ohne die ständige Interferenz lernen diese Systeme effektiver und liefern Ergebnisse, denen Einzelpersonen vertrauen können. Schrittweise Denkprozesse ermöglichen es Modellen, Korrektheitsbezeichnungen beizubehalten, die genaue Berechnungen von fehlerhaften unterscheiden.
Vorhersehbare Ergebnisse ermöglichen Anpassung
Maschinelle Lernsysteme funktionieren besser, wenn sie sich jedes Mal auf die gleiche Weise verhalten. Wenn Entwickler genau wissen, was ihre Modelle tun werden, erlangen sie echte Kontrolle. Der Fortschritt von Thinking Machines macht dies durch deterministisches LoRA-Feintuning möglich.
Diese Vorhersagbarkeit öffnet Türen für die Anpassung. Ingenieure können jetzt Modelle für spezifische Argumentationsaufgaben formen, ohne Ratespiele. Sie passen Verzerrungen und Entscheidungsregeln mit Zuversicht an, in dem Wissen, dass die Ergebnisse bestehen bleiben.
Der Ansatz hilft auch Einzelpersonen, im Prozess zu bleiben. Wenn Ausgaben stabil bleiben, können menschliche Prüfer verstehen, was im Inneren des Modells geschieht. Diese Transparenz ist wichtig für den Aufbau von Systemen, die individuelle Wahlmöglichkeiten respektieren. Das Teilen dieser Praktiken stärkt die breitere Forschungskultur rund um KI-Sicherheit.
Individuelle Richtlinien werden einfacher zu optimieren. Positives Verstärkungslernen funktioniert schneller, wenn das Verhalten konsistent bleibt. Entwickler verbringen weniger Zeit damit, zufällige Variationen zu verfolgen, und mehr Zeit damit, Lösungen zu schaffen, die wirklich den Bedürfnissen ihrer Nutzer dienen.
Thinking Machines Labs Ansatz für vorhersagbare KI-Systeme
Zu verstehen, warum künstliche Intelligenz manchmal unterschiedliche Antworten auf dieselbe Frage gibt, hat viele Experten vor Rätsel gestellt. Das Team im Thinking Machines Lab entdeckte das eigentliche Problem, das sich in Computerchips verbirgt. Wenn Prozessoren große Berechnungen durchführen, führen sie mathematische Operationen nicht immer in der gleichen Reihenfolge aus. Dies erzeugt winzige Unterschiede, die sich zu unterschiedlichen Ergebnissen aufschaukeln.
Ihre Lösung konzentriert sich darauf, Berechnungen jedes Mal auf die gleiche Weise ablaufen zu lassen:
- Strikte Reihenfolge-Durchsetzung über alle wichtigen Rechenoperationen hinweg
- Optimierte Berechnungsmodule einschließlich Aufmerksamkeitsschichten und Multiplikation
- Konsistente Sequenzen unabhängig davon, wie Informationen aufgeteilt werden
- Verifizierte Zuverlässigkeit getestet an massiven Modellen mit Milliarden von Parametern
Dieser Fortschritt bedeutet, dass KI-Systeme endlich jedes Mal die gleiche vertrauenswürdige Antwort liefern können und den Nutzern die zuverlässigen Ergebnisse bieten, die sie verdienen. Der Durchbruch ist besonders wertvoll für KI-Anwendungen auf Unternehmensebene, wo Zuverlässigkeit direkte Auswirkungen auf kritische Entscheidungsprozesse hat.
Experimentelle Ergebnisse: LoRA-Leistung auf DeepMath- und AIME-Datensätzen
Das Forschungsteam stellte das LoRA-Training mit zwei anspruchsvollen mathematischen Aufgabensätzen auf die Probe: DeepMath und AIME-Wettbewerbe. Diese Datensätze forderten die Modelle stark heraus und enthielten komplexe Probleme, die ernsthaftes Denkvermögen und schrittweises Vorgehen erforderten. DeepMath-103K enthält speziell ungefähr 103.000 mathematische Probleme, die nach hohen Schwierigkeitsgraden gefiltert wurden. Die Ergebnisse zeigten, wie gut LoRA mit fortgeschrittener Mathematik im Vergleich zu traditionellen Trainingsmethoden umgehen konnte.
DeepMath-Datensatz-Ergebnisse
Als Forscher LoRA am DeepMath-103K-Datensatz testeten, entdeckten sie etwas Bemerkenswertes. Diese anspruchsvolle Sammlung enthält über 103.000 mathematische Probleme, die ernsthafte Denkleistung erfordern. Die Trainingsmethode schnitt genauso gut ab wie traditionelle Ansätze, jedoch mit wesentlich geringerem Rechenaufwand.
Folgendes machte die Ergebnisse so überzeugend:
- Vergleichbare Leistung: LoRA erzielte nahezu identische Ergebnisse wie vollständiges Fine-Tuning, wenn die Lernraten richtig optimiert wurden.
- Fortgeschrittenes Denkvermögen: Die Modelle entwickelten anspruchsvolle Verhaltensweisen wie das Zurückverfolgen von Lösungen und das Überprüfen ihrer Arbeit.
- Höhere Effizienz: Das Training erforderte insgesamt weniger Rechenoperationen, was den Prozess schneller und zugänglicher machte.
- Komplexes Denken: Chain-of-Thought-Sequenzen wurden während der Tests länger, was tiefere Problemlösungsfähigkeiten zeigte.
Diese Erkenntnisse deuten darauf hin, dass jeder leistungsstarke Reasoning-Modelle trainieren kann, ohne über massive Infrastruktur zu verfügen. Der Ansatz adressiert distributionale Fehlausrichtung, die typischerweise dazu führt, dass synthetische Trainingsdaten im Vergleich zu realen Beispielen schlechter abschneiden.
AIME-Problemleistung
Aufbauend auf diesen vielversprechenden Ergebnissen gingen die Forscher weiter, indem sie LoRA am American Invitational Mathematics Examination Datensatz testeten. Diese komplexe Sammlung erfordert ernstzunehmende mathematische Fähigkeiten. Jedes Problem erfordert mehrere Berechnungsschritte und sorgfältiges logisches Denken.
Das Team bewertete Modelle über verschiedene Prüfungsjahre hinweg. Hier ist, was sie entdeckten:
Datensatzjahr | Genauigkeitsverbesserung |
---|---|
AIME 2024 | +10 Punkte |
AIME 2025 | +10 Punkte |
Die Verbesserungen blieben über beide Jahre hinweg stabil. Modelle beantworteten jedes Problem viermal, um zuverlässige Ergebnisse zu gewährleisten. Das LoRA-Training half dabei, Berechnungsfehler zu verhindern, die das System zuvor ins Stocken brachten. Der schrittweise Überprüfungsprozess brachte den Modellen bei, Fehler zu erkennen, bevor sie sich aufschaukelten. Diese konstante Leistungssteigerung demonstriert die Stärke von LoRA für komplexe Denkaufgaben und gibt den Forschern Vertrauen in den Ansatz. Die Bewertungsmethodik umfasste acht durchgeführte Iterationen, um durchschnittliche Leistungswerte zu berechnen und die statistische Zuverlässigkeit der Ergebnisse sicherzustellen.
Fortgeschrittene Argumentationsfähigkeiten in niedrig-rang-adaptierten Modellen
Überraschenderweise erfordert es keine massiven Änderungen am Gehirn einer künstlichen Intelligenz, ihr tiefes Denken beizubringen. Low-Rank-Anpassung beweist, dass Modelle komplexe Denkfähigkeiten entwickeln können, während nur ein winziger Bruchteil ihrer Parameter aktualisiert wird. Diese angepassten Systeme zeigen bemerkenswerte Fähigkeiten, die ein vollständiges Neutraining widerspiegeln:
- Rückverfolgung bei Blockaden – Modelle erkennen Sackgassen und probieren verschiedene Ansätze aus
- Selbstüberprüfung – Sie kontrollieren ihre eigene Arbeit, bevor sie Antworten finalisieren
- Kontextbezogene Erkundung – Systeme testen mehrere Lösungswege innerhalb einzelner Probleme
- Erweiterte Denkketten – Die Argumentation wird im Laufe der Zeit gründlicher und bewusster
Beide Anpassungsmethoden erzielten vergleichbare Leistungen bei anspruchsvollen Mathematik-Benchmarks. Die Lernkurven waren bei richtiger Abstimmung nahezu identisch. Dies deutet darauf hin, dass komplexes Denken keine umfangreiche Modellkapazität erfordert – nur die richtigen gezielten Anpassungen an strategischen Stellen. Datensätze beinhalten nun multimodale Informationsintegration, um zu bewerten, wie Modelle visuelle und textuelle Eingaben bei komplexen Denkaufgaben gemeinsam verarbeiten.
Rechnerische Vorteile und Kosteneffizienz des LoRA-Trainings
Neben der Verbesserung der Denkweise von Modellen liefert LoRA etwas ebenso Wertvolles: massive Einsparungen bei Rechenleistung und Kosten.
Das Training eines riesigen KI-Modells erfordert normalerweise teure Hardware und enorme Stromrechnungen. LoRA verändert diese Gleichung dramatisch. Es reduziert den Speicherbedarf um über 70 %—das Fine-tuning von GPT-3 sank von 1,2 Terabyte auf nur 350 Gigabyte. Trainingsläufe sind bis zu 100-mal schneller, was schnellere Ergebnisse und niedrigere Kosten bedeutet.
Traditionelles vs. LoRA Training
Methode | Benötigter Speicher |
---|---|
Vollständiges Fine-tuning | 1.200 GB |
LoRA Fine-tuning | 350 GB |
Diese Verbesserungen bedeuten, dass jeder leistungsstarke KI anpassen kann, ohne die Bank zu sprengen. Organisationen trainieren spezialisierte Modelle auf Standardausrüstung statt auf industrietauglichen Supercomputern. Diese Freiheit öffnet Türen, die zuvor hinter Infrastrukturanforderungen im Wert von Millionen Dollar verschlossen waren. Durch das Einfrieren der ursprünglichen Modellgewichte und das Hinzufügen von nur niedrigrangigen Matrizen behält LoRA das grundlegende Wissen bei und reduziert gleichzeitig dramatisch die Anzahl der Parameter, die angepasst werden müssen.
Geschäftsanwendungen für anpassbare KI-Modelle
Wo macht LoRA den größten Unterschied im täglichen Geschäft? Unternehmen finden Freiheit darin, KI ohne massive Kosten oder technische Kopfschmerzen anzupassen. Die Innovation ermöglicht es Teams, Modelle genau an ihre Bedürfnisse anzupassen.
Vier Schlüsselbereiche, in denen Unternehmen erfolgreich sind:
- Gesundheitseinrichtungen betreiben mehrere spezialisierte Chatbots von einem kompakten System aus, von denen jeder verschiedene medizinische Fachgebiete versteht, ohne separate Infrastruktur.
- Finanzunternehmen erstellen konforme Dokumente, die auf spezifische Vorschriften zugeschnitten sind und sich schnell aktualisieren lassen, wenn sich Regeln ändern.
- Produktionsstätten überwachen jede Produktionsstufe mit angepassten Modellen und erkennen Qualitätsprobleme schneller.
- Kundendienstteams setzen spezialisierte Assistenten für Vertrieb, Support und Sprachen ein – alles ohne separate Plattformen aufzubauen.
Kleine Adapter, jeweils etwa 25MB groß, ersetzen teure vollständige Modelle. Dieser Ansatz senkt die Infrastrukturkosten um 80% und öffnet KI-Anpassung für Unternehmen jeder Größe. Die trainierbaren Low-Rank-Matrizen reduzieren die Parameter drastisch bei gleichbleibender Leistung und machen die Anpassung selbst dann machbar, wenn Modelle den verfügbaren GPU-Speicher überschreiten.
Offene Forschungspraktiken Treiben KI-Innovation Voran
Wenn Forscher ihre Arbeit offen teilen, bewegen sich alle schneller in Richtung besserer KI. Man kann es sich wie Nachbarn vorstellen, die Gartentipps austauschen, anstatt Geheimnisse zu bewahren. Wenn Wissenschaftler ihre Methoden und Daten frei veröffentlichen, können andere sofort auf diesen Entdeckungen aufbauen. Niemand verschwendet Zeit damit, dasselbe Rätsel zweimal zu lösen.
Open-Source-Projekte laden Tausende von Köpfen ein, Probleme zu erkennen und Lösungen vorzuschlagen. Ein Student in einem Land könnte einen Fehler entdecken, der Forschern überall hilft. Öffentliche Datensätze ermöglichen es jedem, neue Ideen zu testen, ohne von vorne anzufangen. In der ersten Hälfte von 2025 veröffentlichte OpenAI 87 peer-reviewte Arbeiten und arbeitete mit über 220 Institutionen weltweit in verschiedenen akademischen Bereichen zusammen.
Dieser Ansatz verbreitet Wissen schnell und fair. Kleinere Teams erhalten Zugang zu leistungsstarken Werkzeugen, die sie alleine nicht entwickeln könnten. Frische Perspektiven führen zu unerwarteten Fortschritten. Wenn Informationen frei fließen, beschleunigt sich Innovation zum Vorteil aller.
Der Weg zur Demokratisierung des Zugangs zu fortschrittlichen KI-Tools
Im Moment halten eine Handvoll großer Unternehmen die Schlüssel zu den mächtigsten KI-Systemen. Aber Thinking Machines Lab möchte das ändern. Ihre Vision konzentriert sich darauf, KI für alle zugänglich zu machen, nicht nur für Tech-Giganten.
So setzen sie es um:
- Open-Source-Grundlagen ermöglichen es Entwicklern, KI-Tools ohne Erlaubnis von Torwächtern zu entwickeln und anzupassen
- Transparente Forschung teilt technische Arbeiten und Code frei mit der globalen Gemeinschaft
- Modulare Designs erlauben es Einzelpersonen, KI für ihre spezifischen Bedürfnisse in verschiedenen Branchen anzupassen
- Kollaborative Systeme ermöglichen Echtzeit-Partnerschaften zwischen Menschen und KI
Mit 2 Milliarden Dollar Finanzierung und Talenten aus Top-Organisationen könnte dieser Ansatz neu gestalten, wer die Zukunft der KI kontrolliert. Investitionen in Open-Source-Plattformen sind stark gestiegen von 200 Millionen Dollar auf über 3,5 Milliarden Dollar, was einen großen Branchenwandel signalisiert. Es geht darum, leistungsstarke Technologie in mehr Hände zu legen.
Quellenangabe
- https://thinkingmachines.ai/blog/lora/
- https://techcrunch.com/2025/09/10/thinking-machines-lab-wants-to-make-ai-models-more-consistent/
- https://www.youtube.com/watch?v=9dhX67OfCkg
- https://thinkingmachines.ai
- https://theaiinsider.tech/2025/09/12/mira-muratis-thinking-machines-lab-publishes-first-research-on-deterministic-ai-models/
- https://modal.com/blog/lora-qlora
- https://arxiv.org/html/2410.21228v2
- https://aiwithmike.substack.com/p/lora-vs-full-fine-tuning-an-illusion
- https://www.theriseunion.com/en/blog/Full-Model-Fine-tuning-vs-LoRA-vs.html
- https://gradientflow.com/lora-or-full-fine-tuning/