LoRA-Training wird vorhersehbar durch Thinking Machines‘ Durchbruch
01/10/2025DeepSeek hat gerade einen mutigen Schritt in der künstlichen Intelligenz gemacht. Die Marke hat V3.2-Exp veröffentlicht, ein neues Modell, das die Kosten für die Verarbeitung langer Texte um neunzig Prozent senkt. Dies ist nicht nur ein kleines Upgrade—es verändert, wie sich Unternehmen und Entwickler leisten können, mit KI zu arbeiten. Durch eine Technologie namens Sparse-Attention leistet das System mehr, während es weitaus weniger Energie verbraucht. Die Preissenkungen und Effizienzgewinne könnten neu gestalten, wer Zugang zum Entwickeln mit fortschrittlichen KI-Tools hat.
Was ist DeepSeek-V3.2-Exp und wann wurde es veröffentlicht?
DeepSeek-V3.2-Exp kam am 29. September 2025 und brachte frische Ideen in die Welt der künstlichen Intelligenz. Dieses experimentelle Sprachmodell baut auf früheren Designs auf und fügt etwas Besonderes hinzu: Sparse-Attention-Technologie. Stellen Sie es sich als eine intelligentere Methode vor, lange Gespräche oder Dokumente zu verarbeiten, ohne dabei Rechenleistung zu verschwenden.
Das System opfert keine Qualität für Geschwindigkeit. Tests zeigen, dass es genauso gut abschneidet wie die vorherige Version, V3.1-Terminus, während es weitaus weniger Ressourcen verbraucht. Das ist wichtig für jeden, der Anwendungen ohne riesige Budgets entwickeln möchte. Die Rechenkosten reduzierten sich dramatisch im Vergleich zu traditionellen Attention-Mechanismen.
DeepSeek stellte alles der Öffentlichkeit zur Verfügung. Der Code liegt auf GitHub. Die Modellgewichte befinden sich auf HuggingFace. Jeder kann sie herunterladen, testen und damit entwickeln. Diese Offenheit gibt Entwicklern und Forschern echte Freiheit zum Experimentieren und Erschaffen.
Wie DeepSeek Sparse Attention (DSA) funktioniert
DeepSeeks Sparse-Attention-System funktioniert, indem es jedem Token ermöglicht, sich nur auf die wichtigsten Informationen zu konzentrieren, anstatt jedes andere Token in der Sequenz zu überprüfen. Dieser gezielte Ansatz reduziert die Arbeitslast dramatisch und verschiebt den Prozess von einem erschöpfenden zu einem optimierten Verfahren, das sich auf das wirklich Wichtige konzentriert. Das Ergebnis ist ein Mechanismus, der schneller läuft und weniger Speicher verwendet, während die Qualität der Antworten erhalten bleibt. Die Architektur behält die 671 Milliarden Parameter seines Vorgängers bei und erzielt dabei diese Effizienzgewinne.
Feinkörniger Sparse-Attention-Mechanismus
Im Herzen dieser Innovation liegt ein cleverer Ansatz zur effizienteren Verwaltung von Rechenressourcen. Anstatt jede mögliche Verbindung zwischen Wörtern zu analysieren, wählt das System nur die bedeutungsvollsten Beziehungen aus. Stellen Sie es sich so vor, als würden Sie in einem überfüllten Raum einigen wichtigen Stimmen aufmerksam zuhören, anstatt zu versuchen, alle gleichzeitig zu hören.
Dieser selektive Prozess reduziert die Arbeitslast dramatisch – von der Untersuchung von Millionen von Verbindungen auf nur Tausende. Das Ergebnis? Die Verarbeitungsgeschwindigkeit steigt bei längeren Dokumenten um das Zwei- bis Dreifache. Der Speicherbedarf sinkt um 30-40%. Dennoch bleibt die Qualität bemerkenswert hoch und entspricht traditionellen Methoden, die alles untersuchen. Es geht darum, intelligenter zu arbeiten, nicht härter, um wirklich massive Textmengen zu verarbeiten, ohne die Bank zu sprengen.
Das System kombiniert Nähe und Bedeutung, um zu bestimmen, welche Verbindungen am wichtigsten sind, und verbindet nahegelegenen Kontext mit strategisch ausgewählten globalen Referenzpunkten im gesamten Dokument.
Signifikante Reduzierung der Rechenaufwandskomplexität
Traditionelle Sprachmodelle stehen vor einem mathematischen Problem, das sich schnell verschlimmert. Wenn ein Modell Text liest, muss jedes Wort sich mit jedem anderen Wort vergleichen. Das ist in Ordnung für kurze Nachrichten. Aber die Länge verdoppeln? Die Arbeit vervierfacht sich. Es ist, als würde man jeden auf einer Party bitten, jedem anderen die Hand zu schütteln – erschöpfend und langsam.
DeepSeek Sparse Attention löst dies durch Selektivität. Anstatt jede mögliche Verbindung zu überprüfen, identifiziert es, welche Beziehungen tatsächlich zählen:
- Sparse Pattern Recognition findet bedeutende Wortpaare, die eine Untersuchung wert sind
- Selektive Berechnung berechnet Attention nur dort, wo sie benötigt wird
- Effiziente Aggregation kombiniert Ergebnisse ohne Qualitätsverlust
Das Ergebnis? Die Schwierigkeit sinkt von O(n²) auf O(nk) – eine überwältigende Aufgabe wird zu etwas Handhabbarem. Die Abfrageverarbeitung berechnet die oberen 2048 Tokens, auf die geachtet werden soll, und gewährleistet so eine fokussierte Aufmerksamkeit auf den relevantesten Kontext. Lange Dokumente werden praktikabel, nicht unerschwinglich.
Drastische Reduzierung der Rechenkosten für lange Sequenzen
DeepSeeks Sparse-Attention-Ansatz reduziert die Rechenlast drastisch, die bei herkömmlichen Modellen mit längeren Eingaben exponentiell wächst. Traditionelle Modelle haben Kosten, die mit O(N²) skalieren – das bedeutet, dass eine Verdopplung der Eingabe die Arbeit etwa vervierfacht – aber V3.2-exp senkt dies auf O(N log N), eine dramatische Verbesserung. Diese Effizienz führt zu echten Einsparungen: API-Nutzer sehen über 50% niedrigere Kosten für Aufgaben mit langem Kontext, wobei einige Szenarien Reduzierungen von bis zu 70–80% liefern. Das Modell ist für offene Tests verfügbar auf Hugging Face, was es Forschern und Entwicklern ermöglicht, seine Leistungsansprüche unabhängig zu bewerten.
O(N²) zu O(N Log N)
Einer der größten Hürden in der KI-Entwicklung war die schiere Menge an Rechenleistung, die benötigt wird, um lange Textsequenzen zu verarbeiten. Traditionelle Aufmerksamkeitsmechanismen zwingen das System, jedes Wort mit jedem anderen Wort zu vergleichen, was Experten als O(N²)-Komplexität bezeichnen. Man kann sich das so vorstellen, als würde man jede Person mit jeder anderen Person in einem Stadion abgleichen – das wird schnell überwältigend.
DeepSeeks neuer Sparse-Attention-Ansatz ändert dieses Spiel komplett. Durch die selektive Berechnung nur der wichtigsten Verbindungen arbeitet das System wesentlich effizienter. Das Modell reduziert die Kern-Aufmerksamkeitskomplexität von O(L²) auf O(Lk), indem es 2048 Key-Value-Tokens für jeden Query-Token innerhalb einer 128K-Token-Grenze auswählt. Das sind die Vorteile dieses Fortschritts:
- Verarbeitungsgeschwindigkeiten steigen bei langen Dokumenten um das 2-3-fache
- Speicheranforderungen sinken um 30-40%
- Trainingseffizienz verbessert sich um etwa 50%
Diese Veränderung bedeutet, dass Entwickler intelligentere Anwendungen ohne massive Infrastrukturinvestitionen erstellen können.
Über 50% API-Einsparungen
Schnellere Verarbeitung bedeutet nichts, wenn sie das Budget sprengt. DeepSeek V3.2-Exp senkt die API-Kosten um mehr als die Hälfte im Vergleich zu seinem Vorgänger. Das ist echtes Geld, das für jeden gespart wird, der Anwendungen entwickelt, die lange Dokumente oder Konversationen verarbeiten.
Die Preissenkung kommt von intelligenterer Architektur, nicht von Sparmaßnahmen. Die Qualität bleibt gleich, während Ihre Rechnung dramatisch schrumpft. Für Entwickler, die mit erweiterten Sequenzen arbeiten, ändert dies alles. Aufgaben, die finanziell unerreichbar waren, werden plötzlich erschwinglich.
Die Einsparungen greifen sofort über alle Bereitstellungsoptionen hinweg. Ob Sie ein kleines Projekt betreiben oder hochskalieren, Sie zahlen weniger für die gleiche Leistung. OpenRouter leitet Anfragen an optimale Anbieter weiter, um maximale Verfügbarkeit und Leistung zu gewährleisten. DeepSeek hält das ältere Modell bis Oktober zum Vergleich verfügbar, damit Benutzer den Wert aus erster Hand überprüfen können. Niedrigere Barrieren bedeuten mehr Freiheit zum Experimentieren und Entwickeln.
API-Preise um über 50 % beim Launch gesenkt
Der Launch von V3.2-Exp brachte eine dramatische Veränderung bei den Kosten, die Entwickler für API-Zugang zahlen. DeepSeek senkte die Preise um mehr als die Hälfte im Vergleich zu früheren Versionen. Diese Preissenkung öffnet Türen für jeden, der mit KI entwickeln möchte, ohne das Budget zu sprengen.
Die neuen Preise pro Million Token umfassen:
- Cache-Treffer-Eingaben: 0,028 $ (runter von 0,07–0,14 $)
- Cache-Fehlschlag-Eingaben: 0,28 $ (reduziert von 0,56 $)
- Ausgabe-Token: 0,42 $ (gesenkt von 1,10–2,19 $)
Diese Änderungen bedeuten echte Einsparungen für alltägliche Nutzer und Unternehmen gleichermaßen. Sie zahlen nur für das, was Sie nutzen, ohne erzwungene Abonnements. Die transparente Preisgestaltung ermöglicht es Ihnen, Kosten im Voraus abzuschätzen. Ob Sie mit einem kleinen Projekt experimentieren oder eine große Anwendung skalieren – niedrigere Token-Preise machen KI für jeden zugänglicher. Nutzer können zukünftige Anpassungen über die DeepSeek-Preisverlaufsseite verfolgen.
Benchmark-Leistung im Vergleich zu V3.1-Terminus
Leistungstests zeigen, wie V3.2-Exp im Vergleich zu seinem Vorgänger V3.1-Terminus abschneidet. Das neuere Modell verarbeitet lange Texte schneller und ist kostengünstiger im Betrieb. Dies gelingt dank intelligenter Attention-Technologie, die Rechenleistung dort konzentriert, wo sie am wichtigsten ist.
V3.1-Terminus gewinnt noch bei der Ausgabekonsistenz. Es liefert stabilere, zuverlässigere Ergebnisse über verschiedene Aufgaben hinweg. Die ältere Version schneidet auch besser dabei ab, Sprachen getrennt zu halten und zufällige Zeichenfehler zu vermeiden. Das Modell zeigt verbesserte Sprachkonsistenz, die CN/EN-Vermischungen während des Betriebs eliminiert.
Geschwindigkeit erzählt eine andere Geschichte. V3.2-Exp verarbeitet Anfragen schneller, besonders bei langen Inhalten. Es verwaltet große Kontextfenster effizienter bei gleichzeitig geringerem Ressourcenverbrauch.
Beide Modelle wurden an öffentlichen Evaluierungsdatensätzen getestet. Die Ergebnisse zeigen, dass V3.2-Exp in der Qualität mit V3.1-Terminus mithalten kann, während es eine überlegene Kosteneffizienz bietet. Benutzer können beide über verfügbare APIs vergleichen.
Open-Source-Veröffentlichung: Gewichte, Code und technische Dokumentation
Nachdem DeepSeek ein schnelleres Modell entwickelt hatte, unternahm das Team einen wichtigen nächsten Schritt. Das Team veröffentlichte alles kostenlos. Jeder kann jetzt die Modellgewichte von HuggingFace herunterladen und den vollständigen Code auf GitHub untersuchen.
Diese offene Veröffentlichung umfasst drei Hauptkomponenten:
- Modellgewichte, die auf Standardhardware einsatzbereit sind
- GPU-Kernel, die in CUDA und TileLang geschrieben sind, um lange Dokumente effizient zu verarbeiten
- Technische Dokumentation, die erklärt, wie das Sparse-Attention-System funktioniert
Der detaillierte technische Bericht zeigt genau, wie DeepSeek diese dramatischen Kosteneinsparungen erreicht hat. Forscher können nun die Architektur studieren, eigene Tests durchführen und sogar das Design verbessern. Dieser transparente Ansatz lädt Entwickler weltweit zur Teilnahme ein. Die Marke setzt darauf, dass offene Zusammenarbeit Innovationen schneller vorantreibt, als Geheimnisse unter Verschluss zu halten. Docker-Unterstützung ermöglicht eine optimierte Bereitstellung für Teams, die das Modell in containerisierten Umgebungen testen möchten.
Unterstützte Hardware und Inferenz-Frameworks
Flexibilität ist wichtig bei der Bereitstellung fortschrittlicher KI-Systeme in verschiedenen Computing-Umgebungen. DeepSeek V3.2-Exp läuft auf chinesischen Inlandschips wie Ascend und Cambricon und reduziert damit die Abhängigkeit von ausländischer Technologie. NVIDIAs H100- und H200-GPUs funktionieren nahtlos, ebenso wie AMDs MI350-Prozessoren über spezialisierte Docker-Images. Neural Processing Units wie A2 und A3 erhalten ebenfalls volle Unterstützung.
Es existieren mehrere Bereitstellungsoptionen. HuggingFace bietet native Integration mit einfachen Konvertierungsskripten. SGLang liefert hochleistungsfähige Inferenz über verschiedene Hardware hinweg. vLLM bietet sofortige Day-Zero-Kompatibilität für skalierbare Setups. Das Modell verfolgt eine Open-Source-Strategie mit vollständigem Code und Werkzeugen, die für öffentlichen Zugang und Modifikation freigegeben sind.
Kleine Projekte benötigen nur eine H100-GPU mit 80GB Speicher. Mittlere Betriebe erfordern vier GPUs mit insgesamt 320GB. Großangelegte Produktion verlangt acht oder mehr GPUs mit 640GB-plus Kapazität. Quantisierung reduziert Speicheranforderungen bei gleichzeitiger Beibehaltung starker Leistung.
Testresultate von GPU-Clustern in der realen Welt
Als Ingenieure DeepSeek V3.2-Exp in tatsächlichen GPU-Cluster-Tests prüften, sprachen die Ergebnisse für sich selbst. Das neue System lief zwei- bis dreimal schneller bei langen Dokumenten, während die gleiche Qualität beibehalten wurde. Die Speichernutzung sank um 30-40%, wodurch Ressourcen für andere Aufgaben freigesetzt wurden.
Wesentliche Verbesserungen aus den Tests umfassten:
- Geschwindigkeitsgewinne: Die Verarbeitung langer Sequenzen wurde bei verschiedenen Anwendungen deutlich schneller
- Kosteneinsparungen: Die GPU-Nutzung sank um über 50%, wodurch die Infrastrukturkosten halbiert wurden
- Stabile Leistung: Das System skalierte reibungslos über mehrere GPU-Knoten hinweg ohne Qualitätsverlust
Das Design der spärlichen Aufmerksamkeit lieferte echte Recheneinsparungen. Weniger Operationen pro Token bedeuteten weniger GPU-Zeit pro Abfrage. Das Modell aktiviert trotz seiner insgesamt 671 Milliarden Parameter nur ~37 Milliarden Parameter pro Token. Für Unternehmen, die leistungsstarke Sprachmodelle betreiben möchten, ohne ihr Budget zu sprengen, zeigten diese Benchmarks echten Fortschritt in Richtung zugänglicher KI-Infrastruktur.
Was das für eine skalierbare KI-Bereitstellung bedeutet
Die Zahlen aus den Tests von DeepSeek V3.2-Exp zeigen einen Wendepunkt für Unternehmen, die versuchen, KI ohne enorme Budgets zu skalieren. Die Senkung der API-Kosten um mehr als die Hälfte öffnet Türen, die kleineren Teams bisher verschlossen waren. Organisationen können nun massive Mengen an Informationen verarbeiten, ohne zusehen zu müssen, wie die Kosten außer Kontrolle geraten.
Das Sparse-Attention-System macht dies möglich, indem es intelligenter arbeitet, nicht härter. Es konzentriert die Rechenleistung dort, wo sie am wichtigsten ist, und überspringt unnötige Berechnungen. Dieser Ansatz liefert die gleichen qualitativen Ergebnisse bei deutlich geringerem Ressourcenverbrauch. Das Modell umfasst sowohl deepseek-chat als auch deepseek-reasoner Endpunkte, um unterschiedliche Anwendungsbedürfnisse zu erfüllen.
Für Unternehmen, die Unabhängigkeit von teuren KI-Lösungen anstreben, bietet dieses Modell echte Freiheit. Teams können experimentieren, wachsen und kreativ sein, ohne ständige Budgetsorgen. Die 128K Kontextlänge bewältigt komplexe Projekte mühelos und macht fortschrittliche KI für jeden zugänglich.
Quellenangabe
- https://api-docs.deepseek.com/news/news250929
- https://openrouter.ai/deepseek/deepseek-v3.2-exp
- https://www.youtube.com/watch?v=f-RxZ7MTisU
- https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html
- https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/inference/model.py
- https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
- https://www.mexc.com/en-PH/news/deepseek-v3-2-exp-model-officially-released-and-open-sourced/113164
- https://dev.to/czmilo/deepseek-v32-exp-complete-analysis-2025-ai-model-breakthrough-and-in-depth-analysis-of-sparse-3gcl
- https://api-docs.deepseek.com/updates
- https://sider.ai/blog/ai-tools/what-is-deepseek-sparse-attention-dsa_a-clear-modern-explainer