
Google startet KI-Trainingsinitiative für Europa
18/03/2026
Aurora Mobile bringt KI-Kundensupport nach Japan
19/03/2026Sie haben wahrscheinlich schon von Zhipus neuer GLM‑5 Turbo gehört, einem riesigen Modell mit 744 Milliarden Parametern, das schnellere und kostengünstigere KI verspricht.
Es kombiniert Expertenmodule und einen cleveren Aufmerksamkeitsmechanismus, um die Dinge flink zu halten.
Da es unter der MIT-Lizenz steht, können Sie damit auch zu Hause oder in einem kleinen Unternehmen experimentieren.
Stellen Sie sich vor, wie Sie Ihre Cloud-Kosten senken können, während Sie immer noch Sprachleistung der Spitzenklasse erhalten – das klingt doch nach einem Gewinn, nicht wahr ?
Lassen Sie uns sehen, wie dies die Welt der Entwickler und Unternehmen verändern könnte.
Zhipu startet GLM‑5 Turbo

Zhipu hat gerade die GLM‑5 Turbo angekündigt. Es ist ein 744-Milliarden-Parameter-Kraftpaket, das 40 Milliarden aktive Experten durch ein Mixture-of-Experts-Design ausführt. Das Modell nutzt Multi-Head Latent Attention, DeepSeek Sparse Attention und eine benutzerdefinierte asynchrone RL-Engine namens „slime”. Dies ermöglicht es, die Speichernutzung um ein Drittel zu senken und dabei 200.000, 205.000 Token-Kontexte zu verarbeiten. Die GLM‑5 Turbo wird mit einem Open-Source-MIT-lizenzierten 1,5‑TB-Gewichtssatz ausgeliefert. Sie ist für Echtzeitaufrufe von Tools, strukturierte Ausgaben und lange Agenten-Aufgabenketten optimiert. Das Modell liefert branchenführende Benchmark-Ergebnisse in Softwareentwicklung, Mathematik und faktischem Denken. Seine MMLU-Genauigkeit erreicht 85% beim Massive Multitask Language Understanding-Benchmark.
Zhipus Glm‑5 Turbo Debüt
Berlin, 16. März 2026 , Zhipu Technology kündigte den Start von GLM-5-Turbo an, einem diffusionsbasierten Großsprachmodell, das für die hochgeschwindigkeits- und kostengünstige Verarbeitung langer Sequenzen konzipiert ist. Das Modell verfügt über insgesamt 744 Milliarden Parameter, von denen 40 Milliarden jederzeit aktiv sind und in 256 Experten organisiert sind, von denen acht gleichzeitig aktiv sind.
Zu den wichtigsten Architekturinnovationen gehören DeepSeek Sparse Attention (DSA) für die dynamische Tokenwichtigkeit, ein Multi-Head-Attention-Framework, RMS-Normalisierung und absolute Positionseinbettungen. GLM-5-Turbo unterstützt ein Kontextfenster von 200.000 Token und kann in Echtzeit-Streaming-Modus bis zu 128.000 Ausgabetokens generieren, optional auch in strukturierten Formaten wie JSON.
Die Optimierungen zielen auf in China gängige Hardware ab : Das Modell wurde auf Huawei Ascend KI-Chips trainiert und läuft auf Plattformen von Moore Threads, Hygon, Cambricon, Kunlun Core, TianShu ZhiXin und Enflame. Ein einzelner inländischer Knoten entspricht der Leistung von zwei internationalen GPUs, was die Bereitstellungskosten für Aufgaben mit langen Sequenzen um etwa die Hälfte reduziert.
Benchmark-Ergebnisse zeigen eine starke Leistung in mehreren Bewertungen : 77,8 % auf SWE-Bench Verified, 56,2 % auf Terminal Bench 2.0, 86 % auf GPQA Diamond im Denkenmodus, 96,9 % auf HMMT 2025 und 30,5 % auf Humanity’s Last Exam (Denkenmodus).
Zhipu positioniert GLM-5-Turbo als vielseitiges Werkzeug für Unternehmen, die eine schnelle, großangelegte Sprachverarbeitung mit feingranularer Ausgabekontrolle benötigen. Das Modell ist unter einer MIT-Lizenz verfügbar, was die Open-Source-Nutzung und lokale Feinabstimmung erlaubt.
Quellenangabe
- https://automatio.ai/models/glm‑5
- https://build.nvidia.com/z‑ai/glm5/modelcard
- https://docsbot.ai/models/glm‑5
- https://docs.z.ai/guides/llm/glm-5-turbo
- https://docs.z.ai/guides/llm/glm‑5
- https://bigmodel.cn/pricing
- https://llm-stats.com/models/glm‑5
- https://apxml.com/models/glm‑5
- https://news.futunn.com/en/post/69084722/zhipu-releases-glm-5-technical-details-engineering-grade-intelligence-compatible
- https://open.bigmodel.cn/pricing



