12/12/2025

LLM Snake Arena bietet eine neue Möglichkeit, Modellstrategien zu testen

Im Gegensatz zu herkömmlichen KI-Tests enthüllt diese Snake-Spiel-Arena überraschende strategische Fähigkeiten in Sprachmodellen, die Benchmarks völlig übersehen.
08/10/2025

Anthropics Petri testet Modelle gegen sich selbst

Fangen Sie eine KI dabei, wie sie täuscht, indem eine andere KI bei der Arbeit zusieht – Anthropics neues Framework findet die Probleme, die Modelle verbergen.