Die neuen OpenAI Open-Weight-Modelle sind da¶

Veit Schiele

6. August 2025

3–4 Minuten

Gestern hat OpenAI ihre neuen Open-Weight-Modelle unter der Apache 2.0 veröffentlicht, die sich in der Größe unterscheiden: Neu: gpt-oss. Das gpt-oss-120b-Modell ist mit OpenAI o4-mini vergleichbar, gpt-oss-20b mit OpenAI o3-mini. gpt-oss-20b kann auf Geräten ab 16 GB Arbeitsspeicher ausgeführt werden und eignet sich daher für lokale Inferenz oder schnelle Iterationen ohne kostspielige Infrastruktur. Aber auch das große gpt-oss-20b-Modell läuft auf meinem Mac-Laptop mit 64 GB RAM hinreichend schnell.

Bemerkung

Es gibt eine ganze Reihe von Möglichkeiten, diese Modelle auszuführen. Für meine ersten Versuche habe ich LM Studio verwendet, um openai/gpt-oss-20b zu installieren. Anschließend verbraucht es etwas mehr als 11 GB bei reasoning=medium und verarbeitet ca. 55 Token/Sekunde.

Auch aus der Veröffentlichung, wie die Modelle trainiert wurden ergeben sich interessante Hinweise: gpt-oss-120b & gpt-oss-20b Model Card (PDF, 5,1 MB). Die Modelle wurden speziell geschult, um Webbrowser- und Python-Tools effektiver zu nutzen:

ein Browsing-Tool ermöglicht das Suchen und Öffnen von im Web verfügbaren Inhalten.
ein Python-Tool führt Code in einer zustandsorientierten Jupyter-Notebook-Umgebung aus.

Es gibt auch einen Abschnitt über die Verwendung von Python-Tools im openai/gpt-oss:-Repository.

Schließlich ist auch noch OpenAI Harmony unter der Apache 2-Lizenz veröffentlicht worden. Es ist inspiriert von ihrer neuen Responses API. Das Format ist beschrieben in OpenAI Harmony Response Format. Es enthält einige spannende Konzepte:

ein feingranulares Rollenmodell mit den Rollen system, developer, user, assistant und tool.
Drei Ausgabekanäle:analysis, commentary und final.

In der grafischen Benutzeroberfläche ist üblicherweise nur der final-Kanal sichtbar, analysis dient der Gedankenkette, und commentary wird für Tools verwendet.

Ich habe noch nicht getestet, wie gut die Werkzeugeaufrufe bei lokalen Modellen sind. Bisher war ich diesbezüglich eher enttäuscht. Dies hing vermutlich damit zusammen, dass ich zwar einzelne Aufrufe ausführen konnte, mit Claude jedoch in einer Sitzung dutzende Tools aufgerufen werden.