Die neuen OpenAI Open-Weight-Modelle sind da¶

Gestern hat OpenAI ihre neuen Open-Weight-Modelle unter der Apache 2.0 veröffentlicht, die sich in der Größe unterscheiden: Neu: gpt-oss. Das gpt-oss-120b-Modell ist mit OpenAI o4-mini vergleichbar, gpt-oss-20b mit OpenAI o3-mini. gpt-oss-20b kann auf Geräten ab 16 GB Arbeitsspeicher ausgeführt werden und eignet sich daher für lokale Inferenz oder schnelle Iterationen ohne kostspielige Infrastruktur. Aber auch das große gpt-oss-20b-Modell läuft auf meinem Mac-Laptop mit 64 GB RAM hinreichend schnell.
Bemerkung
Es gibt eine ganze Reihe von Möglichkeiten, diese Modelle auszuführen. Für
meine ersten Versuche habe ich LM Studio verwendet,
um openai/gpt-oss-20b zu
installieren. Anschließend verbraucht es etwas mehr als 11 GB bei
reasoning=medium
und verarbeitet ca. 55 Token/Sekunde.
Auch aus der Veröffentlichung, wie die Modelle trainiert wurden ergeben sich interessante Hinweise: gpt-oss-120b & gpt-oss-20b Model Card (PDF, 5,1 MB). Die Modelle wurden speziell geschult, um Webbrowser- und Python-Tools effektiver zu nutzen:
ein Browsing-Tool ermöglicht das Suchen und Öffnen von im Web verfügbaren Inhalten.
ein Python-Tool führt Code in einer zustandsorientierten Jupyter-Notebook-Umgebung aus.
Es gibt auch einen Abschnitt über die Verwendung von Python-Tools im openai/gpt-oss:-Repository.
Schließlich ist auch noch OpenAI Harmony unter der Apache 2-Lizenz veröffentlicht worden. Es ist inspiriert von ihrer neuen Responses API. Das Format ist beschrieben in OpenAI Harmony Response Format. Es enthält einige spannende Konzepte:
ein feingranulares Rollenmodell mit den Rollen
system
,developer
,user
,assistant
undtool
.Drei Ausgabekanäle:
analysis
,commentary
undfinal
.In der grafischen Benutzeroberfläche ist üblicherweise nur der
final
-Kanal sichtbar,analysis
dient der Gedankenkette, undcommentary
wird für Tools verwendet.
Ich habe noch nicht getestet, wie gut die Werkzeugeaufrufe bei lokalen Modellen sind. Bisher war ich diesbezüglich eher enttäuscht. Dies hing vermutlich damit zusammen, dass ich zwar einzelne Aufrufe ausführen konnte, mit Claude jedoch in einer Sitzung dutzende Tools aufgerufen werden.