Macht KI-Modelle Open Source, aber richtig!
Eine Open-Source-Lizenz genügt nicht: Hersteller von KI-Modellen sollen diese inklusive Code und Trainingsdaten Open Source stellen, fordert Holger Voormann.

(Bild: Romolo Tavani/Shutterstock.com)
- Holger Voormann
Danke an DeepSeek, Meta, Mistral, Microsoft, Alibaba, Google und all die anderen, die KI-Modelle und ihre Parameter unter einer Open-Source-Lizenz veröffentlichen. Open-Weights-Modelle sind aber noch keine Open-Source-KI. Seid mutig, nehmt euch ein Beispiel an Ai2 und veröffentlicht alle Daten sowie den Code, mit dem ihr die Modelle erstellt habt! Dafür gibt es aus meiner Sicht vier gute Gründe.
Vier Gründe für Open-Source-Modelle
Erstens seid ihr damit im Gewinnerteam. Sicher habt ihr ein paar geheime Tricks auf Lager, um eure Modelle zu trainieren. Doch ihr habt viele, aber längst nicht alle Möglichkeiten ausprobiert, um den besten Weg zu finden. Tut euch zusammen und bündelt eure Innovationskraft. Es dauerte nur vier Monate und acht Tage von OpenAI o1-preview, dem ersten Reasoning-Modell, nicht herunterladbar und mit verborgenem Reasoning, bis zum frei verfügbaren DeepSeek R1, das die Entwicklung weiterer Reasoning-Modelle beflügelte. Im schlimmsten Fall geht euch nur ein Vorsprung für kurze Zeit verloren.
Zweitens spart es Ressourcen: Humanressourcen, Zeit und Rechenleistung. Letzteres ist ein echtes Problem. Trotz Effizienzsteigerungen beim Training und bei der Ausführung benötigen Modelle heute in der Regel mehr Rechenleistung als früher, weil sie größer sind, weil mehr synthetische Daten beim Trainieren verwendet werden und weil aktuelle Reasoning-Modelle oft mehr Token für das Reasoning als für die Antwort selbst generieren. Eure Eigenbrötelei verursacht unnötige Klimaschäden.
Drittens wäre es nur fair, die Trainingsdaten zu veröffentlichen, denn es sind nicht eure Daten. Der Code beispielsweise, mit dem ihr eure Modelle trainiert und der für das Reasoning essenziell ist, stammt aus Open-Source-Projekten. Bei vielen der Daten ist zudem rechtlich unklar, ob sie überhaupt zum Training verwendet werden dürfen. Und weil ihr nicht offen zugebt, welche Daten ihr genau nutzt, wird es noch lange Rechtsunsicherheit geben.
Viertens wäre es hilfreich bei der Nutzung. Mit einem Blick in die Trainingsdaten wäre man beim Prompt Engineering weniger blind und könnte gezielter ausprobieren: Wie formatiert man am besten eine Tabelle in einer Anfrage? In Markdown, HTML oder LaTeX? Sind Umbrüche und Einrückungen hilfreich, schädlich oder nur eine Verschwendung von Token? Google veröffentlichte jüngst seine Gemma-3-Modelle als Open Weights. Die Modelle sollen angeblich Function Calling beherrschen; was fehlt, ist eine Anleitung, wie das genau geht. So wie man in der klassischen Softwareentwicklung sagt, dass die Wahrheit im Code liegt, liegt sie bei KI-Modellen in den Trainingsdaten und im Trainingscode.
Zu seinem neuen Reasoning-Modell QwQ-32B verrät Alibaba, dass beim Reinforcement Learning der generierte Code durch Softwaretests auf Korrektheit überprüft wurde. Ich könnte mir gut vorstellen, dass eine Open-Source-Community hier einen wertvollen Beitrag leisten könnte, um mehr Programmiersprachen abzudecken oder die Bewertung durch Qualitätsmetriken zu verfeinern. Gerade wir Älteren, für die KI noch neu und Python nicht die bevorzugte Programmiersprache ist, könnten hier die nächste Generation unterstützen.
Und noch etwas: Bitte veröffentlicht eure Daten und euren Code nicht nur auf Hugging Face und GitHub, sondern macht das gleich als Open-Source-Projekt an einem herstellerunabhängigen Ort, zum Beispiel bei der Apache Foundation oder der Eclipse Foundation. So ist es für andere attraktiver, sich zu beteiligen, und es verschwindet nichts, wenn eine Firma aufgekauft wird oder es sich anders überlegt. Open Source ist so viel mehr als Freeware, für uns alle. Ich hoffe, ihr seid dabei!
(mai)