Deepseek greift nun auch noch KI-Bildgeneratoren an

Noch mehr Konkurrenz fĂĽr das Silicon Valley: Deepseek aus China kann auch mit Dall-E und Stable Diffusion mithalten.

In Pocket speichern vorlesen Druckansicht 333 Kommentare lesen
Deepseek Bilder

Deepseek generierte Bilder im Paper

(Bild: Deepseek)

Lesezeit: 2 Min.

Das chinesische KI-Unternehmen Deepseek, das gerade die KI-Welt und Börse zum Wanken bringt, veröffentlicht nun auch noch einen Bildgenerator beziehungsweise ein neues Modell aus der multimodalen Modellfamilie namens Janus. Janus-Pro soll es unter anderem mit dem Bildgenerator Dall-E 3 von OpenAI aufnehmen können.

Janus-Pro ist, wie auch die anderen KI-Modelle von Deepseek R1 und V3, als Open-Source unter MIT-Lizenz frei verfügbar. Man findet das neue Modell etwa bei Hugging Face. Janus-Pro ist der Nachfolger von Janus und deutlich größer und leistungsfähiger. Das Modell kommt mit den üblichen Fähigkeiten eines multimodalen Modells daher: Es kann Bilder erzeugen, aber auch verstehen und soll dabei sehr stringent bleiben können.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die im veröffentlichten Paper gezeigten Bilder sind fotorealistisch und können von der Qualität mit denen von Midjourney mithalten. Die tatsächliche Nutzung kann davon freilich abweichen. In den Bildern ist auch der Schriftzug "Hello" zu sehen. Schreiben ist eine schwierige Aufgabe für Bildgeneratoren. Janus konnte das offensichtlich noch nicht.

Deepseek beschreibt Janus-Pro als "neuartiges autoregressives Framework". In einigen Benchmarks soll die Version mit sieben Milliarden Parametern sogar die Leistung von Dall-E 3, Stable Diffusion XL und anderen Bildgeneratoren ĂĽbertreffen, schreiben die Autoren.

Die Veröffentlichung des multimodalen Modells kommt prompt rechtzeitig zum Hype um das chinesische Unternehmen. Die Modelle R1 und V3 haben für Unruhe im Silicon Valley und an der Börse gesorgt. Zahlreiche KI-Experten sowie der Großinvestor Marc Andreessen haben die Entwicklungen hochgelobt. Da die Modelle deutlich kostengünstiger trainiert wurden und dafür weniger KI-Chips nötig waren, sackte in der Folge der Börsenwert von etwa Nvidia deutlich ab.

Dabei ist nicht ganz klar, wie das chinesische Unternehmen die Qualität der Deepseek-Modelle erreicht. Es gibt Vorwürfe, man habe sich der Model-Destillation bedient und R1 und V3 mittels ChatGPT trainiert. Model-Destillation meint, dass man das Wissen eines großen Modells in ein kleinere überträgt. Darauf deutet hin, dass die Modelle manchmal geantwortet haben sollen, dass sie ChatGPT sind.

(emw)