Apple liefert Trainingsdaten für KI-Bild-Editierung mit Googles Nano Banana

Neues aus Apples KI-Forschungsabteilung: Mit Pico-Banana-400K und Googles Gemini-2.5-Pro samt Nano Banana sollen sich Bilder besser editieren lassen.

vorlesen Druckansicht
Nutzungsablauf von Pico-Banana-400K.

Nutzungsablauf von Pico-Banana-400K.

(Bild: Apple)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Die Research-Abteilung von Apple hat ein neues Paket an Trainingsdaten vorgelegt, das KI-Bildgeneratoren helfen soll, bessere Editierungen vorzunehmen. "Pico-Banana-400K" baut interessanterweise auf Googles Gemini-2.5-Pro samt dem beliebten Bildgenerator Nano Banana des Internetriesen auf und wurde mit diesem verifiziert. Der Datensatz enthält – wie der Name schon sagt – knapp 400.000 Text-Bild-Edit-Dreierpäckchen. Ziel sei es, die Forschung an textgesteuerten Bildveränderern zu erleichtern. Das heißt: Wenn man ein vorhandenes Bild mittels Prompt editieren möchte, soll das jeweilige Modell den Nutzer besser verstehen.

Laut dem Paper der Apple-Forscher erlaubt Pico-Banana-400K insgesamt 35 verschiedene Edit-Operationen über acht semantische Kategorien hinweg. Dabei soll fast alles abgedeckt sein, was man von Photoshop und darüber hinaus kennt – etwa Farbveränderungen bis hinunter in den Low-Level-Bereich, Stilveränderungen oder der Umbau ganzer Objekte und Szenen.

Videos by heise

Die Motivation für das Data Set sei, dass es den Forschern zufolge bislang an "großen, hochwertigen und frei zugänglichen Datensätzen aus echten Bildern" fehlt, die sich für derlei Modelle eignen. "Jüngste Fortschritte bei multimodalen Modellen haben bemerkenswerte textgesteuerte Bildbearbeitungsfunktionen gezeigt, wobei Systeme wie GPT-4o und Nano-Banana neue Maßstäbe setzen", schreiben die Forscher. Mit Pico-Banana-400K soll nun noch mehr gehen.

Pico-Banana-400K sei eine "robuste Grundlage für das Training und Benchmarking" neuer Modelle, schreiben die Forscher weiter. Das Paket ist auf Apples Servern gehostet und kann komponentenweise über Manifest-Dateien heruntergeladen werden. Etwas unschön: Apple sieht keine kommerzielle Nutzung vor. Stattdessen setzt der Konzern auf eine CC-BY-NC-ND-4.0-Lizenz. Das heißt: Nicht kommerzielle Anwendungen und Forschung ist zwar kostenlos erlaubt, nicht aber die Verwendung für Bezahlprojekte.

Auch eine Weiterverbreitung von Derivaten des Data Sets verbietet der Konzern. Die Bilder selbst wiederum sind allesamt CC-BY-2.0-Materialien, also kommerziell nutzbare Bilder, die jedoch eine Quellennennung bedingen. Verwender des Data Sets müssen sich verpflichten, beide Lizenzen einzuhalten – wobei Quellennennungen im KI-Bereich bekanntermaßen sehr schwer sind. Wie dies bei frisch generierten Bildern gehandhabt werden soll, ist unklar.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(bsc)