YouTube-Videos zum KI-Training: Apple Intelligence ohne Daten aus "The Pile"

Apple soll zu den Unternehmen gehört haben, die die umstrittene Trainingsdatenbank The Pile nutzten. Der Konzern dementiert für seine neue KI.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Logo und Icon von Apple Intelligence

Logo und Icon von Apple Intelligence.

(Bild: Apple)

Lesezeit: 2 Min.

Apple Intelligence wurde nicht mit der freien Datenbank The Pile trainiert, in der Untertitel tausender YouTube-Videos stecken, ohne dass deren Erschaffer gefragt worden wären. Das teilte der Konzern gegenüber dem Apple-Blog 9to5Mac mit. Zwar hatte das Unternehmen in einem wissenschaftlichen Paper zu seinen Hocheffizienzmodellen der OpenELM-Serie geschrieben, man nutze den Datensatz. Allerdings sei OpenELM eben kein Teil der vom Unternehmen verwendeten KI-Systeme, inklusive Apple Intelligence oder anderer Technik aus dem Bereich des maschinellen Lernens.

Laut 9to5Mac sagte Apple, man habe OpenELM als einen Beitrag zur KI-Forschung und der Voranbringung von Open-Source-Sprachmodellen entwickelt. Der Konzern bezeichnete die Technik damals als "hochmodernes offenes Sprachmodell". OpenELM sei aber nur zu Forschungszwecken entwickelt worden, nicht um irgendwelche Apple-Intelligence-Funktionen zu betreiben. OpenELM steht weiterhin auf Apples KI-Forschungswebsite zur Verfügung.

Kritik am Trainingsdatensatz "The Pile", der von der Nonproift-Organisation EleutherAI stammt, war in einem Bericht von The Proof aufgekommen, laut dem auch andere große Firmen wie Nvidia, Anthropic oder Salesforce die Informationen nutzen. "The Pile" soll demnach unter anderem mit Untertiteln von 170.000 YouTube-Videos gefüttert worden sein. Dafür soll es keinerlei Genehmigung gegeben haben.

Welche und wie viele Trainingsdaten Apple für Apple Intelligence genau nutzt, ist nach wie vor nicht klar. Der Konzern gibt nur an, man nutze "lizenzierte Inhalte, darunter Daten, die spezifische Funktionen verbessern". Hinzu kommen jedoch auch Daten, die Apple selbst mit seinem Web-Crawler aus dem öffentlichen Internet zu haben scheint.

Betreiber von Websites müssen für das Opt-out den speziellen "Applebot-Extended" anweisen, die eigenen Inhalte zu ignorieren. Das Crawling von Websites durch den AppleBot (der nicht KI-Zwecken, sondern anderen Diensten dient) bleibt auch beim Opt-out bestehen, wenn es nicht gleichzeitig in der "robots.txt"-Datei abgelehnt wird, schreibt das Unternehmen auf Apple.com. Weiterhin ist bekannt, dass der Konzern persönliche Daten von Usern sowie "Nutzerinteraktionen" nicht ins Training einfließen lässt. Es gibt zudem Filter für Kreditkartendaten oder "Obszönität" plus Inhalte minderwertiger Qualität – wobei unklar ist, wie diese ausgeklammert werden.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(bsc)