Leak: Metas GPT-Herausforderer LLaMA als Torrent verfĂĽgbar
Jemand hat offenbar das nicht öffentliche Sprachmodell LLaMA als Torrent bereitgestellt. Ein Link findet sich schon im offiziellen Repository von Meta.
Das eigentlich nur auf Anfrage erhältliche Sprachmodell LLaMA ist als Torrent verfügbar. Zu dem geleakten Modell existiert ein eigenes GitHub-Repository, und sogar in Metas offiziellem Repository findet sich der Link. Eigentlich gibt die Facebook-Mutter den Zugriff auf LLaMA nur nach einer Registrierung für ausgewählte Zielgruppen frei.
Meta hat LLaMA (Large Language Model Meta AI) Ende Februar als Konkurrenten zu Sprachmodellen wie GPT-3 von OpenAI und PaLM (Pathways Language Model) von Google ins Rennen geschickt. Laut dem KI-Team bei Meta, das ein Paper zu LLaMA veröffentlicht hat, schneide es in vielen Benchmarks deutlich besser ab.
Limitierter Zugang ausgehebelt
Wer Zugriff auf das Modell haben möchte, muss allerdings offiziell ein Formular ausfüllen. Meta will zunächst den Zugang auf bestimmte Zielgruppen wie staatliche und zivilgesellschaftliche Forschungslabors sowie akademische Organisationen beschränken.
Meta begründet den limitierten Zugang im Facebook-KI-Blog mit den Risiken, die Sprachmodelle mit sich bringen. OpenAI hatte denselben Grund aufgeführt, um GPT-3 lange Zeit nicht öffentlich bereitzustellen. Die Sprachmodelle übernehmen beim Training mit von Menschen erstellten Texten nicht nur Wissen, sondern auch Vorurteile. Dieser Bias ist insgesamt ein Problem in Machine-Learning-Anwendungen. Ein prominentes Beispiel ist Microsofts Chatbot Tay, der 2016 rassistische und sexistische Vorurteile übernommen hatte. Auch GPT-3 hatte in seiner Anfangsphase Vorurteile gegen Muslime aus den Trainingsdaten übernommen.
Torrent mit Links auf GitHub
Nun ist das Sprachmodell jedoch geleakt: Jemand hat es mit den zugehörigen Gewichten als Torrent verteilt. Neben Informationen dazu auf Reddit und Twitter existiert ein eigenes Repository auf GitHub, das nach wenigen Tagen auf 1100 Stars kommt: llama-dl bietet neben Download-Hinweisen Informationen zu Einstellungen, die verbesserte Ergebnisse liefern sollen.
Der Link zum Torrent findet sich sogar im offiziellen LLaMA-Repository von Meta. GitHub-User ChristopherKing42 hat ihn als Pull Request #73 mit dem unverblümten Titel "Save bandwidth by using a torrent to distribute more efficiently" eingegeben. Im zugehörigen "Code" hat er die offizielle Anweisung, das Google-Formular auszufüllen, um den Torrent-Link ergänzt.
Es ist jedoch niemals ratsam, einen Torrent-Link zu verwenden, um offiziell nicht verfügbare Software herunterzuladen. Torrents aus unbekannten Quellen sind grundsätzlich nicht vertrauenswürdig. Auch wenn der Link laut Angaben auf Twitter, Reddit und GitHub scheinbar tatsächlich zu dem (oder zumindest einem) Sprachmodell führt, kann der Download zusätzlichen Schadcode enthalten.
(rme)