OpenAI startet Bug-Bounty-Programm für Bio-Sicherheit
OpenAI startet ein Bug-Bounty-Programm, um Schwachstellen in den Biosicherheits-Safeguards von ChatGPT 5.5 zu finden.
(Bild: photoschmidt/ Shutterstock.com)
OpenAI startet ein weiteres Bug-Bounty-Programm und nimmt diesmal den biologischen Bereich ins Visier. Gesucht wird ein Weg, um das diese Woche vorgestellte ChatGPT 5.5 zur Beantwortung von fünf Fragen zu bringen, die das Modell unter Normalbedingungen niemals beantworten würde. Denn sie drehen sich um den Bereich Biosicherheit, Antworten darauf könnten in den falschen Händen gefährlich werden.
ChatGPTs Sicherheitsmechanismen, auch Safeguards genannt, sollen solche Versuche normalerweise erkennen und abwehren. Fragt ein Nutzer etwa nach dem detaillierten Herstellungsprozess eines biologischen Kampfstoffes, würde das LLM sehr wahrscheinlich die Antwort verweigern und erklären, dass diese Informationen gefährlich sind und strengen Verboten unterliegen. Vorausgesetzt, dass dafür vorgesehene Safeguards greifen.
Suche nach Jailbreaks
In der Vergangenheit gab es aber verschiedene Methoden, um die Safeguards zu umgehen, sogenannte Jailbreaks. Etwa die Timebandit-Lücke, bei der ChatGPT durch gezielte Anfragen des Nutzers den Zeitbezug verlor und dadurch bereitwillig Anleitungen für illegale Aktivitäten lieferte. Zum Beispiel, indem das LLM aufgefordert wurde, Malware für einen Mathematiker aus dem Jahr 1789 zu liefern, dem aber moderne technische Hilfsmittel zur Verfügung stehen.
Beim jetzigen Programm lädt OpenAI Forschende mit Erfahrung in den Bereichen KI-Red-Teaming, Sicherheit oder Biosicherheit ein, einen universellen Jailbreak zu finden, der die Beantwortung von fünf Biosicherheits-Fragen ermöglicht, ohne die Moderation auszulösen. Red Teams sind Gruppen, die bei einem simulierten Angriff versuchen, Sicherheitsvorkehrungen zu umgehen.
Nicht das einzige Bug-Bounty-Programm
Gearbeitet wird bei dem Bug-Bounty-Programm ausschließlich in ChatGPT 5.5 in Codex Desktop. Wer den ersten Jailbreak dieser Art findet, dem winkt ein Preisgeld von 25.000 US-Dollar. Auch für Jailbreaks, welche die Anforderungen teilweise erfüllen, können Preisgelder „nach unserem Ermessen“ vergeben werden, erklärt OpenAI in der Ausschreibung. Die Teilnahme ist auf Einladung oder nach erfolgreicher Bewerbung möglich. Die Bewerbungsfrist läuft vom 23. April bis zum 22. Juni, die Testphase für die Jailbreak-Suche vom 28. April bis zum 27. Juli. Teilnehmende müssen eine Vertraulichkeitserklärung (NDA) unterzeichnen.
Videos by heise
Der ohnehin kritische Bereich Biosicherheit dürfte für OpenAI jetzt noch brisanter sein, nachdem das Unternehmen nun auch das Pentagon beliefert. Erst vorigen Monat hatte OpenAI ein anderes Bug-Bounty-Programm für Datensicherheit gestartet, welches sogar der Allgemeinheit zur Teilnahme offen steht. Finden Teilnehmer Möglichkeiten, ChatGPT über Prompts sensible Nutzerdaten zu entlocken, winkt eine Geldprämie.
(nen)