Das Bard-Experiment: KI-Training ohne Bezahlung

Google hat sein Sprachmodell Bard in Deutschland gestartet. Noch sind die Antworten dĂĽrftig und der Datenschutz fragwĂĽrdig, wie unsere Analyse zeigt.

In Pocket speichern vorlesen Druckansicht 18 Kommentare lesen

(Bild: Midjourney)

Lesezeit: 5 Min.
Inhaltsverzeichnis

Nach der ersten öffentlichen Beta-Phase in den USA hat Google heute sein generatives Sprachmodell Bard auch in Deutschland gestartet. Unter bard.google.com kann es jeder ausprobieren. Die Nutzer zahlen nicht mit Geld, sondern mit ihren Daten.

Um Bard nutzen zu können, braucht man ein Google-Konto. Außerdem möchte Google genau wissen, wo man sich gerade aufhält. Als wir die Antwort verweigerten, lokalisierte uns Google immerhin in der richtigen Stadt.

Bevor man loslegt, sollte man sich das Kleingedruckte in den Nutzungsbedingungen genau durchlesen. Bard legt wie ChatGPT eine Historie mit Chatverläufen an. Standardmäßig bleiben diese 18 Monate bei Google gespeichert. Man kann den Zeitraum ändern, aber nie ganz abschalten.

Auch wenn man die Aufzeichnung ausschaltet, bleiben die Chats 72 Stunden gespeichert, damit Google sie überprüfen kann. Alle Ein- und Ausgaben können von Google-Mitarbeitern eingesehen und überprüft werden. Damit will der Konzern eventuellen Missbrauch aufdecken und verfolgen. Dazu gibt es den Hinweis, dass man keine Daten hochladen soll, die einen Personenbezug haben oder sensible Details enthalten. Ob das tatsächlich den Anforderungen der Datenschutzgrundverordnung genügt, müssen Richter entscheiden. Rechtliche Auseinandersetzungen sind hier vorprogrammiert.

In einem weiteren Dokument erklärt James Manyika, was Bard ist und was nicht. Der wichtigste Punkt ist, dass die Antworten von Bard, wie bei anderen Sprachmodellen auch, nicht determiniert sind. Jede neue Anfrage kann zu anderen Antworten führen. Das ist erwünscht, weil die generierten Texte sonst zu langweilig werden, argumentiert Manyika. Bei anderen Sprachmodellen kann man den Parameter "Temperatur" ändern. Ich habe Bard gefragt, ob man bei ihm auch die Temperatur ändern kann. Der Sprachbot verneinte dies, da er kein physisches Wesen sei und keine Körpertemperatur habe.

Auch sonst gab Bard relativ wenig Auskunft ĂĽber sich. Es bleibt unklar, mit welchen Textkorpora das Modell trainiert wurde und bis zu welchem Zeitpunkt das Trainingsmaterial zurĂĽckreicht. Auf Nachfrage konnte er auch keine Quellen fĂĽr seine Aussagen nennen. Immerhin hat er Olaf Scholz als aktuellen Bundeskanzler erkannt, ChatGPT mit GPT 3.5 lebt gedanklich noch in der Merkel-Ă„ra.

Ich erspare mir an dieser Stelle die lustigen Beispiele für falsche Antworten, die Bard in Hülle und Fülle produziert. Mit denen wird man in den nächsten Tagen und Wochen auf Twitter und Whatsapp noch zur Genüge bombardiert (oder hier im Forum). Google weiß genau, dass Bard eine Bullshit-Maschine ist. Wie jedes generative Sprachmodell kann Bard nicht zwischen wahren und falschen Aussagen unterscheiden.

Ein Grund für das heute gestartete Experiment ist daher, die Qualität der Antworten zu verbessern. Die Nutzer können die Antworten von Bard mit einem Daumen hoch oder einem Daumen runter bewerten. Außerdem bietet Bard manchmal drei verschiedene Antwortmöglichkeiten an. Durch die Reaktionen der Nutzer soll Bard lernen, was gute und was schlechte Antworten sind. Hier findet also ein kostenloses Crowdsourcing statt: Die Nutzer verfeinern Bard, ohne dass Google sie dafür bezahlt.

Das zweite kostenlose Training, das die Nutzer dem Sprachmodell zukommen lassen, sind die Wort- und Inhaltsfilter. Ähnlich wie ChatGPT filtert Bard Themen aus, die Google als anstößig oder heikel definiert. Das fordert natürlich heraus, diese Filter mit ausgeklügelten Prompts zu umgehen. Auch mit diesen Diskussionen trainieren die Nutzer das Modell. Und offiziell dürfen nur Erwachsene ab 18 Jahren den Sprachbot nutzen, solange die Filter von Bard nicht Googles Qualitätskriterien entsprechen.

Lehrer haben also eine Hürde, wenn sie Bard zum Beispiel im Schulunterricht einsetzen wollen. Thematisieren sollten sie die Sprachmodelle auf jeden Fall und die Schüler über die Grenzen und Fehler in den Antworten aufklären.

Da Google um die hohe Fehlerquote bei Wissensabfragen weiß, empfiehlt es einen kreativen Umgang mit dem Sprachmodell. Auch ChatGPT ist dafür geeignet und kann beispielsweise Gedichte oder Songtexte zu vorgegebenen Themen oder Stichwörtern reimen. Bard schreibt zwar auch Songtexte. Die Zeilen reimen sich aber auch nach mehreren Aufforderungen nicht. Hier wird man noch experimentieren müssen, um einen kreativen Nutzen des Sprachmodells zu finden.

Google hat zwar die Hoffnung, die derzeitigen Probleme durch fleiĂźiges Training in den Griff zu bekommen. Die bisherigen Erfahrungen lassen jedoch Zweifel aufkommen, ob es ĂĽberhaupt eine gute Idee ist, generative Sprachmodelle an Suchmaschinen zu koppeln, um diese zu befragen.

Weil die Antworten zu schlecht waren, hat OpenAI die Anbindung von ChatGPT an Bing inzwischen wieder entfernt. Und auch bei den Plug-ins, die man zu ChatGPT hinzufügen kann, bringt der generative Teil des Sprachmodells immer wieder neue Fehlerquellen ins Spiel. Diese zu überprüfen kostet oft mehr Zeit, als der Einsatz der KI zunächst einspart.

(hag)