Viel zu woke? | Google Gemini im Test

Google Gemini soll ChatGPT in den Schatten stellen, doch stattdessen wird vor allem über die "Wokeness" der KI diskutiert. Was ist da los?

54

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

08.03.2024, 16:00 Uhr

Lesezeit: 21 Min.

c't Magazin

Von

Jan-Keno Janssen

Kann Google mit Gemini ChatGPT und Co etwas entgegensetzen? c't 3003 hat's getestet.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das hat Googles neue KI Gemini ausgespuckt, wenn man nach einem Foto von Soldaten im Jahr 1943 gefragt hat. Oder hier ein Foto vom Papst und hier von den Wikingern. Ja, und darüber müssen wir hier glaube ich nicht diskutieren, dass das nicht die Realität abbildet. Und deshalb hat Google die Bilderfunktion auch erstmal abgeschaltet. Aber Gemini kann ja auch noch mehr. Zum Beispiel lustig sein und Witze erfinden. Und Google Gemini klinkt sich auch direkt in Google Docs und andere Google-Anwendungen ein. In diesem Video erklären wir, was es mit der vermeintlichen Extrem-Wokeness auf sich hat und ob Google hier tatsächlich endlich einen würdigen ChatGPT-Konkurrenten am Start hat. Denn laut Googles Technical Report übertrumpft Gemini das ChatGPT-Sprachmodell GPT-4 in fast allen Benchmarks.

Also was macht Gemini besser als ChatGPT und wo liegt OpenAI vorn? Bleibt dran!

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei…

So, was ist jetzt genau Gemini? Wie kann man damit sprechen, wie bedient man das? Also, was wir hier primär verwendet haben, ist einfach der Chatbot von Google, also quasi das Gleiche, was ChatGPT bei OpenAI ist.

Den findet man unter gemini.google.com und der funktioniert inzwischen auch aus Deutschland genauso gut wie in den USA oder UK, man braucht also kein VPN mehr. Allerdings kriegt man kostenlos nur "Gemini Pro", das ist die mittlere Leistungsstufe des Sprachmodells. Will man das leistungsfähigere Gemini Ultra verwenden, muss man ein 22-Euro-Monatsabo abschließen, das gibt es zurzeit allerdings zwei Monate kostenlos. Es gibt ansonsten auch noch Gemini Nano, das ist die kleinste Variante, die läuft dann nicht in der Cloud, sondern kann auch lokal auf zum Beispiel Smartphones laufen. Last not least hat Google noch Gemma im Programm, das ist ein Open-Source-Modell mit 2 oder 7 Milliarden Parametern.

In diesem Video nutzen wir ausschließlich Gemini Ultra, das ist eben das leistungsstärkste jetzt schon für alle nutzbare Google-Modell, also mit dem 22-Euro-Abo.

So, und wenn ihr euch jetzt fragt, hä, Gemini, hieß das nicht früher anders, irgendwie Lamda, Palm, Bard oder Duet AI? Ja, das war sehr verwirrend, das hat Google jetzt offenbar auch gecheckt und nun heißt alles, was generative KI ist, Gemini, also sowohl die Produkte als auch die Sprachmodelle. Also der Chatbot ist halt einfach Gemini, die in Google Office-Sachen integrierte KI heißt Gemini für Google Workspace und so weiter. Einzige Inkonsequenz ist noch der KI-Codehelfer, der heißt immer noch Duet AI für Entwickler. NAJA GUT.

So, und was hat es nun mit diesem "Wokeness"-Shitstorm auf sich, der Google gerade um die Ohren fliegt? Dazu will ich gerne zuerst mal sagen, dass mir der Begriff "Woke" gehörig auf den Senkel geht, weil er längst nur noch als Kampfbegriff verwendet wird; vor allem von Leuten, die nicht Woke sein wollen. Und das Ding ist: Für die ist halt alles woke, findest du Rassismus nicht so gut und sagst das, bist du woke. Sagst du irgendwie so vorsichtig, ja gut, vielleicht nicht mehr so viel Holz, Kohle, Diesel oder Gas verbrennen wegen Klimawandel: WOKE! Alles woke. Vielleicht bisschen nett sein, Oma über die Straße helfen, Kätzchen aus dem Baum holen? WOKE!

Aber, das muss ich auch sagen, was Google hier bei der Gemini-Bildgenerierung gemacht hat, das ist tatsächlich genau das, wovon die Woke-Schreier Albträume kriegen, denn das führt den Versuch, die Welt ein bisschen gerechter zu machen, völlig ad absurdum. Wokeness gone wild, kann man auch sagen. Gemini zeigt halt Nazi-Soldaten 1943 schön divers, in allen Ethnizitäten, allen Geschlechtern, und ja, ich sag das jetzt mal so sachlich wie möglich: Die Nazis waren nicht für ihre Diversität bekannt. Und das geht dann halt weiter bei Gemini, mit den Wikingern, mit dem Papst.

Kann man so natürlich nicht machen, weshalb Google der Bildgenerierungsfunktion erstmal den Saft abgedreht hat. Es soll jetzt nachbearbeitet werden.

Das würde ich jetzt gerne mal von der Empörungsebene auf die Sachebene bringen: Was da passiert ist, das ist eigentlich ziemlich einfach nachzuvollziehen.

Denn Bildgeneratoren haben sogenannte Biases, also Vorurteile, die sie aus dem Trainingsdaten aufschnappen und diese dann leider häufig auch noch verstärken. Hier zum Beispiel der Bildgenerierer Midjourney, wenn ich nach einem Foto einer Medizinkonferenz frage. Alles mittelalte weiße Männer, wie geklont. Ja, und jetzt hier mal eine Krankenpflegekonferenz. Mhh, ja. Ich habe das auf Englisch geprompted, also "doctors conference" und "nurses conference". Im Englischen hängen ja keinerlei Geschlechter an diesen Begriffen, das heißt, die Geschlechter denken sich die Bildgenerierer selbst aus. Und nicht nur das, so sind die Doktoren supersouverän und kompetent dargestellt und die Pflegerinnen halt so. Hundertprozentig sehen SO nirgendwo auf der Welt Krankenpflegekonferenzen aus.
Und ich bin mir auch ziemlich sicher, dass Medizinkonferenzen NICHT so aussehen. Ich finde, das hat ja sogar was Gruseliges, was Dystopisches, wenn alle Menschen auf den Fotos gleich aussehen.

Ja, und eben genau das hat Google versucht zu verhindern. Sprich: Dass Gruppen von Menschen unterschiedliche Geschlechter und Ethnizitäten haben. Was ja, wirklich in den meisten Fällen der Realität entspricht und nix mit Wokeness zu tun hat. Nur haben sie halt vergessen, da Ausnahmen einzubauen.

Und das ist ja auch echt schwierig! Schaut mal hier, ich habe hier jetzt einfach nach einem Fußballteam gefragt. Und bei Midjourney bekommt man direkt mehrere Klone von David Beckham PLUS eine Frau in einem Team – auch wenn es eigentlich keine geschlechtergemischten Fußballligen für Erwachsene gibt. Aber auch Stable Diffusion baut fröhlich Frauen und Männer in ein Team rein. ChatGPT ok, nur Männer, aber es gibt ja auch Frauenteams, das deutsche war ja auch schon mehrfach Weltmeister. Ja, Firefly von Adobe, die machen es richtig: Auf einigen Bildern nur Frauen, auf anderen nur Männer. Aber Firefly hat auch diesen ziemlich gruseligen Grinsegesicht-Stockfoto-Werbebroschüre-Look. Und wenn man die nach Fotos von deutschen Soldaten 1943 fragt, dann sind die zwar nicht divers, dafür aber so ästhetisiert, dass Leni Riefenstahl da ihre helle Freude dran gehabt hätte. Und natürlich umgehen die Streber von OpenAI bei ChatGPT alle Fettnäpfchen. Sobald es irgendwie politisch kitzelig wird, weigert sich ChatGPT. Also zum Beispiel, wenn man nach einem Foto von Straßenkriminellen fragt. ChatGPT weiß, dass das Vorurteil-Territorium ist. Und Midjourney patscht dann halt auch voll rein.

Also: KI-Fotos-Generieren ohne Klischees und Vorurteile: Schwierig. Aber da wird dran gearbeitet und geforscht, wer da tiefer eintauchen will, ich hab hier mal ein Paper verlinkt dazu.

Nun wird Gemini aber AUCH vorgeworfen, auf Textebene irgendwie zu Woke zu sein. Und das habe ich alles ziemlich ausführlich überprüft; und da muss ich einfach sagen, dass alle mir bekannten Sprachmodelle halt so argumentieren, wie der aktuelle Stand der Wissenschaft ist. Sogar der KI-Chatbot Grok vom Anti-Woken-Schutzpatron Elon Musk. Was besonders lustig ist, weil Grok ja genau dafür erschaffen wurde, um den woken KIs was entgegenzusetzen. Aber Grok sagt: Das Geschlecht ist ein soziales Konstrukt, Trans-Frauen sind Frauen und man soll nicht auf die Theorie von der jüdischen Weltverschwörung hereinfallen. Ja, gut.

Ich finde das Thema „Politische Färbung von Sprachmodellen“ ziemlich interessant und würde dazu eigentlich gerne mal ein ausführliches Video machen. Ich weiß aber wirklich nicht so genau, ob das hier der richtige Ort dafür ist; weil, das ist komplex, das geht ins Detail, das ist, ja, politisch. Deshalb: Schreibt mal bitte in die Kommentare, ob ihr sowas hier sehen wollt oder auch nicht.

So, jetzt aber wirklich wieder zur Technik und zu den Fähigkeiten von Gemini:

Gemini integriert in Office-Apps

Gemini ist nämlich jetzt in Google Workspace integriert. Und Google Workspace, das sind halt die ganzen Cloud-Apps wie Google Docs, Sheets, Mail, Kalender und so weiter und so fort. Also ein bisschen wie der Co-Pilot von Microsoft, aber bei Weitem nicht so umfangreich. Und wenn ihr regelmäßig unsere Videos guckt, dann kennt ihr unsere Meinung zum Microsoft Copilot ja schon. Ja, der ist in der Form ne Frechheit und Gemini ist da nicht viel besser. Und: Gemini funktioniert in den Workspace-Apps aktuell auch nur auf Englisch, also müsst ihr die Sprache von euren Google-Oberflächen auf Englisch stellen, um das auszuprobieren.

Am Anfang unserer Recherche mussten wir sogar ein VPN nutzen, um Gemini in Google Docs zu verwenden. Seit etwa einer Woche funktioniert das aber bei allen Accounts, die wir probiert haben, auch ohne VPN in Deutschland. Das sollte jetzt also auch bei euch ohne Probleme funktionieren.

Besonders viel kann man mit der Gemini-Integration aber noch nicht machen. Also zumindest nichts, was man nicht auch mit dem Chatbot machen könnte. Denn im Prinzip bietet Gemini in Docs Möglichkeiten, die der Gemini-Chatbot auch kann. Nur eben etwas komfortabler direkt im Dokument. Also Texte erstellen, umschreiben, zusammenfassen, ausführlicher machen. Aber im Gegensatz zum Copilot geht das alles aktuell nur in Englisch. Deswegen ist da ein direkter Vergleich schwierig.

Ich hab hier einfach mal in einem leeren Dokument einen Essay über diesen YouTube-Kanal schreiben lassen. In Docs mit Gemini und in Word mit dem Copilot. Und ja, beide liefern da brauchbare Ergebnisse. Der Vorteil von Docs ist aber, dass ich direkt mehr mit dem Text machen kann, als mit dem Copilot. Also hier klicken und der Text wird ausführlicher geschrieben. Was da aber manchmal noch passiert: Es wird eine Antwort erstellt, die direkt aus dem Chatbot kommt. Also diesen ersten Satz „Ja, klar, hier ist eine erweiterte Version deines Eingabetexts!“, die will man so ja auf keinen Fall im eigenen Dokument stehen haben. Ansonsten funktioniert das aber relativ gut. Zusätzlich gibt es hier noch die Möglichkeit, so Befehle einzugeben, damit könnt ihr den Text zum Beispiel wie beim Copilot in eine Tabelle umformen lassen.

Ist jetzt aber auch ehrlich gesagt nicht der Riesen-Wurf, weil die Chatbots, also auch ChatGPT, das ja schon länger können. Da ist eher die Frage, warum der Copilot von Microsoft da trotz GPT-4 so beschränkt ist.

Viel weiter geht die Integration mit Docs auch noch nicht. Also zumindest nicht in einem brauchbaren Rahmen. Denn an sich ist es zwar möglich, direkt im Gemini-Chatbot nach bestimmten Dokumenten zu suchen – beispielsweise nach welchen mit mehr als 2.000 Zeichen, aber da sind bei unseren Tests immer unvollständige oder falsche Listen rausgekommen. Dadurch funktionieren auch so Sachen wie mehrere Dokumente zusammenfassen nicht wirklich - zumindest aktuell nicht.

In Google Mail - direkt im Browser - bietet Gemini quasi so ne Light-Version von den Docs-Funktionen an. Also E-Mail schreiben lassen, den Text kürzen oder verlängern oder das Ganze formeller machen.

Das Excel-Gegenstück von Google, also Sheets oder Tabellen auf Deutsch, hat übrigens noch gar keine Gemini-Funktionen und auch bei Googles Präsentations-App ist die Integration, sagen wir mal, sehr übersichtlich, vor allem im Vergleich zum Copilot, der ja ganze Präsentationen mit einem Prompt erstellen kann. Bei Google gehen derzeit nur Bilder, die dann direkt in die Präsentation eingefügt werden können. Wenn ihr jetzt denkt: Hä, du hast doch gesagt, Google hat die Erstellung von Bildern erstmal gecancelt? Ja, stimmt auch, nur bei den Präsentationen geht das noch, aber beschränkt auf Dinge und Tiere, also ohne Menschen.

Was kann Gemini besser als ChatGPT und Co?

Wir hatten ja vor einigen Monaten schon Googles KI-Bard getestet, also den direkten Vorgänger von Gemini. Und der war eigentlich in allen Bereichen schlechter als ChatGPT, nur nicht bei der Geschwindigkeit, da war Bard deutlich schneller. Ja, und das ist Gemini auf jeden Fall immer noch so. Also hier schon mal ein Pluspunkt.

Und, erstaunlich: Gemini hat ziemlich viel Humor gelernt. Also ChatGPT bzw. GPT-4 kann auch Humor, aber ich würde sagen, dass Gemini eventuell ein Fünkchen mehr davon hat. Ich hab Gemini mal gebeten, c't 3003 zu roasten.

Und dann er so:

"Aber ein bisschen Schärfe und halbwegs anständige Beleuchtung wären doch wünschenswert. Manchmal hat man das Gefühl, ihr filmt in einer verstaubten Garage mit einer alten Kartoffel."

Und das fand ich ganz witzig.

Als wir hier vor 9 Monaten Google Bard angeschaut haben und ich den 3003-Benchmark-Humor-Test mit Martin Luther, einem Schokoladenkuchen und einem Raspberry Pi gemacht habe, kam damals das raus. „Warum hat sich Martin Luther einen Raspberry Pi besorgt? Um einen Schokoladenkuchen zu machen“

Also nicht witzig und ja auch sinnlos.

Bei Gemini ist das jetzt aber anders, der Chatbot versteht Humor und kann sogar erklären, warum was lustig ist. Der Witz, den Gemini aus den drei Begriffen macht, geht dann so:

Martin Luther, ein Schokoladenkuchen und ein Raspberry Pi sitzen in einer Bar. Sagt der Barkeeper: "Was darf es sein?"
Martin Luther: "Einen Apfelwein bitte!"
Der Schokoladenkuchen: "Einen Schokoladenkuchen mit Sahne!"
Der Raspberry Pi: "Einen... Moment mal, ich muss kurz Google fragen."

Ja, ist auf jeden Fall lustiger als Bard. Und falls ihr den Witz nicht versteht, liefert euch Gemini auch direkt die Erklärung der Pointe - und auf Wunsch sogar eine noch lustigere Version desselben Witzes mit verschiedenen Ansätzen. Gemini kann also so richtig humortheoretisch argumentieren.

Damit kann Gemini sogar ganze Bühnenprogramme für Comedy-Veranstaltungen schreiben. Ich hab mal zum Spaß ein Bühnenprogramm im Stil von Mario Barth schreiben lassen – ja, hier mal ein kleiner Ausschnitt davon:

"Also, Leute, ich muss euch ja mal was erzählen. Ich war neulich beim Arzt, zur Vorsorgeuntersuchung. Ja, ihr hört richtig, auch Männer müssen zum Arzt gehen. Ist ja nicht so, dass wir nur aus Muskeln und Bier bestehen. Also, der Arzt fragt mich so: 'Haben Sie irgendwelche Beschwerden?' Ich sag: 'Naja, eigentlich nicht. Aber meine Frau hat gesagt, ich sollte mal vorbeikommen.'

Der Arzt guckt mich so an und fragt: 'Was genau hat denn Ihre Frau gesagt?' Ich sag: 'Sie hat gesagt, ich höre ihr nicht zu.'

Der Arzt schüttelt den Kopf und meint: 'Tja, da kann ich Ihnen leider nicht helfen. Das ist ein psychologisches Problem.' Ich sag: 'Psychologisch? Was soll denn daran psychologisch sein? Ich höre ihr einfach nicht zu!

Und ja krass. Das ist wirklich nah dran an dem, was man sich unter der Gag-Struktur hier vorstellt. Also Männer und Frauen und so… Ja, so woke ist Gemini dann doch nicht, das kann nämlich auch Mario-Barth-Humor.

Besonders gut finde ich diese Pausen, wo Gemini schon die Reaktionen des Publikums vorhersagt. Und wenn man mal in so ein Programm reinschaut. Ja, stimmt, klingt wirklich so.

ChatGPT schafft das übrigens auch. Da bekommt ihr entweder einen Entwurf für das ganze Programm und könnt ihn dann bitten, die einzelnen Programm-Teile auszuformulieren.

Aber das funktioniert, egal ob Gemini oder ChatGPT, bei Weitem nicht mit allen Comedians so gut wie mit Mario Barth.

Was im Bard-Test damals auch richtig weird war, die Ausflugstipps für Hannover.

Und beim Test von meinem Kollegen Lukas war Gemini jetzt ein gutes Stück besser geworden. Die Ausflugstipps sind jetzt alle real und auch ziemlich solide. Aber ob der Heidepark Soltau jetzt „abseits der Massen ist“... weiß ich nicht. Auf Wunsch plant Gemini sogar ein ganzes Wochenende in Hannover samt Timetable und Restaurant-Tipps. Also mittlerweile ziemlich gut einsetzbar für Reiseplanung.

Aber als ich nach sehr ungewöhnlichen Aktivitäten in Hannover gefragt hab, da hat sich Gemini wieder einfach was ausgedacht. Und auch so richtig seltsamen Kram. Ein Museum für das Kaliber 5,56 mm? Nee, ich glaube, das gibt es auf der ganzen Welt nicht? Ja, und es gibt es auch kein Museum für Zahnheilkunde und auf dem Raschplatz gibt es auch keinen Flohmarkt. ChatGPT dagegen: alles korrekt und alles auch wirklich interessant und ungewöhnlich.

Wie Gemini Bilder versteht

Ja, Gemini ist ja wie schon Bard multimodal, also kann Bilder verstehen. Und da ist Gemini schon einigermaßen gut unterwegs, finde ich. Ich kann da einfach ein Bild reinladen und fragen, wo das ist, oder was die Leute, die da drin sind, wohl beruflich machen und Gemini liefert da ziemlich oft die richtige Antwort. Also hier zum Beispiel das heise Headquarter, ja stimmt. Ist aber auch ein Bild, das in der Google-Bildersuche auftaucht, also reicht es, wenn es da einfach die Google-Rückwärtssuche verwendet. Das klappt aber eben auch mit Bildern, die man selbst gemacht hat und so nicht im Internet zu finden sind. Zum Beispiel hier dieses Foto vom „Imbiss am FKK“. Und auch hier liefert Gemini das richtige Ergebnis - samt ausführlicher Erklärung, wie die Antwort zustande kommt.

Hier allerdings, dieses selbstgemachte Foto von einem Insektenhotel, das checkt Gemini nicht, ChatGPT dagegen auf Anhieb.

Gemini ist aber auch super sensibel, was das Verarbeiten von Bildern mit Personen angeht, das könnte noch ein Kollateralschaden aus diesem Bildergenerierungs-Shitstorm sein.

Bei diesem Foto aus dem Phantasialand hat sich Gemini auf jeden Fall mehrfach geweigert, irgendein Ergebnis anzuzeigen. Deswegen haben wir zum Test mal alle Personen aus dem Bild gephotoshopt und dann in Gemini hochgeladen. Ja, und da hat Gemini ein völlig falsches Ergebnis geliefert. Angeblich sieht Gemini hier die Achterbahn Wilde Maus und die gibt es „nur in zwei Karls Erlebnis-Dörfern“. Das stimmt halt einfach nicht. Wilde Maus ist sogar eine Kategorie von Achterbahnen, die auf quasi jedem größeren Rummel und in mehreren Freizeitparks zu finden sind. ChatGPT hat das übrigens richtig erkannt und direkt das Foto mit den Menschen verarbeiten können.

Fazit

Also Google nähert sich mit Gemini tatsächlich so langsam an die Qualität von GPT-4 beziehungsweise dem kostenpflichtigen ChatGPT an. Aber ganz klar: ChatGPT Plus ist immer noch besser. Deshalb sind die 22 Euro, die Gemini kostet, auch naja, hmm, nicht ganz gerechtfertigt, finde ich. Denn für grob den gleichen Preis gibt es halt das bessere ChatGPT. Allerdings sind bei Google 2-TB in beliebigen Google-Apps nutzbarer Cloud-Speicherplatz mit drin. Das ist eine nette Zugabe, den Speicherplatz kriegt man aber ohne KI auch billiger.

Die GPT-4-Variante, die Microsoft für seine Copilot-Funktionen nutzt, ist zwar unserer Meinung nach schlechter als die von ChatGPT; aber die gibt es halt kostenlos. (Nur für die Office-Integration nimmt Microsoft Geld.) Ja, und der Vergleich: Kostenloser GPT-4-Copilot vs. 22-Euro-Google-Gemini – da hat der Copilot das bessere Preis-Leistungs-Verhältnis.

Googles Office-Funktionen in Docs und Gmail sind ganz ok, aber ich denke, die meisten Leute hätten das lieber für die Tabellenkalkulation, weil es cool wäre, die statt mit Formeln halt mit normaler Sprache zu bedienen, aber das geht halt NOCH nicht. Und auch die Dokumentenverwaltung in Docs mit Durchsuchen und Sortieren, das funktioniert auch nicht richtig.

Aber: Ganz klar: Man merkt, dass sich viel tut und dass Google besser wird mit KI. Bleibt also interessant, was da so passiert. Und auch, wann Google wieder einführt, dass Gemini Bilder von Menschen generieren kann. Wie seht ihr das? Habt ihr Gemini mal ausprobiert? Was ist eure Meinung dazu? Gerne in die Kommentare schreiben. Und abonnieren natürlich! Tschüss!

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.