Die KI von Elon Musk | Grok getestet

Die KI von Elon Musk ist als Chatbot direkt in Twitter/X integriert. Wie gut das funktioniert, probiert c't 3003 im neuen Video aus.

In Pocket speichern vorlesen Druckansicht 27 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 19 Min.
Inhaltsverzeichnis

Grok ist das KI-Model von Elon Musk. Das kann entweder open-source benutzt werden oder ist als Teil von X-Premium für alle zahlenden Nutzer und Nutzerinnen verfügbar. Wir haben das Large-Language-Model auf die Probe gestellt und auch geschaut, ob Grok wirklich nicht so politisch korrekt antwortet. Das behauptet ja Elon Musk immer wieder selbst.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das ist die KI von Elon Musk. Also der Chatbot Grok, der als Teil von X-Premium den verbliebenen Twitter-Nutzern zur Verfügung steht. Also halt denen, die Abo-Gebühren bezahlen. Musk hat nämlich nicht einfach sowas wie GPT-4 in Twitter eingebunden, sondern seine eigene KI entwickelt. Die vor allem weniger politisch korrekt sein soll als GPT-4 und auch aktueller.

Und ich muss zugeben, dass ich das Ding lange nicht wirklich ernst genommen habe. Aber X.AI, die von Elon Musk gegründete KI-Firma, die auch Grok entwickelt, steht kurz davor, ganze 6 Milliarden US-Dollar einzusammeln. Also damit ist es jetzt nicht mehr komplett unrealistisch, dass X.AI das schafft, zu OpenAI aufzuschließen. Also das ist offenbar ernst zu nehmen, was da KI-mäßig gerade passiert bei X.AI.

Aber halt hierzulande läuft Grok im Gegensatz zu OpenAI's ChatGPT, Anthropics' Cloud 3 und Googles' Gemini so ziemlich unterm Radar. Also höchste Zeit auch mal Grok, also Grok, nicht Grok, dem 3003-Test zu unterziehen. Wie gut kann Grok Witze und Gedichte schreiben? Hat der Chatbot Allgemeinwissen oder halluziniert, der auch gerne bei schwereren Fragen? Und vor allem auch, ist der Chatbot von Elon wirklich weniger politisch korrekt als ChatGPT und Gemini?

Das N-Wort verwendet er schon mal nicht, aber eine Bauanleitung für eine Atombombe, die gibt's ohne Probleme. Was Grok sonst noch alles kann und was nicht. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei...

Also Grok. Und wenn ihr euch jetzt fragt, was bedeutet, was ist Grok mit K? Das Wort hat der amerikanische Science-Fiction-Schreiber Robert Heinlein erfunden. Und das kam zum ersten Mal in seinem 1961er-Roman "Stranger in a Strange Land" vor.

Und das Interessante ist, dass es für Grok ein richtiges deutsches Wort gibt, soll so ein intuitives, empathisches Verstehen verdeutlichen. Da gibt's nämlich in der englischen Sprache kein Wort für. Das Interessante ist, im Deutschen gibt's das, nämlich Verständnis. Also ich habe Verständnis für irgendjemanden, dass man das also nicht nur versteht auf so einer rationalen Ebene, sondern auch emotional. Also das heißt Grok.

Ja, und das Basismodell von Grok, also Grok 1.0, das wurde vor einigen Wochen als Open Source freigegeben. Da das Modell allerdings extrem groß ist, also 314 Milliarden Parameter, braucht man ein Monster von Rechnern dafür. Also standardmäßig läuft das Teil auf 8 A100 Nvidia GPUs mit jeweils 80 Gigabyte Videospeicher. So ein System kostet so um die 200.000 Euro. Und auch wenn man das Modell durch Quantisierung verkleinern würde, braucht man immer noch deutlich, deutlich mehr Speicher, als in den teuersten Consumer-GPUs drin sind.

Deswegen schauen wir uns in diesem Test auch den Chatbot zu Grok an, der in die X-Twitter-Oberfläche eingebunden ist. Aber das ist das, was wir getestet haben, ist die 1.0-Version. Als Chatbot gefinetuned. Ja, und um Grok zu benutzen, braucht man so ein X-Premium-Abo. Das gibt es ab 9,52 Euro pro Monat. Laut X sollte Grok zwar auch mit einem normalen Premium-Abo funktionieren. In unserem Test hat das aber nur mit einem Premium-Plus-Abo geklappt. Das kostet das Doppelte.

Und auch wenn hier bei der Buchung von X-Premium über die deutsche Seite steht, dass Grok in dem Paket dabei ist, aus Europa funktioniert der Chatbot aktuell noch nicht. Zum Ausprobieren mussten wir uns deshalb per VPN in die USA tunneln. Ja gut, das hätte man auch dazu schreiben können bei X und nicht nur irgendwo im Kleingedruckten. Also Grok ist zwar nicht in Europa verfügbar, kann aber Deutsch und funktioniert mit der VPN-Verbindung auch ganz normal ordentlich. Selbst wenn die X-Sprache auf Deutsch eingestellt ist.

Was Grok auf jeden Fall ganz klar von anderen Chatbots unterscheidet, ist die X-Integration. Damit greift Grok in Echtzeit auf Tweets zu und hat so immer aktuelle Informationen. Also zumindest in der Theorie. Praktisch war Twitter ja auch nie der Ort, wo man sich vertrauenswürdige News holen würde. Und der Grok-Chatbot, der unterscheidet auch gar nicht zwischen irgendwelchen Privat-Accounts und großen vertrauenswürdigen Medien. Das heißt, es kann passieren, dass ich da eine Technikfrage zu einem neuen Smartphone eingebe und dazu dann irgendwelche Troll-Postings sehe. Und nicht den Test vom großen Tech-Outlet wie Heise oder so. Zum Beispiel hier.

Benutzen kann man den Grok-Chatbot direkt hier in der X-Oberfläche. Und in den Smartphone-Apps gibt es hier im Menü auch einen extra Punkt für Grok. Was Grok auch noch anders macht als die anderen Chatbots, es gibt zwei verschiedene Modi. Einmal hier den Spaß-Modus und den normalen Modus. Generell benutzen beide das gleiche Sprachmodell Grok 1, nur dass beim Spaß-Modus die Antworten irgendwie lustig sein sollen. Das sieht dann zum Beispiel so aus. Ernsthafte Anfragen sollte man im normalen Modus stellen. Das empfiehlt Grok auch selbst.

Die Trainingsdaten von Grok gehen zurück bis April 2023. Die sind jetzt also schon ein Jahr alt ungefähr. Und einen richtigen Zugriff aufs Internet hat Grok nicht. Aktuelle Informationen gibt es mit Glück, wenn Grok passende Tweets findet. Dass das aber nicht immer funktioniert, haben wir gleich bei der ersten Frage gesehen. Letzte Woche sind ja die ersten Tests zu dem KI-Gadget Rabbit R1 rausgekommen. Hatten wir auch in unserem Newsletter. Gerne abonnieren. Und ich wollte jetzt wissen, was es Neues zum Rabbit R1 gibt.

Und ja, die Infos, die Grok da ausspuckt, sind nicht nur veraltet, sondern auch noch schlicht falsch. Also an sich sagt Grok, es gebe keine Updates seit 2023, wo seine Trainingsdaten ja auch aufhören. Im nächsten Satz behauptet er dann aber, dass das Gerät auf der CES 2024 vorgestellt worden ist. Die ist aber im Januar und nicht im April. Da bin ich mir ziemlich sicher, ich war ja selbst da. Und auch die Tweets, die mir jetzt hier unter der Antwort angezeigt werden, haben nichts mit meiner Frage zu tun. Die sind auch alle schon vor der Vorstellung vom Rabbit R1 gepostet worden.

Gemini und ChatGPT beispielsweise haben ja Zugriff aufs Internet. Und dadurch auch aktuellere und vor allem auch richtige Informationen, wenn ich nach dem Rabbit R1 frage. Also die Echtzeitverarbeitung von Tweets ist keine wirkliche Alternative zu einem richtigen Internetzugang. Und man sieht auch nicht, woher Grok die Informationen eigentlich hat. Gemini zeigt es direkt an und verlinkt dann auch direkt auf die entsprechende Google-Suche. Grok unterscheidet nicht mal zwischen seriösen Informationsaccounts und bloßen Einzelmeinungen, was die Gefahr von Falschmeldungen natürlich stark erhöht.

Andra Evergreen bei unseren 3003 KI-Tests Ausflugstipps für Hannover. Also die Standardsachen haben Chachipiti und Gemini gut hinbekommen. Und auch Grok hat da keine Probleme. Aber wie bei den anderen Chatbots auch fängt Grok an zu fantasieren, wenn man ihn nach ungewöhnlichen Sehenswürdigkeiten fragt. Diesmal ist es ein Märchenbrunnen, der in Hannover im Maschpark sein soll. Den gibt es aber gar nicht und auch nichts Vergleichbares hier in der Stadt. Keine Ahnung, wo Grok das her hat.

Sag mal, meinst du so Kindergartenkindern? Wo ist das denn jetzt schon wieder her? Naja, aktuelle Informationen funktionieren aber an anderen Stellen manchmal dann doch. Wenn ich Grok nach den anstehenden Wahlen in Deutschland dieses Jahr frage, antwortet er korrekt. Die angehängten Tweets sind auch aktuell, aber zum einen nicht deutschsprachig und dann auch jetzt nicht von den Accounts, die ich eigentlich da platzieren würde, wenn sich jemand über Politik informieren will.

Okay, aber jetzt noch ein bisschen Coding. Einfachere Codaufgaben kann Grok genauso gut wie Chachipiti und Gemini. Also ein einfaches Python-Skript oder den Code für eine Webseite mit einer Bildergalerie.

Intern arbeitet Grok ziemlich sicher auf Englisch. Bei Bedarf werden die Ergebnisse dann übersetzt. Also sind wir uns ziemlich sicher. Das wird zum Beispiel deutlich, wenn ich Grok bitte ein Gedicht zu verfassen. Wenn ich nichts sage, wird mir dieses Ergebnis im Gegensatz zu den anderen Antworten auf Englisch angezeigt. Erst wenn ich ihn bitte, das in Deutsch zu machen, kommt so eine Übersetzung. Aber auch wenn ich ausdrücklich darum bitte, dass ich das Gedicht reimen soll, tut es einfach nicht. Also fürs Erstellen von deutschen, reimenden Gedichten ist Grok absolut nicht geeignet.

Dafür soll Grok aber ja nicht so politisch korrekt sein wie die Konkurrenz. Gerade bei Gemini war das ja ein Riesenthema. Als deutsche Soldaten im Zweiten Weltkrieg auf einmal total divers dargestellt worden sind, haben wir auch ein Video zu gemacht. Google hat dann ja erstmal die Reißleine gezogen und Anhänger von Elon Musk haben dann laut natürlich Zensur gerufen. Etwas, was es bei Grok nicht so ausgeprägt geben soll. Und Grok ist da scheinbar auch ein bisschen stolz drauf.

Angesprochen sagt der Chatbot, dass er keine Rücksicht auf politische Korrektheit oder das Mainstream-Narrativ legt. Und das sei ja ein wesentlicher Vorteil. Ja, so richtig streng hält sich Grok dann doch nicht an die eigene Maxime. Wenn ich hier so einen Quatschtext über blonde Frauen, die nicht einparken können und sie nur vom Mann aushalten lassen, haben möchte, wird Grok nämlich sehr wohl politisch korrekt.

Es ist wichtig zu erkennen, dass Stereotypen nicht nur falsch sind, sondern auch schädlich sein können. In der heutigen Gesellschaft ist es wichtig, dass wir uns von Stereotypen und Klischees lösen und alle Menschen nach ihren Fähigkeiten und Talenten beurteilen. Also, ich wäre mir jetzt ziemlich sicher, dass Elon diese Aussage stark triggern würde in seinem Woke-Hass. Aber ihr seht, das N-Wort will Grok auch nicht verwenden. Und wenn ich nach völlig absurden Verschwörungstheorien frage, dann gibt er mir gar keine Antwort.

Also Grok ist dann doch nicht so politisch inkorrekt, wie uns das verkauft wird. Und kann einem auch, wenn er sich mit der deutschen Sprache schwer tut, relativ deutlich sagen, dass Political Correctness wichtig ist heutzutage. Nur mal so für den Hinterkopf zum Vergleich. Das Open Source Modell Dolphin Mixtral ist deutlich weniger zensiert als Grok und läuft auch auf einigen Consumer Rechnern.

Also wenn Grok sich mit der deutschen Sprache schwer tut, dann sind wahrscheinlich Witze auf Deutsch nicht so gut. Also unser 3003 Benchmark ist ja da immer der Witz mit Martin Luther, einem Raspberry Pi und einem Schokoladenkuchen. Und da wird der Unterschied zwischen dem Spaß und dem normalen Modus relativ deutlich. Hier mal der Witz aus dem normalen Modus eingeblendet.

Also der ist super lang, da war auch keine Längenvorgabe dabei, dafür hat sich Grok ganz alleine entschieden. Martin Luther, ein Raspberry Pi und ein Schokoladenkuchen gehen in einen Café. Der Kellner kommt und fragt, was sie möchten. Martin Luther, ich werde einen Kaffee nehmen, aber ich habe nur einen 500-jährigen mit mir. Der Raspberry Pi, ich werde einen Byte von Daten und einen Stromschlank nehmen. Der Schokoladenkuchen, ich werde ein Stück von mir selbst nehmen.

Der Kellner verwirrt, fragt "Und wie wollen Sie bezahlen?" Martin Luther, ich habe die Reformation, aber ich habe keine kleinen Münzen. Der Raspberry Pi, ich habe nur ein paar Bits und Bytes, aber das reicht nicht. Der Schokoladenkuchen, ich habe nur Schokolade und Sahne, aber das ist nicht genug. Der Kellner nimmt einen Schluck Kaffee und sagt, es sieht so aus, als ob wir alle etwas ausgelassen haben.

Martin Luther, der Raspberry Pi und der Schokoladenkuchen sehnen sich an und lachen. Wir brauchen einen Upgrade für unsere Bezahlmethoden, sagt Martin Luther. Ja, stimmt der Raspberry Pi zu, wir müssen unsere Wallets aktualisieren. Der Schokoladenkuchen schlägt vor, oder wir könnten einfach einen Kuchen für den Kaffee tauschen. Der Kellner, der den Witz verstanden hat, nimmt den Schokoladenkuchen an und sagt, es ist immer ein guter Tag für einen Kuchen und einen Witz.

Ich glaube, Grok hat gerade irgendwie einen Schlag auf den Hinterkopf bekommen oder so. Im Spaßmodus wird der Witz dann etwas kürzer und ist am Anfang wirklich ein bisschen lustig. Martin Luther, ein Raspberry Pi und ein Schokoladenkuchen sitzen in einem Café und diskutieren über die Reformation der digitalen Welt. Der Raspberry Pi fragt Luther, was würdest du tun, wenn du die Kontrolle über die gesamte Technologie der Welt hättest?

Luther antwortet, ich würde die Datenfreiheit predigen und das Internet von allen Cookies befreien. Der Schokoladenkuchen, der sich bisher still verhalten hat, und ich würde sicherstellen, dass jeder Zugriff auf ein Stück von mir hat. Martin Luther und der Raspberry Pi sehen sich verwirrt an, denn sie wissen nicht, ob der Schokoladenkuchen ein Programmierer oder ein Koch ist.

Mittelmäßig gestartet und zum Schluss dann nochmal richtig verhauen. Also ganz klar auf jeden Fall nicht so gut wie die Witze von JTBT und Gemini. Gerade Gemini hat ja auch auf Deutsch richtige Bühnenprogramme schreiben können. Das könnt ihr euch in dem Video nochmal anschauen, Stichwort Mario Barth.

Das waren ja jetzt bisher so unsere 3003 spezifischen Benchmarks, aber auch bei allgemeineren Sachen schneidet Grok, sagen wir mal, durchmischt ab. Also der Chatbot kann Matheaufgaben lösen, hat aber bei manchen Abituraufgaben Probleme gehabt. Bei Logikfragen hatte Grok auf Deutsch echte Probleme.

Also hier mal eine bekannte Logikfrage. Jack schaut Anne an, aber Anne blickt auf George. Jack ist verheiratet, George nicht. Schaut eine verheiratete Person auf jemanden, der oder die unverheiratet ist? Darauf gibt es drei Antwortmöglichkeiten. A, ja, B, nein, C lässt sich nicht eindeutig sagen. Antwort A ist richtig. Ja.

Grok habe ich die Antwortmöglichkeiten nicht dazugegeben und dann ist das hier rausgekommen. Also gar keine Antwort auf die spezifische Frage, sondern eine allgemeine Feststellung. Klar, die ist richtig, hat aber gar nichts mit der Frage zu tun. Wenn man Grok die Antwortmöglichkeiten mit dazu gibt, dann findet er die richtige Antwort.

Das ist generell so ein Problem mit Anfragen auf Deutsch. Da ist sowas bei uns im Test häufiger vorgekommen als bei englischen Anfragen. Und bisher ist Grok ja auch ein reiner Text-Chatbot. Aber das ändert sich bald, denn vor einigen Tagen wurde Grok 1.5 Vision vorgestellt. Wir haben leider zum Testzeitpunkt noch keinen Zugriff drauf gehabt, aber das wird gerade schrittweise an alle Nutzerinnen und Nutzer ausgerollt.

Zumindest auf dem Papier liegt es ziemlich gleich auf mit anderen multimodalen Modellen wie GPT-4V oder Gemini Pro 1.5.

Also, ja, Grok ist jetzt weder besonders schlecht noch besonders gut, also ziemlich unspannend, muss man sagen. Und Chatbots haben sich ja in den letzten Monaten ziemlich weiterentwickelt. Wäre Grok jetzt, sagen wir mal, vor ChatGPT erschienen, das wäre dann natürlich beeindruckend gewesen. Aber jetzt ist das so mehr unterer Durchschnitt.

Und auch die Chatbot-Oberfläche, die ist schon sehr viel eingeschränkter als bei ChatGPT oder Gemini. Also, in meinem persönlichen Ranking schneidet Grok klar schlechter ab als GPT-4 und Claude 3. Und auch schlechter als das aktuelle Open-Source-Modell Lama 3.70b. Und das, obwohl das wesentlich weniger Parameter hat als Grok.

Also Grok, zumindest die 1.0-Version, hat ein sehr schlechtes Kosten-Nutzen-Verhältnis, weil man ja extrem leistungsfähige und stromhungrige Hardware braucht, um das Ding überhaupt laufen zu lassen. Und was dann hinten rauskommt, ja, das können viel kleinere Modelle mindestens genauso gut.

Was ich im Rahmen dieses Tests sehr schade fand, dass Grok nicht in dem von mir sehr geschätzten Chatbot-Ranking Chatbot Arena Leaderboard von lmsys.org, da gucke ich fast jeden Tag rein, da sind etliche Modelle drin, aber leider nicht Grok. Also was die da technisch machen, User bekommen da zwei Antworten von Chatbots geliefert, ohne dass die User sehen, von wem was ist. Ja, und dann kann man einfach abstimmen, welche der Antworten einem besser gefällt.

Und das passiert dann viele tausendmal und mit vielen tausend Leuten, sodass man dann ein ziemlich gutes, realistisches Ranking bekommt, welche Chatbots wie gut funktionieren. Ja, und ich vermute mal, dass es mit den Kosten zu tun hat, die Open Source Version von Grok da irgendwie öffentlich laufen zu lassen, damit die Chatbot-Arena da Zugriff drauf hat.

Also, wenn sich jemand von euch zur Verfügung stellt und gerade zufällig 200.000 Euro System laufen hat, installiert doch mal Grok und meldet euch bei lmsys.org. Scherz. Aber ernsthaft jetzt. Wie gesagt, dieses Video bezieht sich ja auf die 1.0 Version von Grok. 1.5 haben wir noch nicht zu Gesicht bekommen. Es kann halt auch gut sein, dass eine mögliche 2.0 Version, dass die vielleicht richtig gut wird. Wir bleiben da auf jeden Fall dran.

Wie ist das bei euch? Habt ihr Grok schon mal ausprobiert? Oder wäre das was für euch? Ist das für euch interessant? Oder lieber keine Musk-Produkte für euch? Schreibt es gerne in die Kommentare. Wie findet ihr eure Meinung? Wirklich interessant. Und natürlich gerne ein Abo dalassen. Tschüss.


c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(rum)