Anthropic: Claude 3 schneidet in Tests besser ab als GPT-4

Claude 3 soll in zahlreichen Tests besser abschneiden als ChatGPT 4. Anthropics Chatbot kommt in drei Größen.

In Pocket speichern vorlesen Druckansicht 128 Kommentare lesen

(Bild: Anthropic)

Lesezeit: 4 Min.

Der ChatGPT-Konkurrent Claude aus dem Hause Anthropic erscheint in einer neuen Version – beziehungsweise als eine neue Modellfamilie: Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus. Sie alle sollen GPT-4, also OpenAIs leistungsstärkstes KI-Sprachmodell in Tests übertreffen. Ihre Schwerpunkte liegen jeweils auf verschiedenen Bereichen, Schnelligkeit, Kosten, Intelligenz. Die Modelle haben auch spezielle visuelle Fähigkeiten. Eine API für Opus und Sonnet steht bereits zur Verfügung.

Haiku ist das günstigste Model aus der Claude-3-Familie. Entsprechend schneidet es allerdings auch in den Benchmarks zur Intelligenz am schlechtesten ab. Opus ist das intelligenteste und teuerste der drei Modelle. Ähnlich wie OpenAI ist auch Anthropic gewillt, jeden Schritt in der Verbesserung des Chatbots als einen Schritt in Richtung einer Artificial General Intelligence (AGI) zu bezeichnen.

Konkret schneidet Opus in einigen gängigen Tests besser ab, beispielsweise bei Mathematik-Aufgaben auf dem Niveau eines Grundschülers. Eine von Anthropic veröffentlichte Tabelle zeigt die Testergebnisse im Vergleich zu anderen Modellen, wie etwa GPT-4 – das in allen Tests schlechter abschneidet als Opus. Diese Tests sind jedoch standardisiert und wenig aussagekräftig für den tatsächlichen Umgang mit Chatbots.

Die Tabelle zeigt die Ergebnisse einiger gängiger Tests.

(Bild: Anthropic Blogbeitrag)

Dagegen schneidet Haiku zwar in den Tests nicht gleichermaßen gut ab, ist aber deutlich schneller und günstiger als Opus. Sonnet, das mittlere Modell, ist laut Anthropic zweimal schneller als Claude 2 und dabei auch deutlich intelligenter. Alle drei kommen mit einem 200.000 Token Kontextfenster, das ist die Menge, die der Chatbot auf einmal verarbeiten kann. GPT-4 Turbo kann mit 128.000 Token umgehen. Unternehmenskunden können für Claude 3 allerdings auch ein Upgrade auf bis zu einer Million Token buchen. Dieses Kontextfenster entspricht dem von Googles Gemini.

Zu den visuellen Fähigkeiten heißt es im Blogbeitrag, dass Claude 3 visuelle Formate verarbeiten kann, etwa Fotos, Diagramme, Grafiken und technische Zeichnungen. Das steht offensichtlich jedoch erstmal nur Business-Kunden zur Verfügung. Ganz schlau wird man aus dem Blogbeitrag auch nicht, wie weit die Fähigkeiten reichen. Claude wird nicht plötzlich zum Bildgenerator, es geht eher darum, dass der Chatbot Informationen aus PDFs, Präsentationen und anderen Formaten erkennen kann.

Die Vorgängerversionen von Claude sollen unnötig oft den Dienst verweigert haben, wenn Prompts zu nah an ihre Leitplanken und Schranken kamen. Das soll mit Claude 3 deutlich seltener passieren. Der Chatbot soll dank eines besseren Verständnisses von Kontexten auch besser erkennen können, ob es sich wirklich um Gefahren oder Missbrauch handelt. Freilich halluziniert der Chatbot weniger als Claude 2.1., aber er halluziniert. Deshalb kündigt Anthropic an, eine Quellen-Funktion einführen zu wollen. Darüber sollen Nutzer dann die Antworten verifizieren können. Ein Prozess, der im Zweifel zulasten der Schnelligkeit und Effizienz geht, die ein Chatbot bringen soll.

Bei Anthropic arbeiten laut eigener Aussage gleich mehrere Teams daran, dass die Chatbots nicht missbraucht werden. Man verfüge über "mehrere engagierte Teams, die ein breites Spektrum an Risiken aufspüren" – etwa "Fehlinformationen, Kindesmissbrauchs-Material bis hin zu biologischem Missbrauch, Wahlbeeinflussung und autonomen Replikationsfähigkeiten" kommt. In den Tests, die den Bias messen, schnitt Claude 3 ebenfalls besser ab als seine Vorgänger. Aber auch hier bleibt ein Bias grundsätzlich bestehen. Der Wissensstand von Claude 3 endet laut technischem Paper mit August 2023.

Die Kosten sind dem Blogbeitrag zu entnehmen. Los geht es mit Haiku bei Input/Output Kosten für eine Million Token in Höhe von 0,25/1,25 US-Dollar.

(emw)