KI-Update kompakt: Humanity's Last Exam, KI-Assistenten, DeepSeek, Clipchamp

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

27.01.2025, 15:00 Uhr

Lesezeit: 10 Min.

Von

Isabel Grünewald
The Decoder

Humanity's Last Exam: Neuer KI-Test an dem alle Modelle scheitern

Zwei Organisationen aus San Francisco haben einen neuen KI-Benchmark namens " Humanity's Last Exam" vorgelegt, an dem selbst die leistungsfähigsten KI-Modelle scheitern sollen.

Während führende KI-Modelle bei gängigen Benchmarks laut ihren Anbietern 90 Prozent der Aufgaben korrekt lösen, haben Scale AI und das Center for AI Safety nun einen anspruchsvolleren Test entwickelt. Scale AI, ein Anbieter von KI-Trainingsdaten, und das Center for AI Safety, eine Non-Profit-Organisation für KI-Sicherheit und -Ethik, haben einen Benchmark geschaffen, bei dem selbst die besten KI-Modelle nur etwa 10 Prozent der Aufgaben bewältigen können.

Für "Last Exam" wurden aus ursprünglich 70.000 Expertenfragen durch einen mehrstufigen Auswahlprozess 3.000 Aufgaben aus verschiedenen akademischen Bereichen wie Naturwissenschaften, Mathematik und Geisteswissenschaften ausgewählt. Selbst fortschrittliche KI-Modelle wie GPT-4o und o1, Claude oder Gemini scheitern an vielen dieser Aufgaben, wie etwa Fragen zum Skelettaufbau eines Kolibris.

Allerdings ist auch dieser Benchmark nur bedingt aussagekräftig für die Leistungsfähigkeit von KI-Modellen, da ein Wissenstest auch durch reines Auswendiglernen ohne jegliche Schlussfolgerungsfähigkeit gelöst werden kann.

OpenAI veröffentlicht Operator, Perplexity den Perplexity Assistant

OpenAI hat eine frühe Version seines ersten KI-Agenten Operator veröffentlicht. Er benutzt das Web wie ein Mensch. Der KI-Agent hat dafür seinen eigenen Browser (in der Cloud), mit dem er interagiert, tippt, klickt und scrollt. Das ist transparent für die Nutzerin, die einzelnen Schritte werden visuell dargestellt und der Mensch kann jederzeit übernehmen.

Operator basiert auf einem neuen KI-Modell namens "Computer-Using Agent" (CUA). Dieser CUA nutzt die Bildverarbeitungsfähigkeiten von GPT-4o und kombiniert sie mit Reasoning durch bestärkendes Lernen. OpenAI kooperiert bereits mit Internet-Unternehmen wie DoorDash, Instacart, OpenTable, StubHub und Uber, sodass der Nutzer diese im Operator direkt auswählen kann, um etwa Lebensmittelbestellungen aufzugeben, einen Tisch im Restaurant zu reservieren, Eintrittskarten zu kaufen oder eine Fahrt zu bestellen.

Fast gleichzeitig mit OpenAI hat auch der Konkurrent Perplexity seinen Assistant veröffentlicht. Auch der soll unter anderem einen Tisch im Restaurant buchen, E-Mails verfassen, Mitfahrgelegenheiten buchen und Erinnerungen an Termine einrichten können. Perplexity Assistant ist kostenlos im Google Play Store verfügbar, für iOS gibt es ihn bisher nicht.

OpenAIs Operator ist dagegen zunächst nur für ausgewählte Kunden über das ChatGPT-Pro-Abo abrufbar. Das kostet 200 US-Dollar im Monat.

OpenAI verbessert Canvas-Funktion für Code-Rendering

Zwei weitere Updates für die Canvas-Funktion in ChatGPT, die Text- und Code-Inhalte in einem separaten Fenster im Chatbot anzeigt, sind bereits allgemein verfügbar. So können Nutzende jetzt in Canvas das o1-Modell nutzen. Außerdem kann HTML- und React-Code nun direkt in Canvas gerendert werden – das erspart Entwicklerinnen und Entwicklern etwa das Herunterladen und Ausführen von HTML-Code für einen ersten Check. Das Code-Rendering in Canvas ist für alle ChatGPT-Nutzerinnen und Nutzer verfügbar, während o1 nur zahlenden Pro-, Plus- und Team-Kunden vorbehalten bleibt. Zudem wurde Canvas vollständig in die ChatGPT-Desktop-App für macOS integriert.

Enterprise- und Edu-Nutzende sollen die Neuerungen in einigen Wochen erhalten. Mit den Verbesserungen zieht OpenAI bei Canvas mit dem Konkurrenten Anthropic gleich. Dieser bietet mit "Artifacts" schon länger eine ähnliche Funktion für seinen KI-Chatbot Claude.ai an.

Deepseek setzt Meta und US-Chip-Aktien unter Druck

Das jüngste R1-Modell des chinesischen Start-ups DeepSeek versetzt den Social-Media-Konzern Meta derzeit in Alarmbereitschaft, berichtet The Information. Auch die US-Chip-Aktien reagieren auf das KI-Modell.

Grund dafür ist der enorme Erfolg von Deepseeks KI-Chatbot R1, der deutlich effizienter und kostengünstiger arbeitet als vergleichbare Angebote aus dem Westen, insbesondere OpenAIs o1 – das aktuell stärkste verfügbare Modell des Unternehmens. R1 liegt laut verschiedenen Benchmarks in etwa auf dem Niveau von o1.

Auch wenn in der Praxis sich sicherlich immer wieder Unterschiede je nach Use-Case zeigen können, hat R1 mehrere große Vorteile: Deepseek bietet seine Cloud-API zu Preisen an, die bis zu 27-mal günstiger sind als o1. Das Unternehmen hat R1 außerdem mit einer MIT-Lizenz frei verfügbar gemacht – auch für den kommerziellen Einsatz. Die Deepseek-App schaffte es nach dem R1-Launch sogar vor ChatGPT an die Spitze der iPhone-Charts.

Als Reaktion soll Meta vier spezielle Krisenteams eingerichtet haben, um Deepseeks Technologien genau zu analysieren. Zwei dieser Teams konzentrieren sich darauf, die kostengünstigeren Trainings- und Betriebsmethoden von Deepseek zu verstehen und zu adaptieren. Ein weiteres Krisenteam bei Meta untersucht, welche Trainingsdaten Deepseek verwendet haben könnte. Das vierte Team prüft, wie Meta seine Modelle nach dem Vorbild von Deepseek umstrukturieren kann, um sie effizienter zu machen.

Auch die Kurse von US-Chip-Aktien mit KI-Bezug wie Nvidia gerieten durch Deepseeks Effizienz unter Druck. Denn das chinesische Start-up zeigt, dass man auch mit weniger Chips leistungsstarke und kostengünstige KI-Modelle trainieren und betreiben kann.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Nepenthes: eine Teergrube für KI-Webcrawler

Webcrawler für KI-Modelle machen auch vor dem Urheberrechtsschutz oft nicht halt – das Tool Nepenthes stellt ihnen eine Falle. Es soll die Crawler in ein unendliches Labyrinth locken oder ihren endlosen Datenhunger sogar mit massig sinnlosem Inhalt füttern.

Eigentlich können Webseitenbetreiber in der robots.txt hinterlegen, wenn sie Webcrawling für LLMs nicht erlauben. Doch die entsprechenden Hinweise sind von KI-Modell zu KI-Modell verschieden, und einige Unternehmen versuchen bereits, solche Sperren gezielt zu umgehen. Der Programmierer Aaron B. hat das Tool entwickelt, weil ihn dieser Zustand ärgerte.

Nepenthes funktioniert, indem eine Seite mit rund einem Dutzend Links generiert wird, die alle wieder auf sich selbst verlinken. Noch dazu haben die Nepenthes-Seiten extrem lange Ladezeiten, was bei den Crawlern Zeit bindet. "Es handelt sich um eine Teergrube, die Webcrawler fangen soll", schreibt der Entwickler auf seiner Webseite. Das Ganze sei insbesondere für KI-Webcrawler gedacht.

Allerdings sind auch Webcrawler anderer Art betroffen, beispielsweise von Suchmaschinen. Wer Nepenthes auf der eigenen Seite einbaut, wird dadurch höchstwahrscheinlich aus der Google-Suche fliegen. Wer also nicht ganz genau weiß, was er tut, der sollte lieber die Finger von dem Tool lassen, warnt der Entwickler.

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

McCartney warnt vor "Abzock-Technologie" durch neues Urheberrecht

Der Ex-Beatle Paul McCartney übt in einem Interview mit der BBC scharfe Kritik an einer geplanten Änderung des britischen Urheberrechts. Diese würde es KI-Entwicklern erlauben, kreative Inhalte aus dem Internet ohne explizite Erlaubnis zu nutzen, um ihre Modelle zu trainieren – es sei denn, die Urheber widersprechen dem aktiv. In dem Interview appelliert McCartney an die Regierung, ihre Pläne zu überdenken und Künstlerinnen und Künstler besser zu schützen. Er sieht die Gefahr eines "Wilden Westens", in dem die Urheberrechte der Kreativen mit Füßen getreten werden.

Besonders um den Nachwuchs macht sich der Musiker Sorgen: "Da kommen junge Leute, schreiben einen wunderbaren Song – und besitzen ihn nicht einmal", so der Musiker.

Unterstützung bekommt McCartney von Tom Kiehl, Chef des Branchenverbandes UK Music. Es gebe "keine Beweise dafür, dass Kreative ihre Werke effektiv vom Training durch KI-Systeme ausschließen können", kritisiert er das geplante Opt-out-System.

Und: Ein solches System würde die Last auf die einzelnen Künstlerinnen und Künstler verlagern. Sie müssten sich einen Überblick über alle KI-Betreiber verschaffen und jedem einzelnen widersprechen.

Copilot bekommt Clipchamp-Unterstützung

Microsoft integriert seine Videoschnitt- und -Compose-Software Clipchamp in den Microsoft 365 Copilot. Die neue Funktion ermöglicht es, mittels KI-Prompts automatisch Video-Inhalte und -Skripte zu erstellen.

Laut Microsoft können Nutzer künftig zu beliebigen Themen Videos per Texteingabe generieren. Clipchamp erstellt dabei automatisch ein Video unter Verwendung von Stock-Material und -Musik sowie einer KI-generierten Sprachausgabe.

Der aktualisierte Roadmap-Eintrag beschreibt den Prozess etwas ausführlicher: Die Software generiert ein maßgeschneidertes Drehbuch, wählt hochwertiges Stock-Videomaterial aus und komponiert daraus ein Videoprojekt – komplett mit Sprachausgabe, Musik, Texteinblendungen und Übergängen.

Das erstellte Videoprojekt lässt sich anschließend in Clipchamp öffnen, weiterbearbeiten, exportieren und teilen. Microsoft sieht vielfältige Einsatzmöglichkeiten vor, darunter Informationsvideos, Videonachrichten, How-to-Anleitungen, Demonstrationen und Video-Präsentationen. Der Clipchamp Copilot Video Creator wird weltweit auf allen Cloud-Instanzen verfügbar sein und richtet sich besonders an Business-Kunden.

Die allgemeine Verfügbarkeit ist für Februar 2024 geplant.

Studie zeigt Täuschungsgefahr durch KI-generierte Gewebebilder

Bei der Frage, ob ein Bild echt oder per KI generiert ist, wird die richtige Zuordnung von Menschen zwar (intuitiv) deutlich schneller getroffen als die falsche, aber die Einschätzung stellt sie trotzdem vor Herausforderungen. Dies hat eine Studie der Uni Jena mit dem Titel "Experten können KI-generierte histologische Daten nicht zuverlässig erkennen" ergeben.

800 Teilnehmerinnen und Teilnehmer sollten hierfür echte und künstliche Gewebeschnittbilder klassifizieren. In der Histopathologie kommen zunehmend Deep-Learning-Algorithmen zum Einsatz, die Pathologen dabei unterstützen, Auffälligkeiten, wie Krebs in Gewebeschnittproben zu erkennen und einzuordnen. Medizinische Diagnosen können mit Hilfe von KI schneller und präziser gestellt werden. Für das Training der KI-Modelle werden umfangreiche Datensätze benötigt. Neben echten Bildern können dafür im Pre-Training auch KI-generierte synthetische Bilder zum Einsatz kommen, um die Erkennungsrate von Modellen für bestimmte Krebsarten zu verbessern. Forschungen dazu, ob man KI (allein) auf synthetischen Daten trainieren sollte, werden von Experten aber kontrovers diskutiert.

Betrug mit manipulierten oder gefälschten Daten nimmt zu, denn nicht nur mit ChatGPT lassen sich schnell erfundene KI-Messdaten erstellen. Die Studienautoren empfehlen darum unter anderem die Einführung technischer Standards, um die Sicherstellung der Datenherkunft zu gewährleisten und Betrug in wissenschaftlichen Publikationen zu verhindern. Es sollte eine Pflicht zum Einreichen der Rohdaten geben. Auch komme der Einsatz automatisierter Tools zur Erkennung von gefälschten Bildern in Betracht.

(igr)

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

KI-Update kompakt: Humanity's Last Exam, KI-Assistenten, DeepSeek, Clipchamp

Empfohlener redaktioneller Inhalt

Humanity's Last Exam: Neuer KI-Test an dem alle Modelle scheitern

OpenAI veröffentlicht Operator, Perplexity den Perplexity Assistant

OpenAI verbessert Canvas-Funktion für Code-Rendering

Deepseek setzt Meta und US-Chip-Aktien unter Druck

Empfohlener redaktioneller Inhalt

Nepenthes: eine Teergrube für KI-Webcrawler

McCartney warnt vor "Abzock-Technologie" durch neues Urheberrecht

Copilot bekommt Clipchamp-Unterstützung

Studie zeigt Täuschungsgefahr durch KI-generierte Gewebebilder

Spiele

12 Monate mit 50 % RabattJubiläumsangebot: 12 Monate lesen, 6 Monate zahlen.

Das digitale Abo für IT und Technik.