KI-Update kompakt: MM1, Grok-1, Chatanfragen entschlĂĽsseln, Schwellenwert

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 9 Min.
Inhaltsverzeichnis

Es hat eine Weile gedauert in Cupertino, aber nun hat auch Apple mit MM1 sein erstes leistungsfähiges multimodales KI-Modell vorgestellt. MM1 ist Apples erstes multimodales KI-Modell, das in einigen Tests mit GPT-4-Vision und Googles Gemini konkurrieren kann. Wie diese Modelle basiert auch MM1 auf einer Transformer-Architektur und wurde mit einer Mischung aus Bild-Text-Paaren, Dokumenten mit Text und Bildern und reinen Textdaten trainiert. Die Apple-Forscher fanden heraus, dass eine hohe Bildauflösung, die Leistung des Bildverarbeitungsteils (des sogenannten "visuellen Encoders") und die Menge der Trainingsdaten besonders wichtig für eine gute Leistung sind. Durch die Skalierung auf bis zu 30 Milliarden Parameter und die Verwendung von Mixture-of-Experts (MoE)-Modellen erzielte MM1 überzeugende Ergebnisse etwa bei der Generierung von Bildunterschriften und der Beantwortung von visuellen Fragen. MM1 kann auch Informationen aus mehreren Bildern kombinieren, um komplexe Fragen zu beantworten oder Schlussfolgerungen zu ziehen, die sich nicht aus einem einzelnen Bild ableiten lassen ( das sogenannte Multi-Image-Reasoning). MM1 zeigt, dass Apple in der Lage ist, ein leistungsfähiges multimodales KI-Modell zu entwickeln, das trotz seiner kompakten Größe mit führenden KI-Systemen wie GPT-4V und Google Gemini konkurrieren kann. Dies könnte in Zukunft zu einem ernsthaften Konkurrenten für andere KI-Systeme werden. Das Paper gibt zudem einen tiefen Einblick in Trainingsprozesse und genutzte Trainingsdaten – etwas, was mittlerweile nur wenige Unternehmen noch preisgeben.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Elon Musks KI-Unternehmen xAI hat Grok-1 veröffentlicht. Es ist das bislang größte Open-Source Mixture-of-Expert-Modell, mit 314 Milliarden Parametern unter der Apache 2.0-Lizenz. Dabei ist Grok-1 ein unverfeinertes Basismodell aus der im Oktober 2023 abgeschlossenen Pre-Trainingsphase. Es wurde bisher nicht für spezifische Anwendungen wie Chat oder Instruktionsbefolgung optimiert und ist wahrscheinlich weniger oder gar nicht sicherheitsorientiert. xAI hat das Modell mit einem eigenen Technologie-Stack auf Basis von JAX und Rust trainiert. Weitere Informationen für Grok-1 sind auf GitHub verfügbar. Grok-1 ist das bisher größte veröffentlichte Open-Source-Sprachmodell abseits eines alten Google-Modells. Es soll sich auf dem Niveau von GPT-3.5 befinden. Die kommenden Wochen werden allerdings erst zeigen, was die Open-Source-Community aus dem Modell herauskitzeln kann.

Von Reisezielen bis hin zu möglichen Auswirkungen medizinischer Befunde – immer mehr Menschen nutzen KIs für Recherchen zu persönlichen und teils hochsensiblen Dingen. Sie verlassen sich dabei darauf, dass die Übertragung gesichert erfolgt und damit nicht Hinz&Kunz mitlesen kann, was sie aktuell bewegt. Forschende der Ben-Gurion Universität demonstrierten nun, dass diese Sicherheit in vielen Fällen nicht gewährleistet war. Denn sie konnten aus den verschlüsselt übertragenen Daten die Antworten von ChatGPT und anderer GPTs mit erstaunlich hoher Zuverlässigkeit rekonstruieren, berichtet der heise online Security-Experte Jürgen Schmidt:

Israelischen Forschern ist es gelungen, auf ziemlich abgefahrene Art und Weise die Antworten, die eine KI auf konkrete Fragen des Anwenders gibt, zu entschlüsseln, und zwar nur, indem sie den eigentlich verschlüsselten Netzwerkverkehr belauschen. Dazu haben sie natürlich nicht die Verschlüsselung geknackt, sondern sie machen sich spezielle Eigenheiten dieser KI-Kommunikation zunutze. Insbesondere, dass die KIs wortweise arbeiten und diese Wörter der Antworten auch tatsächlich einzeln übertragen werden. Und zusätzlich kommt eine sogenannte Stromchiffre zum Einsatz, die immer genau ein Zeichen durch ein anderes ersetzt. Das heißt, es bleiben die Wortlängen erhalten. Damit hat ein Lauscher im Netz die Information über die Länge der Wörter. Das reicht alleine natürlich noch nicht aus, um den gesamten Kontext zu entschlüsseln, aber man weiß einiges über den typischen Aufbau solcher Antworten von KIs. Wenn man das und eine Liste von Wörtern einer KI verfüttert und die darauf trainiert, diese Antworten zu rekonstruieren aus den Wortlängen und dem Antwortverhalten der jeweiligen KI, gelang es den Forschern tatsächlich, Inhalte zu rekonstruieren, und zwar mit erstaunlicher Genauigkeit. In über der Hälfte aller abgefangenen Antworten konnten sie den Inhalt des Gesprächs zumindest ganz grob rekonstruieren und in 29 Prozent der Fälle sogar wortwörtlich. Betroffen davon waren unter anderem ChatGPT, Microsofts Copilot und auch Anthropic. Abhilfe gibt es auch. Dazu muss man eben entweder, wie Google es bei BART (ist inzwischen umbenannt in Gemini) macht, darauf verzichten, einzelne Wörter zu übertragen, sondern immer mehrere zusammenzufassen. Oder, wenn man bei Wörtern bleibt, die einzelnen Pakete immer auf eine bestimmte Minimallänge auffüllen – mit zufälligen Daten. Damit geht eben diese Seitenkanalinformation verloren und die Angreifer können die Wortlängen nicht mehr bestimmen.

Humanoide Roboter sind von Haus aus recht wortkarge Gesellen, doch der humanoide Roboter Figure 01 hat nun Kommunikationsfähigkeiten erhalten, die aus einer Kooperation mit OpenAI entstanden sind. Die Entwicklerfirma Figure demonstriert dies in einem zweiminütigen Video. Darin zeigt sie, wie visuelle Erkennung, natürliche Sprachausgabe und das selbstständige Ausführen von Aufgaben miteinander kombiniert werden können. Die Sprachfähigkeiten von Figure 01 ergeben sich aus der Kombination des von Figure entwickelten neuronalen Netzes sowie der visuellen und sprachlichen Intelligenz, die OpenAI beigesteuert hat. In dem Video ist zu sehen, wie der Roboter auf Fragen reagiert und in natürlicher Sprache antwortet. Teilweise benötigen die Fragen bereits ein gewisses Maß an Wissen, um sie beantworten zu können. Etwa dann, wenn der Fragesteller nach etwas Essbarem fragt, was auf dem Tisch liegt und der Roboter daraufhin den Apfel auswählt. Figure 01 hat dabei selbstständig erkannt, dass der Apfel das einzige essbare Objekt ist, das auf dem Tisch liegt. Der Roboter beseitigt sogar selbstständig den Müll, der auf dem Tisch herumliegt und sortiert außerdem Geschirr in einen Korb ein, nachdem er gefragt wurde, wo Müll und Geschirr hingehören. Figure dürfte mit der erst kürzlich offiziell geschlossenen Kooperation mit OpenAI ein großer Coup gelungen sein, die dem Robotikunternehmen einen deutlichen Wettbewerbsvorteil im Vergleich zu Konkurrenten wie Tesla, Unitree und Boston Dynamics verschafft. Tesla etwa hatte erst kürzlich eingeräumt, dass sein humanoider Roboter Optimus Bot bei einer Demo des Zusammenlegens eines T-Shirts ferngesteuert wurde. Der stumme Roboter, der einfach nur stumpf die ihm vorgegebenen Aufgaben erfüllt, dürfte nun zunehmend in den Hintergrund treten. Figure ist damit auf dem Weg, eine Art "mitdenkenden" Roboter zu bauen, der selbst Entscheidungen treffen kann und diese dann auch kommuniziert.

Der AI Act besagt, dass sogenannte General Purpose AI ab einer bestimmten Größe unter besondere Regulierungs- und Transparenzpflichten fällt. Größe meint die Rechenleistung. Von einer hohen Wirksamkeit ist demnach vor allem auszugehen, wenn "die kumulierte Menge" der fürs Training verwendeten Berechnungen mehr als 10 hoch 25 (10^25) Gleitkomma-Operationen beträgt, gemessen in Floating Point Operations (Flops), heißt es so schön in dem Gesetzestext. Doch Dragoş Tudorache, parlamentarischer Ko-Berichterstatter für das KI-Gesetz, hat eingeräumt, dass diese Vorgabe schon bald hinfällig sein dürfte. Entweder nur wenige KI-Modelle überspringen diese Größe oder es gibt einen Sprung in der Technologie, dass die Größe gar nicht mehr nötig sein wird.

Der Flops-Schwellenwert "verwechselt Rechenleistung mit Risiko", was zwei verschiedene Dinge seien, kritisierte Sandra Wachter, Professorin für Technologie und Regulierung am Oxford Internet Institute gegenüber Euractiv. Unabhängig von ihrer Größe steckten in diesen Modellen alle möglichen Risiken in Bezug auf Voreingenommenheit, Fehlinformationen, Datenschutz und Halluzinationen.

Adobes KI-Bildgenerator Firefly erzeugt historisch falsche Bilder, ähnlich wie das kürzlich abgeschaltete Image Tool von Googles Gemini. Firefly produzierte auf Anfrage Bilder von schwarzen Soldaten in Nazi-Deutschland und schwarzen Gründervätern in den USA, berichtet Semafor. Adobe betonte, dass Firefly nicht für fotorealistische Darstellungen realer oder historischer Ereignisse gedacht sei. Das Unternehmen hat Feedback-Mechanismen in alle seine Gen-AI-Produkte eingebaut, um Probleme zu erkennen und zu beheben. Auch Metas Bildgenerator soll historisch falsche Bilder erzeugen. Kritiker sehen darin eine Geschichtsverfälschung. Man könnte jedoch auch dafür argumentieren, dass Bildgeneratoren keine Geschichtsbücher sind und fantasievoll sein dürfen. Doch wo genau diese Grenzen zu ziehen sind, müssen wohl Anbieter und Nutzende unter sich ausmachen.

(igr)