KI-Update: Gemini-KI fĂĽr Roboter, Open AI Operator, KI-System schreibt Paper

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 8 Min.
Von
Inhaltsverzeichnis

Google DeepMind hat zwei KI-Modelle für Roboter vorgestellt: Gemini Robotics, ein auf Gemini 2.0 basierendes KI-Modell für die Robotik, sowie Gemini Robotics-ER, ein KI-Modell, das Robotern ein erweitertes räumliches Verständnis verschafft.

Gemini Robotics und Gemini Robotics-ER sind die beiden speziell für Roboter ausgelegten KI-Modelle von Google DeepMind. Das KI-Modell Gemini Robotics soll das allgemeine Weltverständnis von Robotern erweitern. Konkret geht es um die Verbesserung der Anpassbarkeit eines Roboters an verschiedene Situationen, Interaktivität, um Veränderungen in der Umgebung und Situationen zu verstehen, und die Steuerung des Roboters mit natürlicher Sprache. Hinzu kommt die Verbesserung der Geschicklichkeit eines Roboters bei komplexen Aufgaben.

Gemini Robotics nutzt das allgemeine Weltverständnis dazu, um neue Situationen zu erfassen, zu verstehen und darauf reagieren zu können. Das hilft dem Roboter auch, Aufgaben zu erledigen, für die er nicht trainiert worden ist. So kann er mit neuen Objekten umgehen, auf neue Anweisungen reagieren und in neuen Umgebungen agieren. Der Mensch kann den Roboter so besser kontrollieren. Auch dabei hilft Gemini Robotics, indem es das Sprachverständnis des Roboters erweitert. Menschen können dem Roboter Anweisungen in natürlicher Sprache geben, die er dann ausführt.

Gemini Robotics verschafft einem Roboter außerdem die Fähigkeit, Objekte präziser als bisher manipulieren zu können. Gemini Robotics-ER konzentriert sich auf die Verbesserung des räumlichen Verständnisses, das mit der Robotersteuerung verbunden wird. Der Roboter kann so etwa auf einem Tisch liegende Objekte erkennen und weiß zudem, wo sie genau liegen. Daraus leitet der Roboter ab, wie er sie wo greifen kann, ohne dass dabei die Sicherheit gefährdet ist.

Die beiden KI-Modelle lassen sich auf unterschiedliche Roboter-Plattformen ĂĽbertragen, etwa auf zweiarmige Roboter wie Googles Aloha 2 oder auch humanoide Roboter. Google DeepMind arbeitet dabei mit Apptronik zusammen, um dessen humanoiden Roboter Apollo intelligenter zu machen. Sogenannte vertrauenswĂĽrdige Tester wie Agile Robotics, Agility Robotics und Boston Dynamics erhalten Zugang zu Gemini Robotics-ER.

Google hat sein KI-Sprachmodell Gemini 2.0 Flash um eine experimentelle Bildgenerierungsfunktion erweitert. Entwickler können diese ab sofort über Google AI Studio und die Gemini-API testen. Das Besondere: Im Gegensatz zu reinen Bildgenerierungsmodellen wie Midjourney kombiniert Gemini als multimodales Modell Textverständnis, logisches Schlussfolgern und Bildanalyse.

Dadurch kann Gemini Geschichten mit Text und Bildern erzählen, wobei Charaktere und Szenerien konsistent dargestellt werden. Es ermöglicht auch die Bildbearbeitung im Dialog – so kann etwa in einem generierten Bild eines Autos per Textbefehl gezielt die Tür geöffnet werden, ohne dass sich der Rest des Autos verändert. Gemini kann auch Text präzise in Bilder integrieren. Ähnliche Fähigkeiten hatte OpenAI bereits mit GPT-4o gezeigt, aber noch nicht veröffentlicht.

Neben den neuen Gemini-Features stellte das Unternehmen mit Gemma 3 auch eine neue Familie kompakter Open-Source-KI-Modelle vor. Die vier Varianten mit einer bis 27 Milliarden Parametern laufen auf einzelnen GPUs.

Trotz ihrer überschaubaren Größe übertreffen die Gemma-3-Modelle laut Google in ersten Tests deutlich größere Konkurrenten. Sie beherrschen über 140 Sprachen, verarbeiten Text, Bilder und Videos und unterstützen Function Calling.

Das große 27-Milliarden-Parameter-Modell erreicht in menschlichen Bewertungen eine Top-10-Platzierung und ist laut Google in vielen Benchmarks mit dem größeren Gemini 1.5 Pro vergleichbar.

Parallel dazu steht mit ShieldGemma 2 erstmals ein spezialisierter Sicherheitsprüfer zur Erkennung gefährlicher Inhalte in Bildern zur Verfügung. Die Gemma-3-Modelle sind über Hugging Face, Kaggle und Google AI Studio verfügbar.

OpenAI erweitert die Verfügbarkeit seines KI-Agenten "Operator" auf Deutschland und die gesamte EU. Dieser intelligente Assistent, der bisher nur US-Nutzern zugänglich war, steht nun als Preview-Version für Inhaber eines Pro-Kontos zur Verfügung.

Der Operator basiert auf dem "Computer Using Agent" – einer Technologie, die GPT-4o mit Reinforcement Learning kombiniert. Bei diesem bestärkenden Lernverfahren sucht das KI-Modell nach Wegen und Antworten, die als erwünscht gelten und entsprechend belohnt werden. Das System wurde speziell darauf trainiert, grafische Benutzeroberflächen zu verstehen und zu bedienen, sodass es weiß, wo beispielsweise Texteingabefelder zu finden sind.

In der Praxis kann der Agent verschiedene Aufgaben übernehmen, darunter Restaurantreservierungen oder die Buchung einer Urlaubsreise. Für solche Funktionen benötigt er Zugriff auf sensible Daten wie Kreditkarteninformationen. Dabei holt der Operator stets die ausdrückliche Erlaubnis des Nutzers ein, bevor er auf persönliche Daten zugreift. Dies gilt auch für Login-Daten und die Bearbeitung von Captchas.

Aktuell ist der Operator über eine separate Domain erreichbar, soll jedoch langfristig direkt in ChatGPT integriert werden. OpenAI hat außerdem eine "Operator System Card" veröffentlicht, die potenzielle Risiken des KI-Agenten dokumentiert. Interessierte Nutzer sollten diese vor dem Einsatz konsultieren.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Ein von Sakana AI entwickeltes KI-System hat ein Paper für einen KI-Workshop geschrieben, das den Peer-Review-Prozess bestanden hat, also die Qualitätsprüfung vor Veröffentlichung von Beiträgen in wissenschaftlichen Zeitschriften.

Das KI-System arbeitete weitgehend autonom – von der Hypothesenbildung über Experimente bis zum fertigen Manuskript. Menschen gaben lediglich das Thema vor und wählten die besten Arbeiten zur Einreichung in der renommierten "International Conference on Learning Representations" (ICLR) aus.

Wichtig ist die Einordnung: Das Paper wurde nur auf Workshop-Ebene akzeptiert, wo die Annahmequoten bei 60–70 % liegen – deutlich höher als bei Hauptkonferenzen mit 20–30 %. Das Experiment wurde in Zusammenarbeit mit der ICLR-Konferenzleitung durchgeführt. Von drei eingereichten KI-generierten Papieren wurde eines mit einer Bewertung von 6,33 akzeptiert – knapp über der Annahmeschwelle des Workshops.

Gemäß einer vorherigen Vereinbarung wurde das Paper nach Abschluss des Review-Prozesses zurückgezogen. Diese Entscheidung war Teil des Versuchsprotokolls, da die wissenschaftliche Gemeinschaft noch keine Standards für den Umgang mit KI-generierten Manuskripten entwickelt hat. Bei ihrer internen Überprüfung fanden die Forscher typische Mängel moderner Sprachmodelle: Das System machte gelegentlich Zitierfehler, etwa wenn es LSTM-basierte neuronale Netzwerke falschen Autoren zuschrieb.

Podcast: KI-Update
KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Der taiwanische Chiphersteller TSMC verhandelt laut Reuters mit US-Technologiefirmen wie Nvidia, AMD und Broadcom über ein Joint-Venture zur Übernahme von Intels defizitärer Chipfertigung. Intel kämpft mit massiven Verlusten.

TSMC will maximal die Hälfte der Anteile halten. Die Gespräche befinden sich noch in einem frühen Stadium und wurden auf Wunsch der Trump-Regierung initiiert. Diese will verhindern, dass Intels Auftragsfertigung vollständig unter ausländische Kontrolle gerät. Die technische Umsetzung einer Kooperation wäre dem Bericht zufolge aufgrund der unterschiedlichen Fertigungsprozesse jedoch komplex und teuer.

iRobot, der US-amerikanische Hersteller von Haushaltsrobotern hat zuletzt deutlich weniger eingenommen und schreibt trotz massivem Personalabbau anhaltende Verluste. iRobot selbst äußert deshalb erhebliche Zweifel an der Fortführung der eigenen Geschäfte in diesem Jahr. Der Aktienkurs der Firma stürzte daraufhin ab und gab innerhalb weniger Stunden um teilweise über 40 Prozent nach.

Im August 2022 hatte der Konzern Amazon angekündigt, den Hersteller von Roomba-Haushaltsrobotern samt Schulden übernehmen zu wollen. Doch in Europa gab es dazu erhebliche Vorbehalte seitens der EU-Kommission, da Amazon in der Doppelrolle als Händler und Hersteller die Produkte anderer Anbieter auf seiner Plattform benachteiligen könnte. Daraufhin hatte Amazon die Übernahme von iRobot abgeblasen.

(mali)