KI-Update kompakt: OSAID, Apple Intelligence, Australien, Vision Language Models

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 10 Min.
Von
Inhaltsverzeichnis

Die Open Source Initiative (OSI) hat eine neue Definition für Open-Source-KI vorgelegt, die weitreichende Auswirkungen auf die Branche haben könnte. Nach monatelanger Konsultation mit Tech-Unternehmen, Anwendern und der Politik wurden klare Kriterien festgelegt: Eine KI muss Zugang zu den Trainingsdaten gewähren, den gesamten Code offenlegen und alle Einstellungen sowie Gewichte transparent machen. Ziel ist es, dass das Modell vollständig nachgebaut werden kann. Zudem muss die KI frei nutzbar, veränderbar und als Basis für Eigenentwicklungen verwendbar sein.

Diese Definition stellt viele bisherige "Open-Source"-Bezeichnungen infrage. So gilt etwa Metas Llama-Familie trotz umfangreicher Offenlegung nicht als Open-Source, da die Trainingsdaten fehlen und Meta Einschränkungen für Plattformen mit über 700 Millionen monatlichen Nutzern macht. Auch andere Anbieter wie Aleph Alpha und Stability AI müssen ihre Open-Source-Bezeichnungen überprüfen. Die neue Definition könnte auch politische Folgen haben, insbesondere im Kontext des AI Acts, der Ausnahmen für Open-Source-Modelle vorsieht. Allerdings wurden bereits zuvor Einschränkungen festgelegt, etwa für Hochrisiko-Modelle oder kostenpflichtige Angebote. Die OSI plant, vermeintliche Open-Source-Bezeichnungen öffentlich anzuprangern, kann jedoch keine rechtlichen Sanktionen verhängen.

Apple hat einen konkreteren Fahrplan für Apple Intelligence in der EU vorgelegt: In Deutschland und weiteren EU-Mitgliedsstaaten wird Apple die KI-Funktionen im April 2025 auf iPhones und iPads freischalten. "Funktionen wie Schreibwerkzeuge, Genmoji, ein neu gestaltetes Siri mit verbessertem Sprachverständnis, Integration von ChatGPT" hat Apple zum EU-Start in Aussicht gestellt. Tiefergehende Neuerungen für Siri lassen dann möglicherweise noch weiter auf sich warten. Auch die EU-Einführung der KI-Funktionen soll schrittweise erfolgen. Offenbar ist parallel auch eine deutlich erweiterte Sprachunterstützung geplant, die etwa Deutsch, Französisch und Italienisch umfasst.

Diese Neuerungen sind vermutlich Teil von iOS 18.4 und macOS 15.4. Vorerst setzt Apple Intelligence und das neue Siri-System auf Englisch als Sprache. Die Einführung schob Apple ursprünglich unter Verweis auf "regulatorische Unsicherheiten" durch die neuen EU-Regeln für Gatekeeper (Digital Markets Act – DMA) auf. Was sich nun konkret geändert hat, bleibt allerdings unklar.

Der US-Konzern Meta arbeitet an einer auf künstlicher Intelligenz (KI) basierenden Suchmaschine. Damit will das Unternehmen, zu dem die Social-Media-Plattformen Facebook und Instagram gehören, die Abhängigkeit von Suchmaschinen wie Alphabets Google oder Microsofts Bing verringern. Das berichtete am Montag die US-Tech-Webseite The Information und beruft sich dabei auf eine mit der Angelegenheit vertraute Person. Dem Bericht zufolge soll die von einem neuen Web-Crawler angetriebene Suchmaschine mit dem Chatbot Meta AI von Meta auf WhatsApp, Instagram und Facebook integriert werden.

Metas neue KI-Suchmaschine wird demnach konversationelle Antworten zu aktuellen Ereignissen, Nachrichten, Aktienkursen oder Sportresultaten liefern. Aktuell vertraut Meta auf die Suchmaschinen Google und Bing. Der Schritt hin zur eigenen Suchmaschine könnte Meta einen Plan B bieten, falls entweder Google oder Microsoft oder beide beschließen, die Partnerschaft mit Meta zu beenden, heißt es in dem Bericht.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in rund 1,4 Prozent der untersuchten Audioaufnahmen Inhalte halluziniert, also Sätze und Phrasen einfügt, die im Originalton nicht vorkommen. Andere Forschungsarbeiten berichteten sogar von deutlich höheren Halluzinationsraten von 50 Prozent und mehr. Längere Sprechpausen führen offenbar häufiger zu solchen Fehlern.

Das Problem der Halluzinationen betrifft auch KI-generierte Podcasts. Hier ist die Fehleranfälligkeit aufgrund der kreativen und teilweise ausschweifenden Interpretation der Inhalte durch die KI besonders hoch. Menschliche Kontrolle bleibt daher bei allen KI-generierten Inhalten unerlässlich, egal ob es sich um Texte, Audioinhalte oder Suchergebnisse handelt. Blindes Vertrauen in die Ausgaben von KI-Systemen wird beim derzeitigen Stand der Technik unweigerlich zu Fehlern führen.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Die australische Digital Transformation Agency (DTA) hat die Ergebnisse eines sechsmonatigen Tests des KI-Assistenten Microsoft 365 Copilot im öffentlichen Dienst vorgelegt. An der Evaluation nahmen 56 Behörden mit insgesamt 5765 Lizenzen teil. Laut Umfragen und Interviews unter den über 2000 Teilnehmern stellten 69 Prozent eine Beschleunigung ihrer Arbeit fest, insbesondere bei Zusammenfassungen, Dokumentenentwürfen und der Informationssuche. Die höchsten Effizienzgewinne von bis zu einer Stunde pro Tag verzeichneten Mitarbeitende der mittleren Verwaltungsebenen sowie Angestellte in IT-Rollen. 40 Prozent der Teilnehmer gaben an, die gewonnene Zeit für hochwertigere Aufgaben wie Führungsaufgaben und strategische Planungen zu nutzen. Trotz der vielversprechenden Ergebnisse zeigte die Studie auch Herausforderungen auf: Nur ein Drittel der Testnutzer verwendete den KI-Assistenten tatsächlich, obwohl sich 77 Prozent positiv über die Technologie äußerten.

Sieben Prozent gaben sogar an, durch den Einsatz von Copilot mehr Zeit für Faktenchecks und Nachbearbeitung zu benötigen und somit insgesamt Zeit zu verlieren. Weitere Hindernisse bei der Implementierung waren technische Integrationsprobleme, mangelnde Schulung der Mitarbeiter, rechtliche Unsicherheiten bezüglich der Verantwortlichkeiten sowie Bedenken hinsichtlich Datensicherheit, möglicher Voreingenommenheit der KI und Umweltauswirkungen durch den erhöhten Energieverbrauch. Basierend auf den Erkenntnissen empfiehlt die DTA einen detaillierten Implementierungsansatz mit speziellem Training, klaren Richtlinien und aktivem Risikomanagement. Die Behörden sollten zudem ihre Arbeitsabläufe analysieren, um weitere Anwendungsfälle für den KI-Einsatz zu identifizieren.

Kinder können ähnliche Aufgaben schon im Kindergarten lösen: In welche Richtung geht eine Spirale auf? Welche Elemente sind vertikal und welche horizontal ausgerichtet? Was für Menschen trivial klingt, stellt auch die größten Vision-Language-Models (VLMs) vor große bis unmögliche Herausforderungen. Das zeigt eine Studie der TU Darmstadt, der Universität Eindhoven, dem Deutschen Forschungszentrum für KI und hessian.ai. In den Tests ging es unter anderem um Mustererkennung. Die VLMs sollten beispielsweise erkennen, welche Objekte konvex und welche konkav sind beziehungsweise zusammengehören. Doch selbst wenn sie aufgefordert wurden, sich explizit auf diese Konzepte zu konzentrieren und sie zu analysieren, scheiterten sie. Das weise laut den Forschenden nicht nur auf ein mangelndes Verständnis dieser elementaren visuellen Konzepte hin, sondern auch auf die Unfähigkeit zur Verallgemeinerung auf ungesehene Konzepte.

Auch der Versuch, den VLMs Multiple-Choice-Lösungen mit 100 Antworten vorzugeben, half nur wenig. Erst die weitere Einschränkung dieser Auswahlmöglichkeit auf zehn Antworten führte zu besseren Ergebnissen. Das heißt jedoch nach wie vor nur eine Trefferquote von im besten Fall etwa 60 bis 70 Prozent. Grund für das Scheitern ist laut den Forschenden teilweise bereits die fehlende Fähigkeit, ein Bild zu erkennen. Hinzukommt der Mangel an logischem Denken und Schlussfolgern.

Ein Forscherteam hat das KI-System ROCKET-1 entwickelt, das präzisere Interaktionen von KI-Agenten in virtuellen Umgebungen wie Minecraft ermöglicht. ROCKET-1 kombiniert dabei verschiedene KI-Modelle: GPT-4o plant komplexe Aufgaben und zerlegt sie in Einzelschritte, das Modell Molmo erkennt relevante Objekte in Bildern und SAM-2 von Meta erzeugt präzise Objektmasken und verfolgt die Objekte in Echtzeit. Für das Training von ROCKET-1 nutzte das Team den "Contractor"-Datensatz von OpenAI mit 1,6 Milliarden Einzelbildern menschlichen Spielverhaltens in Minecraft. Mittels einer speziellen Methode namens "Backward Trajectory Relabeling" lernt das System automatisch, relevante Objekte zu erkennen und mit ihnen zu interagieren.

In Tests erreichte ROCKET-1 bei einfachen Minecraft-Aufgaben wie der Herstellung von Werkzeugen oder dem Abbau von Ressourcen Erfolgsraten von bis zu 100 Prozent. Selbst bei komplexeren Aufgaben wie dem Abbau von Diamanten lag die Erfolgsrate noch bei 25 Prozent. Eine Einschränkung ist allerdings, dass das System nur mit Objekten interagieren kann, die sich in seinem Sichtfeld befinden. Dies führt zu einem erhöhten Rechenaufwand.

Wenn Künstliche Intelligenz (KI) sich rasch verbreitet, könnte einer Studie zufolge im Jahr 2030 bis zu tausendmal mehr damit verbundener Elektroschrott entstehen als im Jahr 2023. Die Müllmenge ließe sich aber durch verschiedene Maßnahmen deutlich verringern, schreibt eine Gruppe um Peng Wang von der Chinesischen Akademie der Wissenschaften in Xiamen im Fachjournal Nature Computational Science. Als Basis dient den Wissenschaftlern ein Szenario, in dem sie von der Übernahme großer Sprachmodelle auch für den täglichen Gebrauch ausgehen, wie es heute schon bei einigen Suchmaschinen und sozialen Plattformen erkennbar ist. Bei einer so breiten KI-Anwendung müssten die Rechenzentren zum Training und zur Bereitstellung von KI-Modellen sehr schnell wachsen. In der Folge könnte die Menge an Elektroschrott durch aussortierte Server und andere Geräte von rund 2550 Tonnen im Jahr 2023 auf bis zu 2,5 Millionen Tonnen im Jahr 2030 steigen.

Bei Szenarien mit geringerem KI-Einsatz könnte die Schrottmenge in jenem Jahr auf 400.000 bis 1,5 Millionen Tonnen begrenzt bleiben. Das Forschungsteam berechnete allerdings auch, wie stark verschiedene Maßnahmen die Schrottmenge reduzieren könnten. Am effektivsten wäre es demnach, Server und andere Geräte nach drei Jahren nicht zu verschrotten, sondern noch ein Jahr länger für einfachere KI-Aufgaben oder für ganz andere Zwecke zu verwenden. Dies würde die Müllmenge im Vergleich zum Basisszenario um 62 Prozent verringern.

(igr)