KI-Update kompakt: PaliGemma2, Wettervorhersage, Finetuning, Perplexity

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

vorlesen Druckansicht 2 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 9 Min.
Von
Inhaltsverzeichnis

Googles neues Vision-Language-Model PaliGemma 2 kann Emotionen erkennen. Diese Fähigkeit lässt sich durch Finetuning noch ausbauen. PaliGemma 2 kann Text und Bilder verarbeiten und geht laut Google über die reine Objekterkennung hinaus, indem es Handlungen, Emotionen und das Narrativ einer Szene beschreibt. Da PaliGemma 2 frei zugänglich ist, sind Experten besorgt über den leichten Zugang zur Emotionserkennung, die laut europäischer KI-Verordnung in vielen Bereichen verboten ist. Ausnahmen gelten nur für spezielle Anwendungsfälle.

Gesichts- und Emotionserkennung ist fehleranfällig und steht im Verdacht, besonders voreingenommen gegenüber dunkelhäutigen Menschen zu sein. Auch die Erkennung von Emotionen aus der Stimme ist bereits möglich, unterliegt aber Einschränkungen. Es bleibt abzuwarten, ob die Emotionserkennungsfähigkeit von PaliGemma 2 zu einer strengeren Überprüfung und Kategorisierung des Modells nach der KI-Verordnung führen wird.

Googles KI-Forschungslabor DeepMind hat eine KI-basierte Wettervorhersage entwickelt, die sogar die führende Technik schlägt, die derweil im operativen Einsatz ist. Das hochauflösende Modell GenCast kann kleinräumig das Wetter über einen Zeitraum von 15 Tagen besser vorhersagen als das Europäische Zentrum für mittelfristige Wettervorhersage (EZMW), erklären die Forscher und Forscherinnen in einem Blogeintrag. Gleichzeitig sei für solch eine Prognose lediglich einer von Googles Tensor-Prozessoren (TPU) der fünften Generation nötig. Trainiert wurde GenCast mit Wetterdaten aus vier Jahrzehnten, die aus dem Archiv des EZMW stammen und Jahre bis 2018 umfasst haben. Daraus habe das Modell "globale Wettermuster" erlernt, schreibt DeepMind.

Getestet habe man die Leistungsfähigkeit dann an Daten des Jahres 2019. In mehr als 97 Prozent der Fälle seien die dafür generierten Vorhersagen besser gewesen als die des besten Vorhersagemodells, das beim EZMW für die Prognosen gegenwärtig eingesetzt wird. Während daran aber ein Supercomputer Stunden gerechnet habe, brauche GenCast mit einer TPU nur etwa 8 Minuten. In dem Blogeintrag kündigen die Forscher und Forscherinnen jetzt an, dass sie bald Vorhersagen in Echtzeit veröffentlichen wollen. Die könnten dann in andere Prognosen integriert werden.

Meta hat die neue Version seines Large Language Models Llama veröffentlicht. Llama 3.3 70B soll nach Angaben des Konzerns einfacher und kosteneffizienter zu betreiben sein. Um die Leistungsfähigkeit der neuesten Version einzuordnen, veröffentlichte Meta direkt eine Vergleichsübersicht, in der sich Llama 3.3 mit Nova Pro von Amazon, Gemini Pro 1.5 von Google und ChatGPT-4o von OpenAI misst. Für den Vergleich dienten laut der Übersicht verschiedene etablierte KI-Benchmarks.

Die beste Platzierung erzielte Llama im Punkt "Instruction Following", also dem genauen Befolgen von Anweisungen. Die höchste Trefferrate erzielte Llama 3.3 mit 97,5 Prozent in der Kategorie "Long Context". Ebenfalls besonders gute Ergebnisse erzielte Llama 3.3 beim Multilingual MGSM-Datensatz – hier gilt es, 250 Mathematikaufgaben auf Schulniveau in zehn verschiedenen Sprachen zu lösen – das neueste Llama schaffte davon 91,1 Prozent. Teilweise schneidet das neue Modell geringfügig schlechter ab als seine Vorgänger – vermutlich zugunsten der Vorteile beim Betrieb und der Kosteneffizienz.

Für die kommenden Llama-Generation 4 rechnet Mark Zuckerberg allerdings mit einer Verzehnfachung der benötigten Rechenleistung, um die Modelle zu trainieren. Llama 4 wird im kommenden Jahr erwartet.

Zwölf Tage voller Neuvorstellungen hat OpenAI angekündigt. Zum Auftakt dieser "Shipmas" stellte der KI-Anbieter ein neues, teureres Abonnement in die Auslage: ChatGPT Pro kostet 200 US-Dollar monatlich, zuzüglich Steuern. Das ist der zehnfache Preis des weiterhin angebotenen ChatGPT-Plus-Abonnements. Kundschaft, die tiefer in die Tasche greift, darf dafür unbegrenzt OpenAI o1 nutzen, was das Unternehmen als sein bislang gescheitestes KI-Modell bewirbt.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

OpenAI präsentierte am zweiten Tag der "Shipmas"-Tage eine Erweiterung seines Modell-Anpassungsprogramms um Reinforcement-Fine-Tuning, kurz RFT. Im Gegensatz zum bisherigen Fine-Tuning lernt das Modell dabei nicht nur Stil und Ton von Eingabedaten zu imitieren, sondern kann laut OpenAI auch neue "Denkweisen" entwickeln.

Die Funktionsweise unterscheidet sich deutlich vom bisherigen Ansatz: Bei RFT wird das Modell mit einem Problem konfrontiert und erhält Zeit für die Lösungsfindung. Die Antwort wird anschließend bewertet – erfolgreiche Denkprozesse werden verstärkt, fehlerhafte abgeschwächt. Die Methode eignet sich laut OpenAI besonders für Bereiche mit Fachwissen wie Recht, Finanzen, Ingenieurwesen und Versicherung. Als Beispiel nennt die Firma eine Zusammenarbeit mit Thomson Reuters, bei der das kompakte Modell 01 Mini zum juristischen Assistenten trainiert wurde.

OpenAI bietet interessierten Organisationen die Möglichkeit, am Reinforcement Fine-Tuning Research Program teilzunehmen. Teilnehmer erhalten Zugang zur RFT API und können Feedback geben, um die API vor der öffentlichen Veröffentlichung zu verbessern. RFT soll Anfang 2025 allgemein verfügbar sein.

Podcast: KI-Update
KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

OpenAIs Chad Nelson hat eine neue Version von OpenAIs Sora Videogenerator präsentiert. Die neue Version des KI-Videogenerators soll Videos mit einer Länge von bis zu einer Minute erzeugen können und die Ergebnisse sehen in einem Video der Präsentation beeindruckend aus. Laut Nelson wird Sora 2 drei Generierungsmodi bieten: Text zu Video, Text und Bild zu Video und Text und Video zu Video.

Die Veröffentlichung soll unmittelbar bevorstehen. Gerüchte aus dem Herbst, dass OpenAI eine effizientere und schnellere Version von Sora in Arbeit hat, wurden kürzlich durch einen API-Leak bestätigt – allerdings ist unklar, ob es sich dabei um das von Nelson gezeigte Modell handelt. Die Ankündigung könnte bereits in den nächsten Tagen im Rahmen von OpenAIs Winter-Promotion erfolgen. Ein weiterer heißer Kandidat für eine große Ankündigung ist GPT-4.5, das kürzlich in einem Datenleak erwähnt wurde.

Die kanadische Regierung investiert zwei Milliarden Kanadische Dollar in die technische KI-Infrastruktur. Bis zu 700 Millionen Dollar fließen in den Aufbau neuer Rechenzentren, eine Milliarde Dollar ist für öffentliche Supercomputer-Infrastruktur vorgesehen und 300 Millionen Dollar sollen kleinen und mittleren Unternehmen den Zugang zu Rechenleistung ermöglichen.

Laut Regierungsangaben beschäftigt Kanada über 140.000 KI-Fachkräfte und beheimatet zehn Prozent der weltweit führenden KI-Forscher. 2022 flossen mehr als 8,6 Milliarden Dollar Risikokapital in den kanadischen KI-Sektor, das sind 30 Prozent der gesamten Venture-Capital-Investitionssumme. Das neue Programm soll im Frühjahr 2025 vollständig anlaufen.

RTL Deutschland und Perplexity AI gehen eine Partnerschaft ein. Zu der Partnerschaft gehört, dass zunächst die Marken ntv und stern in die Suchmaschine einziehen, perspektivisch sollen auch weitere RTL-Produkte folgen. Andersherum sollen auch KI-Anwendungen Platz auf den Webseiten der Marken finden und dort den Menschen den Zugang zu Inhalten leichter zugänglich machen. RTL spricht in einer Pressemitteilung von "neuen Geschäftsmodellen", die erschlossen werden sollen. Neben RTL Deutschland sind auch weitere weltweite Partner bekannt gegeben worden. Ganz konkret wird dabei nicht gesagt, wie diese neuen Geschäftsmodelle aussehen werden.

Neben der Integration umfasst die Zusammenarbeit auch Forschungs- und Entwicklungsprojekte. Mitarbeitende von RTL Deutschland erhalten Zugang zu Perplexitys Enterprise Pro Programm, können also eine verbesserte KI-Suche nutzen. Details zum finanziellen Part des Deals sind nicht bekannt, ebenfalls fehlt die Information, ob Perplexity auch für andere Nutzer künftig bevorzugt Inhalte von den Partnern ausspielt.

Hessens Ermittlungsbehörden wollen den Einsatz von Künstlicher Intelligenz bei der Videoüberwachung ausbauen. Der Entwurf für ein Gesetz zur Stärkung der Inneren Sicherheit sieht vor, dass bei der Videoüberwachung öffentlicher Plätze die Daten mithilfe einer intelligenten Bildanalysesoftware ausgewertet werden. Deuten Bewegungsmuster auf eine bevorstehende Straftat mit erheblicher Bedeutung hin oder besteht der Verdacht auf Waffen, dann soll die Polizei unter bestimmten Bedingungen eine verdächtige Person in dem Bildmaterial markieren dürfen. Die biometrischen Echtzeit-Fernidentifizierung soll vorher immer durch einen Polizeibeamten oder eine Polizeibeamtin geprüft werden.

Auch die Suche nach Vermissten, Opfern von Entführung, Menschenhandel oder sexueller Ausbeutung soll unter bestimmten Voraussetzungen möglich werden. Die Gesetzesnovelle ist in dieser Woche Thema der Plenardebatten im Landtag und wird voraussichtlich verabschiedet.

Das war das KI-Update von heise online vom 9. Dezember 2024. Eine neue Folge gibt es jeden Werktag ab 15 Uhr.

(igr)