KI-Update kompakt: SimpleQA, Google Suche, NotebookLlama, Claude 3.5 Sonnet

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

04.11.2024, 15:24 Uhr

Lesezeit: 11 Min.

Von

Isabel Grünewald
The Decoder

OpenAI legt SimpleQA vor

OpenAI stellt mit SimpleQA einen neuen Test für KI-Modelle vor, der die Fähigkeit von KI-Modellen prüft, Fragen mit nur einer richtigen Antwort zu beantworten. Der Test umfasst 4326 Fragen, die von KI-Trainern sorgfältig zusammengestellt wurden. Die Fragen decken diverse Fachgebiete wie Film, Wissenschaft, Geografie und Technologie ab. Bemerkenswert ist, dass selbst fortschrittliche Modelle wie GPT-4o und o1-Preview nur etwa 40 Prozent korrekte Antworten erreichen.

SimpleQA testet auch die "Calibration" - also wie sicher sich die Modelle ihrer Antworten sind. Dies geschieht entweder durch direkte Nachfrage oder durch 100-maliges Wiederholen derselben Frage. Mehr identische Antworten deuten auf größere Sicherheit hin. Die großen Modelle GPT-4o und o1-Preview zeigen dabei deutlich mehr Sicherheit und Genauigkeit als kleinere Varianten.

Mehr KI für Google Maps: Gemini kuratiert Inhalte

Google integriert seinen KI-Assistenten Gemini in Maps mit dem Ziel, die Nutzererfahrung deutlich zu verbessern. Die KI kann nun Bewertungen von über 250 Millionen gespeicherten Orten zusammenfassen und gezielte Empfehlungen für Aktivitäten geben. Das Feature ist zunächst nur in den USA für Android und iOS verfügbar, eine Integration in die Google Suche ist bereits geplant.

Zu den neuen Funktionen gehört auch eine intelligente Routenplanung: Die KI kann automatisch interessante Zwischenstopps vorschlagen, darunter Sehenswürdigkeiten, malerische Orte und Restaurants. Die Navigation wurde ebenfalls verbessert und zeigt nun deutlicher Spurinformationen, Verkehrsschilder und Zebrastreifen an - allerdings zunächst nur in 30 US-Großstädten.

Weltweit verfügbar werden dagegen Echtzeitdaten zu Wetter und Straßenzuständen, einschließlich Informationen zu nicht geräumten oder überfluteten Straßen. Zusätzlich bietet Google nun auch eine verbesserte Parkplatzsuche mit AR-gestützter Fußwegnavigation vom Parkplatz zum Ziel. Die Verzögerung der Einführung in der EU wird mit regulatorischen Unsicherheiten begründet.

ChatGPTs Suche ist fertig

OpenAI hat die lang erwartete Suchfunktion für ChatGPT offiziell eingeführt, allerdings zunächst nur für Plus- und Team-Versionen. Die neue Funktion, die ursprünglich als Prototyp "SearchGPT" mit 10.000 Testnutzern startete, integriert sich nahtlos in den Chatbot und kann die Websuche entweder automatisch oder per manuellem Schalter aktivieren.

Technisch basiert die Suche auf einer speziell angepassten Version von GPT-4o. Neben der Bing-Suchmaschine nutzt sie weitere spezialisierte Datenquellen für Wetter, Börsenkurse, Sport und News. Zu den Nachrichtenquellen gehören renommierte Medien wie Associated Press, Reuters, Financial Times und weitere. Die Antworten werden mit passenden Bildern angereichert, und alle verwendeten Quellen werden transparent in einer separaten Spalte aufgelistet.

OpenAI plant bereits weitere Verbesserungen, besonders in den Bereichen Shopping und Reisen. Zukünftig soll die Suchfunktion auch für Advanced Voice und Canvas sowie für Nutzer mit Gratisaccount verfügbar sein. Die Einführung ist Teil eines größeren Trends: Neue KI-Suchdienste wie Perplexity, You.com und Kagi drängen auf den Markt, und auch Meta arbeitet angeblich an einer eigenen KI-Suche.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Google bringt die Google Suche in die Gemini-API

Entwickler können nun die Google-Suche in die Gemini-API integrieren. Die neue Funktion namens "Grounding with Google Search" soll genauere und aktuellere KI-Antworten ermöglichen, kostet aber 35 Dollar pro 1.000 Suchanfragen. Die Funktion steht für alle Versionen der Gemini-1.5-Modelle zur Verfügung und kann im Google AI Studio kostenlos getestet werden.

Durch die Integration der Google-Suche sollen die Antworten der KI auf aktuellen Fakten basieren und detaillierter ausfallen. Die Umsetzung erfolgt über ein dynamisches Retrieval, das automatisch bewertet, ob eine Anfrage von der Suchfunktion profitieren würde. Bei der Integration müssen Entwickler auch die "Google Search Suggestions" implementieren. Diese Vorschläge sollen zusätzliche Suchanfragen und Einnahmen für Google generieren. Sie müssen exakt wie vorgegeben unter der KI-Antwort angezeigt werden und direkt auf die Google-Suchergebnisseite weiterleiten.

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Amazon verschiebt verbesserte Alexa offenbar bis 2025

Amazon verschiebt laut Bloomberg-Bericht den Launch seiner überarbeiteten KI-Assistentin "Remarkable Alexa" auf 2025. Die Premium-Version, die ursprünglich im Herbst 2024 erscheinen sollte, wird kostenpflichtig sein und soll deutlich natürlichere Unterhaltungen ermöglichen. Die Verschiebung erfolgt aufgrund mehrerer technischer Herausforderungen.

Laut Insider-Berichten gibt es noch erhebliche Probleme: Die KI benötigt zu lange für ihre Antworten, neigt zu Halluzinationen und hat Schwierigkeiten bei der Smart-Home-Integration. Beta-Tester zeigten sich von den Leistungen bisher wenig beeindruckt. Unter der Haube arbeiten mehrere Large Language Models zusammen, wobei sich Amazon weitgehend für die Nutzung von Claude (Anthropic) statt des eigenen KI-Modells entschieden hat - etwa wegen der schnelleren Antwortzeiten.

Der geplante monatliche Preis für die Premium-Version soll zwischen 5 und 10 US-Dollar liegen.

SAG-AFTRA und KI-Startup Ethovox treffen Deal zum Schutz von Stimmen

Die US-Schauspielgewerkschaft SAG-AFTRA und das KI-Startup Ethovox haben eine Vereinbarung zum Schutz von Schauspieler:innen bei der Entwicklung von KI-Stimmmodellen getroffen. Die Künstlerinnen und Künstler erhalten ein Honorar für Aufnahmen und werden langfristig am Umsatz beteiligt.

Sie müssen der Verwendung ihrer Stimme zustimmen und die Daten dürfen nur für vereinbarte Zwecke genutzt werden. Ethovox verpflichtet sich, die Rechte der Schauspielerinnen und Darsteller zu wahren und sicherzustellen, dass die Stimmen im fertigen KI-Modell nicht identifizierbar sind. Für SAG-AFTRA ist die Vereinbarung ein wichtiger Schritt, um faire Bedingungen für Menschen im KI-Zeitalter zu schaffen. Ohne klare Regeln drohe ein "Wilder Westen" des Missbrauchs und der Ausbeutung. Der Deal fügt sich in eine Reihe von Entwicklungen im Bereich der KI-Rechte für Künstlerinnen und Künstler ein. Die Gewerkschaft hat bereits ähnliche Abkommen mit Videospielunternehmen, Plattenfirmen und Filmstudios ausgehandelt.

Statt NotebookLM Audio Overview von Google: Meta bringt NotebookLlama

Meta präsentiert mit NotebookLlama einen Open-Source-Podcast-Generator als Alternative zu Googles Audio Overview. Der Generator basiert auf Metas eigenem Sprachmodell Llama-3.1-70B und ist vollständig auf GitHub verfügbar. Die Software kann PDFs oder als PDF gespeicherte Websites verarbeiten und daraus Podcasts generieren.

Der technische Ablauf ist komplex: Zunächst wird der PDF-Input in Text umgewandelt. Llama-3.1-70B erstellt dann ein Podcast-Skript, das von Llama-3.1-8B für natürlichere Dialoge optimiert wird. Die finale Audiogenerierung erfolgt mittels Parler-tts und Suno. Die Anforderungen sind beachtlich: Für die 70B-Version wird eine GPU mit 140 GB aggregiertem Speicher (bfloat-16) benötigt.

Im Vergleich zu Googles Lösung klingen NotebookLlamas generierte Stimmen noch deutlich unnatürlicher und weisen Artefakte auf. Den zwei standardmäßigen Moderatorenstimmen (männlich/weiblich) mangelt es an Emotionalität und natürlicher Betonung. Die Entwickler räumen Verbesserungspotential ein, besonders bei der Natürlichkeit der Stimmen und der Dialoggestaltung. Sie erwägen, künftig zwei KI-Agenten das Skript gemeinsam entwickeln zu lassen, um lebendigere Debatten zu erzeugen.

Claude 3.5 Sonnet kann jetzt PDFs inklusive der Bilder verstehen

Anthropic hat die PDF-Unterstützung für sein KI-Sprachmodell Claude 3.5 Sonnet in einer öffentlichen Beta-Version veröffentlicht. Claude kann nun sowohl Text als auch Bilder, Diagramme und Tabellen in PDF-Dateien analysieren und verstehen.

Damit lassen sich Finanzberichte analysieren, wichtige Informationen aus juristischen Dokumenten extrahieren oder Dokumente übersetzen. Die PDF-Unterstützung funktioniert, indem das System den Text extrahiert, jede Seite in ein Bild umwandelt und dann beides analysiert. Die Ergebnisse können mit anderen Funktionen von Claude kombiniert werden. Allerdings beträgt maximale Dateigröße 32 MB und Dokumente dürfen nicht mehr als 100 Seiten umfassen.

Die Tokenkosten für die PDF-Verarbeitung hängen vom extrahierten Text und der Seitenzahl ab. Typischerweise werden pro Seite zwischen 1.500 und 3.000 Token verbraucht. Die PDF-Unterstützung befindet sich derzeit in der öffentlichen Beta-Phase und ist zunächst im Claude-Chat und über die API verfügbar. Eine Integration in Amazon Bedrock und Google Vertex AI soll folgen.

Grok: Elon Musks KI kann jetzt Bilder und Witze verstehen

Musks KI-Chatbot Grok erhält ein bedeutendes Update und kann nun auch Bilder analysieren und verstehen. Die neue Funktion ist für zahlende X-Abonnenten verfügbar und ermöglicht es dem System, auch komplexere visuelle Inhalte wie Comics und bildliche Witze zu interpretieren und zu erklären.

Im Gegensatz zu anderen Anbietern verzichtet Grok weitgehend auf Einschränkungen bei der Bild- und Texterstellung. Während Konkurrenten beispielsweise fotorealistische Bilder oder politisch sensitive Darstellungen blockieren, verfolgt Musk einen liberaleren Ansatz und betont die Bedeutung von Humor in der KI-Entwicklung.

Technisch basiert das System auf dem Bildgenerator Flux.1 von Black Forest Labs und wurde mit der Veröffentlichung von Grok-2 im August eingeführt. Musk kündigt bereits weitere Verbesserungen an, darunter die Verarbeitung zusätzlicher Dateiformate wie PDFs. Er betont dabei die schnelle Entwicklungsgeschwindigkeit seines Teams: "Wir schaffen in Monaten, wofür andere Jahre gebraucht haben."

Künstliche Intelligenz übernimmt Code-Review bei Tabnine

Tabnine, Anbieter des gleichnamigen Code-Assistenten, kündigt einen neuen KI-Agenten speziell für Code-Reviews an. Das System soll zur Verbesserung von Code-Qualität, Sicherheit und Compliance beitragen.

Entwicklungsteams können dem System ihre Standards in natürlicher Sprache mitgeben. Neben individuell festlegbaren Regeln stellt Tabnine auch vordefinierte Regeln zur Verfügung, die bei Bedarf aktiviert werden können. Dazu zählen gängige Industriestandards sowie speziell auf Programmiersprachen und Frameworks abgestimmte Best Practices.

Das System prüft den Code schließlich automatisch in der Entwicklungsumgebung, erkennt Abweichungen und bietet Lösungsvorschläge an. Da der Agent den Code kontextuell erfasst, also nicht nur als Abfolge von Zeichen oder syntaktischen Einheiten, soll es dabei zu weniger Fehlalarmen kommen als mit herkömmlichen Review-Systemen für die statische Code-Analyse.

Intel fliegt nach 25 Jahren aus dem Dow-Jones-Index

Am 8. November 2024 muss Intel seinen Platz im "Dow Jones Industrial Average" nach 25 Jahren räumen. Der Index bildet die nach Meinung der Analysten wichtigsten und wertvollsten in den USA börsennotierten Unternehmen ab. Den Platz von Intel nimmt dann Nvidia ein.

Intel verlor in diesem Jahr bisher 54 Prozent an Börsenwert, Nvidia legte dagegen 170 Prozent zu. In dieser Woche meldete Intel zudem mit 16,6 Milliarden US-Dollar für das letzte Quartal die größten Verluste seiner Firmengeschichte. Die stehen zwar trotz gutem Cashflow überwiegend nur auf dem Papier, aber an der Börse wirken sich solche Meldungen dennoch langfristig aus. Für die Bildung eines Börsenindex ist auch der Marktwert eines Unternehmens entscheidend. Dieser liegt für Intel nur noch bei rund 99 Milliarden US-Dollar. Nvidia dagegen ist rein börsentechnisch gesehen 3,3 Billionen US-Dollar wert, die Aktie befindet sich im Zuge des KI-Booms seit zwei Jahren auf einem Höhenflug. Intel spielt hier noch kaum mit.

Abstimmung über BWKI-Publikumspreis startet

Die Abstimmung zum Publikumspreis des Bundeswettbewerbs KI (BWKI) ist eröffnet. heise Medien ist in diesem Jahr Kooperationspartner des BWKI. Meine Kollegin Andrea Trinkwalder von der c't ist Teil der Jury. Darüber hinaus kann sich ab sofort jede und jeder über die Projekte der Finalteilnehmer informieren und einen persönlichen Favoriten wählen. Wir stellen die zehn Finalisten auf heise online kurz vor.