KI-Update kompakt: Snap Spectacles, Google, GPT-4o, Image Playground

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

30.10.2024, 15:00 Uhr

Lesezeit: 8 Min.

Von

Isabel Grünewald
The Decoder

Snaps Spectacles ausprobiert: Bis das Ohr weich wird

Die fünfte Generation der Snap Spectacles ist nun auch in Deutschland verfügbar. Die AR-Brille mit auffälligem Design ermöglicht verschiedene Funktionen wie Spielen, Luftmalerei, Videotelefonie und die Nutzung von Snapchat-Lenses. Mit einem Gewicht von 226 Gramm und einem Preis von 110 Euro monatlich richtet sich das Produkt vorrangig an Entwickler.

Die Brille verfügt über Qualcomm-Prozessoren in beiden Bügeln zur besseren Wärmeableitung sowie vier Kameras für verbessertes Handtracking. Die Steuerung erfolgt über Zwick-Gesten der Finger, wobei die Brille ihre Umgebung gut erkennt und ein 46-Grad-Sichtfeld bietet. Trotz innovativer Funktionen gibt es noch Einschränkungen wie die kurze Akkulaufzeit und das hohe Gewicht, das nach längerer Nutzung unangenehm werden kann.

Wachsende Cloudgeschäfte dank KI erfreuen Alphabet

Bei Google-Mutter Alphabet geht es nicht mehr um Millionen, sondern um Milliarden, denn das Unternehmen hat seine Umsätze insbesondere bei der Internet-Suche und beim Cloud-Geschäft zuletzt stärker gesteigert als erwartet. Google-Chef Sundar Pichai schreibt das dem wachsenden Einsatz von KI-Software zu. "Im Suchbereich erweitern unsere neuen KI-Funktionen, wonach Menschen suchen können und wie sie danach suchen", so der CEO, "In der Cloud tragen unsere KI-Lösungen dazu bei, die Produktakzeptanz bei bestehenden Kunden zu steigern, neue Kunden zu gewinnen und größere Geschäfte abzuschließen". Künstliche Intelligenz hat demnach auch YouTube zu einem neuen Umsatzrekord verholfen.

Die Video-Plattform hat erstmals die Marke von 50 Milliarden Dollar bei den Einnahmen innerhalb von zwölf Monaten übersprungen. Die Anleger reagieren entzückt, Alphabets Aktienkurs macht einen ordentlichen Sprung. Denn die Umsatzsteigerung von 15 Prozent und um 34 Prozent höhere Gewinne erfreuen Alphabet und Google-Aktionäre.

Google stellt globale KI-Sprachinitiative vor

Google hat eine japanische Version seines KI-Sprachmodells Gemma 2 vorgestellt. Das kompakte Modell mit nur zwei Milliarden Parametern soll auf dem Niveau von GPT-3.5 für japanischsprachige Aufgaben performen und effizient auf Mobilgeräten laufen. Die Modellgewichte und Trainingsmaterialien sind ab sofort auf Kaggle und Hugging Face verfügbar. Um die Entwicklung weiterer Sprachversionen zu fördern, hat Google den Wettbewerb "Unlocking Global Communication with Gemma" mit einem Preisgeld von 150.000 Dollar ausgerufen. Entwicklerinnen und Entwickler weltweit sind aufgerufen, Gemma 2 an ihre jeweilige Sprache anzupassen und ihre Erfahrungen zu teilen.

Entsprechende Projekte gibt es bereits für Arabisch, Vietnamesisch, Zulu und einen speziellen koreanischen Dialekt. Im Projekt "Navarasa" haben indische Entwicklerinnen und Entwickler das Modell für zwölf indische Sprachen optimiert. Google hatte die Gemma-2-Modelle Ende Juli als Open Source zur Verfügung gestellt. Die 2-Milliarden-Parameter-Version soll trotz ihrer Kompaktheit einige deutlich größere Modelle wie LLaMA-2 mit 70 Milliarden Parametern übertreffen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Warum Sprachmodelle wie GPT-4o nicht gut zählen können

Eine neue Studie von Forschern der University of British Columbia und Yale University zeigt, dass die Tokenisierung einen erheblichen Einfluss auf die Zählfähigkeiten von KI-Sprachmodellen hat. Die Genauigkeit beim Zählen schwankte in Tests mit GPT-4o mini und Claude 3.5 Sonnet je nach Tokenisierungsmethode um bis zu 80 Prozent.

Die besten Ergebnisse wurden erzielt, wenn jeder Buchstabe ein eigenes Token bildete, während zusammengefasste Buchstaben zu schlechteren Leistungen führten. Als mögliche Lösung entwickelt Meta mit MegaByte eine Alternative, die ohne Tokenizer auskommt und stattdessen Text, Bilder und Audio auf Byte-Ebene verarbeitet. OpenAI-Mitgründer Andrej Karpathy unterstützt diesen Ansatz und befürwortet die Abschaffung der Tokenisierung in großen Sprachmodellen.

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Stability AI veröffentlicht Stable Diffusion 3.5 Medium

Stability AI hat eine neue Version seines KI-Bildgenerators Stable Diffusion veröffentlicht. Das Modell "Stable Diffusion 3.5 Medium" ist jetzt auf der Plattform HuggingFace verfügbar. Es soll eine angepasste Architektur gegenüber den größeren Varianten "Large" und "Large Turbo" haben. Das Modell ist laut Stability AI besonders für reguläre "out oft the box" Hardware optimiert und soll "auch auf einem Toaster" laufen.

Die Nutzung von Stable Diffusion 3.5 Medium ist für Forschung, nicht-kommerzielle Zwecke sowie für Unternehmen und Einzelpersonen mit einem Jahresumsatz unter einer Million Dollar kostenlos. Ob sich das Modell gegen die Konkurrenz wie FLUX behaupten kann, bleibt abzuwarten.

KI protokolliert Fernwartung in TeamViewer

Der Göppinger Softwarehersteller TeamViewer integriert ab sofort die Kl-Funktion "Session lnsights" in seine Fernwartungssoftware. Mit TeamViewer können Support-Dienstleister auf Geräte wie Desktop-PCs, Laptops und Mobiltelefone, aber auch auf Industriemaschinen und -roboter zugreifen, sie überwachen und reparieren. Eine Remoteverbindung gilt im TeamViewer-Jargon als Session. Um Session Insights nutzen zu können, muss man die Funktion zunächst in den Einstellungen aktivieren. Dann protokolliert die künstliche Intelligenz automatisch beispielsweise Support-Sessions. Die Insights-KI fasst die Inhalte einer TeamViewer-Session zusammen und soll damit aufwändige Dokumentation ersetzen. TeamViewer nutzt dafür Sprachmodelle der GPT-4.0-Familie von OpenAI, gehostet auf Microsoft Azure. Die Kundendaten werden laut Anbieter jedoch nicht fürs Training verwendet. Bevor die Software sie an das Sprachmodell übergibt, werden die Daten in mehreren Stufen anonymisiert. Passwörter werden gar nicht erfasst.

Das baden-württembergische Unternehmen reagiert mit seinem Software-Update auf eine Umfrage, die es unter Entscheidungsträgern aus IT und anderen Geschäftsbereichen durchgeführt hat. Für den AI Opportunity Report befragte TeamViewer 1400 Fachleute in Deutschland, Großbritannien, Frankreich, Australien, Singapur und den USA zu ihren Erfahrungen mit dem Einsatz künstlicher Intelligenz. Laut der Umfrage sparen IT-Fachkräfte durchschnittlich 16 Stunden Arbeitszeit pro Monat. Im Vergleich dazu nutzen Mitarbeitende im öffentlichen Sektor künstliche Intelligenz weniger häufig und sparen daher nur sechs Stunden pro Monat ein.

So funktioniert Apples Bildgenerator Image Playground

Apple führt mit iOS 18.2, iPadOS 18.2 und macOS 15.2 neue KI-gestützte Bildgenerierungsfunktionen ein. Das System besteht aus drei Komponenten: Image Playground für allgemeine Bildgenerierung, Genmoji für generative Emojis und Image Wand speziell fürs iPad. Der Zugang erfolgt aktuell über eine Warteliste für Entwickler.

Image Playground generiert ausschließlich Illustrationen, Skizzen und Cartoon-artige Bilder, um die Erstellung von Deep Fakes zu vermeiden. Die Funktion ermöglicht das Erstellen von Bildern durch Texteingabe sowie die Verfremdung bestehender Fotos. Die EU erhält diese Funktionen erst ab April 2025, wobei es bereits Möglichkeiten gibt, den Dienst früher zu nutzen.

GitHub Copilot kann jetzt Claude und Gemini statt GPT nutzen

GitHub lässt Entwicklerinnen und Entwicklern zukünftig die Wahl, welches Sprachmodell sie im Coding-Assistenten Github Copilot einsetzen wollen. Das kündigte CEO Thomas Dohmke bei der Eröffnung der Hauskonferenz GitHub Universe in San Francisco an. Zu den verfügbaren Modellen gehören neben GPT-4o auch Claude 3.5 Sonnet von Anthropic und Googles Gemini 1.5 Pro. Auch OpenAIs neue Modelle o1-preview und o1-mini stehen der Community zur Auswahl. Claude ist ab sofort verfügbar, Gemini folgt "in den kommenden Wochen", schreibt GitHub. Bislang setzte Copilot zum Generieren von Programmcode angepasste Varianten von OpenAIs GPT ein.

Neben der Wahlfreiheit des Modells kündigte GitHub mit Sparks auch ein neues Werkzeug an, das sogenannte "Mikro-Apps" vollständig über Anweisungen in natürlicher Sprache erstellt – so zumindest das Versprechen von GitHub. Entwicklerinnen und Entwickler können dabei eine Live-Vorschau des generierten Codes sehen und bearbeiten. Allerdings betont GitHub, dass zur Bedienung von Sparks keine Programmierkenntnisse nötig seien. Die so generierten Anwendungen laufen auf Desktops und Mobilgeräten.