Blick ins Heft c't 21/2023 KI-Fehler erkennen und umgehen
Mal wirken sie genial, mal abgrundtief naiv. Was ChatGPT und Co. wirklich können, sollen ausgeklügelte Benchmarks herausfinden: ein ambitioniertes Unterfangen.
Der Hype um ChatGPT flaut ab, mal wieder war KI nicht so "schlau" wie versprochen, die Karawane zieht enttäuscht weiter. Das ist ein wenig schade, denn eigentlich beginnt es gerade erst, spannend zu werden. Für diese Ausgabe habe ich zusammen mit meinen Kollegen Jo Bager und Hartmut Gieselmann hinter die Kulissen des KI-Benchmarkens geblickt.
So unfertig und experimentell ChatGPT, Bard und Co. wirken: Sie haben intensive Tests durchlaufen, bevor sie in die freie Wildbahn entlassen wurden. Bewaffnet mit kniffligen Fragen und Aufgaben versuchen deren Entwickler zu messen, wieviel ein Sprachmodell gelernt hat, ob es Fakten in größere Zusammenhänge einordnen kann und ob es Verschwörungstheorien aufsitzt. Selbstverständlich gibt es auch zahlreiche Spezial-Benchmarks. Einer versucht, den berühmt-berüchtigten Bias zu quantifizieren: also eine potenzielle Schieflage der KI, die sich etwa in soziokulturellen Stereotypen äußert. Seit neuestem experimentieren die Forscher sogar mit einer virtuellen Chatbot-Arena, in der Mensch und Maschine zum Duell antreten.
Doch ähnlich wie die Trainingsdaten sind auch diese Benchmarks oft fehlerhaft oder lassen gar keine Rückschlüsse auf die Fähigkeiten zu, die sie vermeintlich abprüfen. Forscher und Unternehmen arbeiten nun fieberhaft daran, systematische, lebensnahe und vor allem langlebige Aufgabenkataloge aufzuziehen, die von der rasanten Entwicklung nicht sofort überholt werden. Mein Kollege Hartmut Gieselmann wirft einen kritischen Blick auf die suboptimalen Bedingungen, unter denen Aufgabensammlungen teils billig und hastig zusammengeschustert werden. Ich habe mich mit den technischen Herausforderungen beschäftigt und mit dem KI-Experten René Peinl von der Hochschule Hof über seine eigene Benchmark-Forschung gesprochen. Und Jo Bager gibt Tipps, wie man sich die Chatbots trotz ihrer Unzulänglichkeiten zunutze macht. Wer gut prompten kann, ist klar im Vorteil.
- KI-Sprachmodelle: Warum sie sich so oft irren
- Benchmarks beurteilen die Leistung von LLMs
- Interview: Wie Forscher KI-Leistung messen
- Fehler verringern durch bessere Prompts
Meine persönlichen Highlights in dieser Ausgabe
Manchmal rücken durch Technik- oder Nutzerfehler Festplatten, SD-Karten oder SSDs gespeicherte Daten nicht mehr heraus. Je nach Wert des verlorenen geglaubten Datenguts muss es vielleicht nicht immer gleich ein professioneller Datenretter sein. Die folgenden Artikel zeigen Wege, um mit Hausmitteln zu bergen und zu retten.
Ein Jahr, nachdem die Bundesregierung ihre Digitalstrategie verabschiedet hat, haben Wirtschaftsverbände und zivilgesellschaftliche Organisationen die Umsetzung scharf kritisiert.
Mal eben Daten kopieren, das Backup fix erledigen – flotte USB-SSD lösen lahme USB-Festplatten ab. Die meisten sind klein, leicht und schnell. Wer es noch kompakter mag, greift zur SSD im USB-Stick-Format.
Wenn es viel Papier zu digitalisieren gibt, ist ein Einzugscanner die beste Wahl. Ein solches Gerät braucht wenig Platz, scannt in Minuten Dutzende Einzelblätter und speichert das Ergebnis als durchsuchbares PDF ab. Doch welches Modell passt zu den persönlichen Anforderungen? Die Auswahl ist groß.
Soll der morgendliche Stapel Briefe im Büro schnell auf die Netzwerkablage transferiert werden, braucht es nicht unbedingt einen laufenden PC mit Scansoftware. Autonome Einzugscanner mit Netzwerkanschluss per Kabel oder Funk erledigen dies auch alleine. Doch bei manchen hapert es am Funktionsumfang oder der Einrichtung.
Treffen gehärtete Stahlklingen mit hoher Geschwindigkeit auf weiche Ziele, verheißt das nichts Gutes. KI-gestützte Sensorik in Mährobotern soll solche Kollisionen vermeiden. Der ernüchternde Test mit Igelattrappen zeigt: Trotz der Versprechen der Hersteller kämen nicht alle Vierbeiner unversehrt davon.
Schreibt man nun „if“ oder „when“, „since“ oder „for“, „bring“ oder „take“? Selbstverfasste englische Texte klingen mitunter irgendwie verkehrt, ohne dass man genau sagen könnte, woran das liegt. KI-gestützte Assistenten bieten sich an, solchen Texten mit Stilgefühl und differenziertem Wortschatz den letzten Schliff zu verleihen.
Im taiwanischen Fertigungswerk von PowerColor konnten wir die Produktion einer Radeon RX 7900 XTX von der nackten Platine bis zum Versand begleiten. Trotz Hightech erinnert überraschend viel an c’t-Testlabore.
Hörgeräte sind nicht nur teuer. Viele scheuen sich auch vor dem sozialen Stigma, das mit ihnen immer noch verbunden ist. Wenn man Gesprächen nicht mehr richtig folgen kann, helfen eventuell AirPods Pro 2 als vergleichsweise günstige Hörhilfen, die als solche nicht zu erkennen sind. Wir erklären, wie man sie richtig einstellt und auch den iPhone-Klang für Ihr Gehör verbessert.
PS aus der Redaktion
Ich wohne ja in Bayern und nächste Woche geht hier wieder die Schule los. Außerdem stehen die Landtagswahlen an und die CSU verspricht Tablets für alle Schüler. Aber eine Schwalbe macht noch keinen Sommer und ein Tablet keinen Unterricht. Fähige und vor allem genügend Lehrer braucht das Land, fordert der Augsburger Pädagogikprofessor Klaus Zierer im Interview mit meiner Kollegin Dorothee Wiegand, und bescheinigt der CSU einen "Digitalisierungswahn".
Was in den 80ern die Sprachlabore und danach die Computerräume waren, seien heute die Tablets für alle: eine teure Fehlinvestition. Trotz der Gelder, die bisher in die Digitalisierung geflossen sind, gingen die Lernleistungen zurück. Dabei möchte Zierer Tablets und Technik an Schulen keineswegs verteufeln, kritisiert aber den offensichtlich naiven Umgang damit. Die komplexen Probleme des Bildungssystems ließen sich nicht einfach mit dem Verteilen von Geräten lösen. Wer selbst einmal erfahren hat, wie vermeintlich schlechte Schüler bei guten, motivierenden Lehrern plötzlich aufblühen, kann das nur unterschreiben.
Immer in c't
- Schlagseite
- Standpunkt Chatbots: Hutnadel bereithalten!
- Tipps & Tricks
- FAQ E-Mail-Client Mozilla ThunderbirdSeite
- Vorsicht, Kunde Amazon kassiert Verkaufserlös
- Story Der nichtelektronische Mann
- Leserforum
- Inhaltsverzeichnis c’t 21/2023
Blick ins Heft als Newsletter
Bestellen Sie unsere Heftvorschau als Newsletter und erhalten Sie alle 2 Wochen einen Überblick über die aktuelle c't per Mail:
(atr)