"Man glaubte auch, ein Computer könnte niemals in eine Hosentasche passen"

Google CEO Sundar Pichai hat die Entwicklung von Gemini vorangetrieben. MIT Technology Review gab er am Vorabend der Veröffentlichung ein Interview.

In Pocket speichern vorlesen Druckansicht 16 Kommentare lesen
Sundar Pichai

Google-Chef Sundar Pichai.

(Bild: dpa, Gian Ehrenzeller/KEYSTONE/dpa)

Lesezeit: 22 Min.
Von
  • Mat Honan
Inhaltsverzeichnis

Google hat Anfang Dezember die erste Phase seines Künstlichen-Intelligenz-Modells (KI) der nächsten Generation namens Gemini vorgestellt. CEO Sundar Pichai, der die Entwicklung jahrelang vorangetrieben hat und zuvor für Chrome und Android verantwortlich war, ist bekanntermaßen produktbesessen. 2016 sagte er in seinem ersten Gründerbrief als CEO voraus, dass "wir uns von einer Welt, in der das Handy im Vordergrund steht, zu einer Welt bewegen, in der KI im Vordergrund steht". In den folgenden Jahren hat Pichai KI von Android-Geräten bis hin zur Cloud tief in alle Google-Produkte integriert.

Trotzdem war das letzte Jahr weitgehend von den KI-Veröffentlichungen eines anderen Unternehmens geprägt: OpenAI. Die Einführung von DALL-E und GPT-3.5, gefolgt von GPT-4 in diesem Jahr, dominierte den Sektor und löste ein Wettrüsten zwischen Start-ups und Tech-Giganten aus. Gemini ist der jüngste Wurf in diesem Wettlauf.

Das hochmoderne System wurde von Google DeepMind entwickelt, der neuen Organisation unter der Leitung von Demis Hassabis, die alle KI-Teams des Unternehmens unter einem Dach vereint. Gemini ist bereits in Googles Chat-Tool Bard integriert und wird bis zum kommenden Jahr in die gesamte Produktpalette des Unternehmens eingefügt.

MIT Technology Review hat am Vorabend der Gemini-Einführung mit Sundar Pichai darüber gesprochen, was Gemini für Google, seine Produkte, KI und die Gesellschaft im Allgemeinen bedeuten wird.

Warum ist Gemini so aufregend? Wie sehen Sie das Gesamtbild in Bezug auf ihre Leistungsfähigkeit, ihren Nutzen und die Richtung, in die sich die KI in all Ihren Produkten entwickelt?

Was es so spannend macht, ist die Tatsache, dass es sich um ein von Grund auf multimodales Modell handelt. Genau wie der Mensch lernt es nicht nur auf der Grundlage von Text allein, sondern durch Text, Audio und Code. Dadurch ist das Modell von Natur aus leistungsfähiger, und ich denke, dass es uns helfen wird, neue Fähigkeiten zu entwickeln und zum Fortschritt in diesem Bereich beizutragen. Das ist aufregend.

Es ist auch deshalb so spannend, weil Gemini Ultra bei 30 der 32 führenden Benchmarks und insbesondere bei den multimodalen Benchmarks auf dem neuesten Stand der Technik ist. Der MMMU-Benchmark (Massive Multi-discipline Multimodal Understanding) zeigt den Fortschritt in diesem Bereich. Ich persönlich finde es aufregend, dass bei MMLU [Massive Multi-Task Language Understanding], einem der führenden Benchmarks, die 90-Prozent-Schwelle überschritten wurde, was ein großer Meilenstein ist.

Vor zwei Jahren lag der Stand der Technik noch bei 30 oder 40 Prozent. Man muss sich nur einmal vor Augen führen, wie groß die Fortschritte in diesem Bereich sind. Bei ungefähr 89 Prozent ist ein Mensch der Experte in diesen 57 Bereichen. Es ist das erste Modell, das diese Schwelle überschreitet.

Ich freue mich auch deshalb, weil es endlich in unsere Produkte aufgenommen wird. Es wird für Entwickler verfügbar sein. Es ist eine Plattform. KI ist ein tiefgreifender Plattformwechsel, größer als das Web oder Mobilgeräte. Deshalb ist es in diesem Moment auch für uns ein großer Schritt.

Lassen Sie uns mit diesen Benchmarks beginnen. Gemini schien GPT-4 in fast allen, oder fast allen, voraus zu sein, aber nicht um viel. GPT-4 hingegen schien ein sehr großer Sprung nach vorn zu sein. Sind wir dabei, ein Plateau zu erreichen, das einige dieser großen Sprachmodell-Technologien erreichen können? Oder werden wir weiterhin diese großen Wachstumskurven haben?

Zunächst einmal sehen wir noch eine Menge Spielraum. Einige der Benchmarks sind bereits hoch. Man muss sich darüber im Klaren sein, dass man sich jetzt am Rande der Kurve befindet, wenn man versucht, von 85 Prozent auf etwas Höheres zu kommen. Es mag also nicht als viel erscheinen, aber es sind Fortschritte zu verzeichnen. Wir werden auch neuere Benchmarks brauchen. Das ist einer der Gründe, warum wir uns auch mit dem multimodalen MMLU-Benchmark beschäftigt haben. Bei einigen dieser neuen Benchmarks ist der Stand der Technik noch viel niedriger. Es gibt noch viel zu tun. Die Skalierungsgesetze werden immer noch funktionieren. Indem wir die Modelle größer machen, wird es auch mehr Fortschritte geben. Wenn ich das alles zusammen betrachte, habe ich wirklich das Gefühl, dass wir noch ganz am Anfang stehen.

Was sind die wichtigsten Durchbrüche von Gemini und wie werden sie zum Einsatz kommen?

Es ist so schwierig für die Menschen, sich die Sprünge vorzustellen, die passieren werden. Wir stellen APIs zur Verfügung, und die Leute werden sich das ziemlich tiefgreifend vorstellen. Ich denke, Multimodalität wird ziemlich groß werden. In dem Maße, in dem wir diesen Modellen das Denken beibringen, wird es immer größere Durchbrüche geben – und die richtig tiefgreifenden Durchbrüche kommen noch.

Eine Möglichkeit, über diese Frage nachzudenken, ist Gemini Pro. Es schneidet bei Benchmarks sehr gut ab. Aber als wir es in Bard integriert haben, konnte ich es als Benutzer spüren. Wir haben es getestet, und die Beliebtheitswerte sind in allen Kategorien ziemlich stark gestiegen. Deshalb bezeichnen wir es als eines unserer bisher größten Upgrades. Auch wenn wir Blindvergleiche anstellen, wird die bessere Leistung deutlich. Diese besseren Modelle erhöhen also die Benchmarks. Es gibt also Fortschritte und wir werden sie weiter trainieren.

Aber ich kann es kaum erwarten, sie in alle unsere Produkte einzubauen. Diese Modelle sind so leistungsfähig. Die Produkte so zu gestalten, dass sie die Möglichkeiten der Modelle voll ausschöpfen – das wird in den nächsten Monaten spannend sein.

Der Druck, Gemini auf den Markt zu bringen, war wahrscheinlich enorm groß. Was haben Sie gelernt, als Sie sahen, was nach der Veröffentlichung von GPT-4 passiert war? Welche Ansätze haben sich in dieser Zeit verändert?

Eine Sache, zumindest für mich: Es fühlt sich mitnichten wie ein Nullsummenspiel an, oder? Bedenken Sie, wie tiefgreifend die Umstellung auf KI ist und in welchem frühen Stadium wir uns befinden. Es liegt eine Welt voller Möglichkeiten vor uns.

Aber um auf Ihre konkrete Frage einzugehen: Es ist ein weites Feld, auf dem wir alle Fortschritte machen. Es gibt eine wissenschaftliche Komponente, eine akademische Komponente; es wird viel veröffentlicht, und wir sehen, wie Modelle wie GPT-4 in der realen Welt funktionieren. Daraus haben wir gelernt.

Sicherheit ist ein wichtiger Bereich. So haben wir bei Gemini Sicherheitstechniken gelernt und verbessert, die darauf beruhen, wie die Modelle in der Praxis funktionieren. Das zeigt, wie wichtig Dinge wie die Feinabstimmung sind. Mit Med-PaLM 2 haben wir unter anderem gezeigt, dass ein solches Modell durch eine Feinabstimmung auf einen bestimmten Bereich die modernsten Modelle übertreffen kann. Auf diese Weise haben wir gelernt, wie leistungsfähig die Feinabstimmung ist.

Vieles davon wird bei der Arbeit an Gemini angewandt. Ein Grund dafür, dass wir uns mit Ultra [der fortschrittlicheren Version von Gemini, die im kommenden Jahr auf den Markt kommen wird] mehr Zeit lassen, ist, dass wir es gründlich auf Sicherheit testen. Aber wir nehmen auch eine Feinabstimmung vor, um die Möglichkeiten wirklich auszuschöpfen.