"Man glaubte auch, ein Computer könnte niemals in eine Hosentasche passen"

Google CEO Sundar Pichai hat die Entwicklung von Gemini vorangetrieben. MIT Technology Review gab er am Vorabend der Veröffentlichung ein Interview.

In Pocket speichern vorlesen Druckansicht 16 Kommentare lesen
Sundar Pichai

Google-Chef Sundar Pichai.

(Bild: dpa, Gian Ehrenzeller/KEYSTONE/dpa)

Lesezeit: 22 Min.
Von
  • Mat Honan
Inhaltsverzeichnis

Google hat Anfang Dezember die erste Phase seines Künstlichen-Intelligenz-Modells (KI) der nächsten Generation namens Gemini vorgestellt. CEO Sundar Pichai, der die Entwicklung jahrelang vorangetrieben hat und zuvor für Chrome und Android verantwortlich war, ist bekanntermaßen produktbesessen. 2016 sagte er in seinem ersten Gründerbrief als CEO voraus, dass "wir uns von einer Welt, in der das Handy im Vordergrund steht, zu einer Welt bewegen, in der KI im Vordergrund steht". In den folgenden Jahren hat Pichai KI von Android-Geräten bis hin zur Cloud tief in alle Google-Produkte integriert.

Trotzdem war das letzte Jahr weitgehend von den KI-Veröffentlichungen eines anderen Unternehmens geprägt: OpenAI. Die Einführung von DALL-E und GPT-3.5, gefolgt von GPT-4 in diesem Jahr, dominierte den Sektor und löste ein Wettrüsten zwischen Start-ups und Tech-Giganten aus. Gemini ist der jüngste Wurf in diesem Wettlauf.

Das hochmoderne System wurde von Google DeepMind entwickelt, der neuen Organisation unter der Leitung von Demis Hassabis, die alle KI-Teams des Unternehmens unter einem Dach vereint. Gemini ist bereits in Googles Chat-Tool Bard integriert und wird bis zum kommenden Jahr in die gesamte Produktpalette des Unternehmens eingefügt.

MIT Technology Review hat am Vorabend der Gemini-Einführung mit Sundar Pichai darüber gesprochen, was Gemini für Google, seine Produkte, KI und die Gesellschaft im Allgemeinen bedeuten wird.

Warum ist Gemini so aufregend? Wie sehen Sie das Gesamtbild in Bezug auf ihre Leistungsfähigkeit, ihren Nutzen und die Richtung, in die sich die KI in all Ihren Produkten entwickelt?

Was es so spannend macht, ist die Tatsache, dass es sich um ein von Grund auf multimodales Modell handelt. Genau wie der Mensch lernt es nicht nur auf der Grundlage von Text allein, sondern durch Text, Audio und Code. Dadurch ist das Modell von Natur aus leistungsfähiger, und ich denke, dass es uns helfen wird, neue Fähigkeiten zu entwickeln und zum Fortschritt in diesem Bereich beizutragen. Das ist aufregend.

Es ist auch deshalb so spannend, weil Gemini Ultra bei 30 der 32 führenden Benchmarks und insbesondere bei den multimodalen Benchmarks auf dem neuesten Stand der Technik ist. Der MMMU-Benchmark (Massive Multi-discipline Multimodal Understanding) zeigt den Fortschritt in diesem Bereich. Ich persönlich finde es aufregend, dass bei MMLU [Massive Multi-Task Language Understanding], einem der führenden Benchmarks, die 90-Prozent-Schwelle überschritten wurde, was ein großer Meilenstein ist.

Vor zwei Jahren lag der Stand der Technik noch bei 30 oder 40 Prozent. Man muss sich nur einmal vor Augen führen, wie groß die Fortschritte in diesem Bereich sind. Bei ungefähr 89 Prozent ist ein Mensch der Experte in diesen 57 Bereichen. Es ist das erste Modell, das diese Schwelle überschreitet.

Ich freue mich auch deshalb, weil es endlich in unsere Produkte aufgenommen wird. Es wird für Entwickler verfügbar sein. Es ist eine Plattform. KI ist ein tiefgreifender Plattformwechsel, größer als das Web oder Mobilgeräte. Deshalb ist es in diesem Moment auch für uns ein großer Schritt.

Lassen Sie uns mit diesen Benchmarks beginnen. Gemini schien GPT-4 in fast allen, oder fast allen, voraus zu sein, aber nicht um viel. GPT-4 hingegen schien ein sehr großer Sprung nach vorn zu sein. Sind wir dabei, ein Plateau zu erreichen, das einige dieser großen Sprachmodell-Technologien erreichen können? Oder werden wir weiterhin diese großen Wachstumskurven haben?

Zunächst einmal sehen wir noch eine Menge Spielraum. Einige der Benchmarks sind bereits hoch. Man muss sich darüber im Klaren sein, dass man sich jetzt am Rande der Kurve befindet, wenn man versucht, von 85 Prozent auf etwas Höheres zu kommen. Es mag also nicht als viel erscheinen, aber es sind Fortschritte zu verzeichnen. Wir werden auch neuere Benchmarks brauchen. Das ist einer der Gründe, warum wir uns auch mit dem multimodalen MMLU-Benchmark beschäftigt haben. Bei einigen dieser neuen Benchmarks ist der Stand der Technik noch viel niedriger. Es gibt noch viel zu tun. Die Skalierungsgesetze werden immer noch funktionieren. Indem wir die Modelle größer machen, wird es auch mehr Fortschritte geben. Wenn ich das alles zusammen betrachte, habe ich wirklich das Gefühl, dass wir noch ganz am Anfang stehen.

Was sind die wichtigsten Durchbrüche von Gemini und wie werden sie zum Einsatz kommen?

Es ist so schwierig für die Menschen, sich die Sprünge vorzustellen, die passieren werden. Wir stellen APIs zur Verfügung, und die Leute werden sich das ziemlich tiefgreifend vorstellen. Ich denke, Multimodalität wird ziemlich groß werden. In dem Maße, in dem wir diesen Modellen das Denken beibringen, wird es immer größere Durchbrüche geben – und die richtig tiefgreifenden Durchbrüche kommen noch.

Eine Möglichkeit, über diese Frage nachzudenken, ist Gemini Pro. Es schneidet bei Benchmarks sehr gut ab. Aber als wir es in Bard integriert haben, konnte ich es als Benutzer spüren. Wir haben es getestet, und die Beliebtheitswerte sind in allen Kategorien ziemlich stark gestiegen. Deshalb bezeichnen wir es als eines unserer bisher größten Upgrades. Auch wenn wir Blindvergleiche anstellen, wird die bessere Leistung deutlich. Diese besseren Modelle erhöhen also die Benchmarks. Es gibt also Fortschritte und wir werden sie weiter trainieren.

Aber ich kann es kaum erwarten, sie in alle unsere Produkte einzubauen. Diese Modelle sind so leistungsfähig. Die Produkte so zu gestalten, dass sie die Möglichkeiten der Modelle voll ausschöpfen – das wird in den nächsten Monaten spannend sein.

Der Druck, Gemini auf den Markt zu bringen, war wahrscheinlich enorm groß. Was haben Sie gelernt, als Sie sahen, was nach der Veröffentlichung von GPT-4 passiert war? Welche Ansätze haben sich in dieser Zeit verändert?

Eine Sache, zumindest für mich: Es fühlt sich mitnichten wie ein Nullsummenspiel an, oder? Bedenken Sie, wie tiefgreifend die Umstellung auf KI ist und in welchem frühen Stadium wir uns befinden. Es liegt eine Welt voller Möglichkeiten vor uns.

Aber um auf Ihre konkrete Frage einzugehen: Es ist ein weites Feld, auf dem wir alle Fortschritte machen. Es gibt eine wissenschaftliche Komponente, eine akademische Komponente; es wird viel veröffentlicht, und wir sehen, wie Modelle wie GPT-4 in der realen Welt funktionieren. Daraus haben wir gelernt.

Sicherheit ist ein wichtiger Bereich. So haben wir bei Gemini Sicherheitstechniken gelernt und verbessert, die darauf beruhen, wie die Modelle in der Praxis funktionieren. Das zeigt, wie wichtig Dinge wie die Feinabstimmung sind. Mit Med-PaLM 2 haben wir unter anderem gezeigt, dass ein solches Modell durch eine Feinabstimmung auf einen bestimmten Bereich die modernsten Modelle übertreffen kann. Auf diese Weise haben wir gelernt, wie leistungsfähig die Feinabstimmung ist.

Vieles davon wird bei der Arbeit an Gemini angewandt. Ein Grund dafür, dass wir uns mit Ultra [der fortschrittlicheren Version von Gemini, die im kommenden Jahr auf den Markt kommen wird] mehr Zeit lassen, ist, dass wir es gründlich auf Sicherheit testen. Aber wir nehmen auch eine Feinabstimmung vor, um die Möglichkeiten wirklich auszuschöpfen.

Wenn einige dieser Versionen auf den Markt kommen und die Leute anfangen, in der realen Welt damit herumzubasteln, dann werden diese Versionen Halluzinationen haben oder einige der privaten Daten preisgeben, auf die ihre Modelle trainiert sind. Die Frage ist, inwieweit das angesichts der Trainingsdaten der Technologie inhärent ist, ob es also unvermeidlich ist. Wenn ja, wie versuchen Sie das zu begrenzen?

Sie haben Recht. Dies sind alles aktive Forschungsbereiche. Tatsächlich haben wir gerade einen Fachartikel veröffentlicht, der zeigt, wie diese Modelle durch eine Reihe von Aufforderungen Trainingsdaten offenlegen können. Halluzinationen sind ein noch ungelöstes Problem. Ich denke, wir machen alle Fortschritte, und es gibt noch viel zu tun.

Es gibt einige grundlegende Beschränkungen, die wir überwinden müssen. Ein Beispiel dafür ist Gemini Ultra. Wir arbeiten aktiv an diesen Modellen mit externen Dritten, die auf diese Dinge spezialisiert sind. In Bereichen wie der Multimodalität wollen wir mutig, und auch verantwortungsbewusst sein. Wir werden bei der Einführung multimodaler Systeme vorsichtiger sein, weil die Gefahr von Fehlanwendungen größer ist.

Aber Sie haben insofern Recht, als es sich immer noch um eine Technologie handelt, die sich in der Entwicklung befindet, weshalb sie nicht für alles sinnvoll sein wird. Deshalb gehen wir bei der Suche vorsichtiger damit um, wie wir sie einsetzen, und wann und was wir wo einsetzen und wann wir sie triggern. Sie haben erstaunliche Möglichkeiten, aber auch deutliche Schwächen. Das ist die harte Arbeit, die vor uns allen liegt.

Glauben Sie, dass dieses Problem letztendlich gelöst werden kann – die Halluzinationen oder die Aufdeckung von Trainingsdaten?

Mit der aktuellen Technologie der autoregressiven LLMs [Large Langue Models] sind Halluzinationen kein gelöstes Problem. Aber künftige KI-Systeme sehen vielleicht nicht so aus wie unsere heutigen. Dies ist nur eine Version der Technologie. Es ist wie damals, als die Leute dachten, dass man keinen Computer in die Tasche stecken kann. Es gab Leute, die vor 20 Jahren sehr eigensinnig waren.

So ähnlich ist es, wenn man diese Systeme betrachtet und sagt, dass man keine besseren Systeme entwickeln kann. Diese Ansicht teile ich nicht. Es gibt bereits viele Forschungsarbeiten, die sich mit der Frage beschäftigen, wie man diese Probleme anders lösen kann.

Sie haben davon gesprochen, wie tiefgreifend dieser Wandel ist. Bei einigen der letzten Umstellungen, etwa auf mobile Geräte, hat sich die Produktivität nicht unbedingt erhöht, sondern stagnierte lange Zeit. Man kann sogar argumentieren, dass sie die Einkommensungleichheit noch verschlimmert haben könnte. Was unternimmt Google, um sicherzustellen, dass diese Umstellung für die Gesellschaft von größerem Nutzen ist?

Das ist eine sehr wichtige Frage. Ich denke darüber auf mehreren Ebenen nach. Eine Sache, auf die wir uns bei Google schon immer konzentriert haben, ist: Wie können wir den Zugang zu Technologien so weit wie möglich verbreiten? Ich würde sagen, dass selbst im Fall von Mobiltelefonen und der Arbeit, die wir mit Android leisten, Hunderte von Millionen Menschen sonst keinen Zugang zu Computern gehabt hätten.

Wir arbeiten hart daran, ein erschwingliches Smartphone zu entwickeln, vielleicht für unter 50 Dollar. Der Rahmen, über den ich nachdenke, besteht also darin, KI für jedermann nutzbar zu machen. Wir versuchen, so vielen Menschen wie möglich den Zugang zu ermöglichen. Ich denke, das ist ein Teil des Ganzen.

Wir denken auch intensiv darüber nach, sie auf Anwendungsfälle anzuwenden, die den Menschen zugutekommen können. So haben wir zum Beispiel schon früh mit der Hochwasservorhersage begonnen, weil wir erkannt haben, dass KI hier Muster erkennen kann, und das auch noch gut.

Wir nutzen KI, um 1.000 Sprachen zu übersetzen. Wir versuchen jetzt buchstäblich, Inhalte in Sprachen zu bringen, zu denen man sonst keinen Zugang gehabt hätte. Das löst nicht alle Probleme, die Sie ansprechen. Aber man sollte sich genau überlegen, wann und wo man sich auf welche Art von Problemen konzentriert – darauf haben wir uns immer konzentriert.

Nehmen Sie Anwendungen wie AlphaFold [für die Vorhersage der 3D-Struktur von Proteinen]. Wir haben [auch] eine offene Datenbank für Viren überall auf der Welt bereitgestellt. Aber: Wer nutzt sie zuerst? Wo wird sie verkauft? KI wird nicht auf magische Weise die Dinge bei einigen der schwierigeren Themen wie Ungleichheit verbessern; sie könnte sie sogar noch verschärfen.

Wichtig ist jedoch, dass man dafür sorgt, dass die Technologie für alle zugänglich ist. Man muss sie frühzeitig entwickeln und den Menschen zugänglich machen, damit die Gesellschaft über sie nachdenken und sich darauf einstellen kann.

Bei dieser Technologie haben wir definitiv früher als bei anderen Technologien mitgemacht. Denken Sie an das jüngste britische KI-Sicherheitsforum oder die Arbeit in den USA mit dem Kongress und der Regierung. Wir versuchen, mehr öffentlich-private Partnerschaften einzugehen und gemeinnützige und akademische Einrichtungen früher einzubeziehen.

Die Auswirkungen auf Bereiche wie Arbeitsplätze müssen noch eingehend untersucht werden. Aber ich glaube, dass es überraschende positive externe Effekte, aber auch negative externe Effekte geben wird. Die Lösung der negativen externen Effekte übersteigt die Möglichkeiten eines einzelnen Unternehmens. Es ist die Aufgabe aller Beteiligten in der Gesellschaft. Ich habe also keine einfachen Antworten darauf.

Ich kann Ihnen viele Beispiele für die Vorteile nennen, die der Mobilfunk bringt. Ich denke, das wird auch hier der Fall sein. Wir haben es bereits in Bereichen wie die diabetische Retinopathie gezeigt. In vielen Teilen der Welt gibt es einfach nicht genug Ärzte, um sie zu erkennen.

Genauso wie ich denke, dass es einen positiven Unterschied gemacht hat, Menschen überall auf der Welt Zugang zur Google-Suche zu geben. Ich denke, so muss man über die Erweiterung des Zugangs zu KI denken.

Es gibt Dinge, die Menschen eindeutig produktiver machen. Programmieren ist ein gutes Beispiel dafür. Und doch ist es gerade die Demokratisierung dieser Technologie, die Arbeitsplätze bedroht. Und selbst wenn man nicht alle Antworten für die Gesellschaft hat – und es ist nicht Aufgabe eines einzigen Unternehmens, die Probleme der Gesellschaft zu lösen – kann ein Unternehmen durchaus ein Produkt herausbringen, das die Welt dramatisch verändert und tiefgreifende Auswirkungen hat.

Wir haben nie Gesichtserkennungs-APIs angeboten. Aber die Leute haben APIs gebaut und die Technologie entwickelt sich immer weiter. Es liegt also auch nicht in den Händen eines einzelnen Unternehmens. Technologien werden sich weiterentwickeln.

Die Antwort ist komplexer als das. Auch Gesellschaften können abgehängt werden. Wenn sie diese Technologien nicht übernehmen, könnte sich das auf ihre wirtschaftliche Wettbewerbsfähigkeit auswirken. Sie könnten mehr Arbeitsplätze verlieren.

Ich denke, die richtige Antwort besteht darin, die Technologie verantwortungsvoll einzusetzen und Fortschritte zu erzielen und darüber nachzudenken, wo sie unverhältnismäßig großen Schaden anrichten kann – um dann daran zu arbeiten, diesen Schaden abzumildern. Es wird neuere Arten von Arbeitsplätzen geben. Wenn man sich die letzten 50 bis 60 Jahre ansieht, zeigen Studien von Wirtschaftswissenschaftlern des Massachusetts Institute of Technology, dass die meisten neuen Arbeitsplätze in neuen Bereichen entstanden sind.

Es wird Verbesserungen in Jobs geben, bei denen [die Zeiträume von] repetitiven Arbeitsschritten wieder verfügbar werden, so dass man sich kreativer ausdrücken kann. Sie könnten Arzt oder Radiologe sein, Sie könnten Programmierer sein. Die Zeit, die man mit Routineaufgaben im Vergleich zu Denken auf höherer Ebene verbringt, könnte sich ändern, so dass die Arbeit sinnvoller wird. Dann gibt es Arbeitsplätze, die verdrängt werden könnten. Wie können wir als Gesellschaft also Menschen umschulen, neu qualifizieren und neue Möglichkeiten schaffen?

Das letzte Jahr hat diese philosophische Spaltung über die Art und Weise, wie man mit KI umgehen sollte, wirklich deutlich gemacht. Man könnte es als Priorität für Sicherheit versus Vorrang für geschäftliche Anwendungsfälle sehen, oder als Beschleuniger gegen Untergangspropheten. Sie befinden sich in einer Position, in der Sie all diese Philosophien miteinander verbinden müssen. Wie denken Sie über den Versuch, diese Interessen bei Google, das in diesem Bereich führend sein wird, zu überbrücken und in diese neue Welt zu übertragen.

Ich bin ein Technologie-Optimist. In meinem persönlichen Leben habe ich immer an die Menschen und die Menschlichkeit geglaubt. Und so glaube ich, dass die Menschheit die Technologie zu ihrem Vorteil nutzen wird. Ich war also schon immer ein Optimist. Sie haben Recht: Eine so mächtige Technologie wie die KI hat eine Dualität in sich.

Das bedeutet, dass es Zeiten geben wird, in denen wir mutig vorwärtsgehen werden, weil ich glaube, dass wir den Stand der Technik vorantreiben können. Wenn KI uns zum Beispiel dabei helfen kann, Probleme wie Krebs oder den Klimawandel zu lösen, möchte man alles in seiner Macht Stehende tun, um schnell voranzukommen.

Aber die Gesellschaft muss auf jeden Fall Rahmenbedingungen für Anpassungen entwickeln, sei es im Hinblick auf Deepfakes oder die Verdrängung von Arbeitsplätzen. Das wird – genau wie der Klimawandel – ein Grenzbereich sein. Es wird eines der größten Probleme sein, mit denen wir uns in den nächsten zehn Jahren auseinandersetzen müssen.

Eine weitere große, ungeklärte Frage ist die Rechtslage für KI. Es gibt Fragen zur fairen Nutzung, Fragen zum Schutz der Ergebnisse. Es sieht so aus, als ob dies eine wirklich große Sache für das geistige Eigentum sein wird. Was sagen Sie Menschen, die Ihre Produkte verwenden, um ihnen ein Gefühl der Sicherheit zu geben, dass sie nicht verklagt werden?

Das sind nicht alles Themen, auf die es einfache Antworten gibt. Wenn wir Produkte entwickeln, wie die Google-Suche und YouTube und andere Dinge in der Welt vor der KI, haben wir immer versucht, den Wertaustausch richtig zu gestalten. Das ist bei KI nicht anders. Wir konzentrieren uns auf jeden Fall darauf, sicherzustellen, dass wir mit Daten trainieren können, mit denen wir im Einklang mit dem Gesetz trainieren dürfen, und den Menschen die Möglichkeit zu geben, sich gegen das Training zu entscheiden.

Und dann gibt es noch eine weitere Ebene, nämlich die Frage, was faire Nutzung ist. Es ist wichtig, den Urhebern der ursprünglichen Inhalte einen Mehrwert zu bieten. Das sind wichtige Bereiche. Auch das Internet war ein Beispiel dafür. Oder als der elektronische Handel begann: Wie ziehen Sie die Grenze zum normalen Handel?

Im Laufe der Zeit werden neue rechtliche Rahmenbedingungen entwickelt werden, so würde ich es sehen, wenn sich dieser Bereich weiterentwickelt. Aber in der Zwischenzeit werden wir hart daran arbeiten, auf der richtigen Seite des Gesetzes zu stehen und sicherzustellen, dass wir auch heute schon enge Beziehungen zu vielen Anbietern von Inhalten unterhalten.

Es gibt einige Bereiche, in denen es strittig ist, aber wir arbeiten uns durch diese Dinge hindurch. Ich bin entschlossen, eine Lösung zu finden. Wir müssen ein Ökosystem schaffen, von dem alle Seiten profitieren, damit das Ganze auf Dauer funktioniert.

Viele Menschen machen sich derzeit große Sorgen um die Zukunft der Suche. Wenn man eine Technologie hat, die einem auf der Grundlage von Informationen aus dem Internet Fragen beantwortet, besteht die Befürchtung, dass die Menschen diese Websites nicht mehr besuchen müssen. Das könnte auch Auswirkungen auf Google haben. Denke Sie darüber in Bezug auf Ihr eigenes Unternehmen nach?

Eines unserer einzigartigen Wertversprechen im Bereich der Suche ist, dass wir den Nutzern helfen, neue Dinge zu finden und zu lernen, Antworten zu finden, aber immer mit dem Ziel, sie an der Vielfalt und dem Reichtum des Internets teilhaben zu lassen. Das wird auch auf unserer Reise mit [der KI-Suche] "Search Generative Experience" so bleiben. Es ist ein wichtiges Prinzip, nach dem wir unser Produkt entwickeln.

Ich glaube nicht, dass die Leute immer zu Search kommen und sagen: "Beantworte es einfach für mich." Es gibt vielleicht ein oder zwei Fragen, bei denen man das möchte, aber selbst dann kommt man zurück, lernt mehr oder vertieft sich sogar auf dieser Reise. Wir wollen immer sicherstellen, dass wir es richtig machen, und ich glaube nicht, dass sich das ändern wird. Es ist wichtig, dass wir hier das richtige Gleichgewicht finden.

Analog dazu gilt: Wenn Sie einen hohen Nutzen bieten, dann ist das, was Sie anbieten, auch von kommerziellem Wert. Wir hatten solche Fragen schon bei der Umstellung von Desktop auf mobile Geräte. Das ist nicht neu für uns. Basierend darauf, was wir alles sehen und wie die Nutzer auf hochwertige Werbung reagieren, bin ich zuversichtlich. YouTube ist ein gutes Beispiel für die Entwicklung von Abonnementmodellen, die gut funktioniert haben.

Wie werden sich die Erfahrungen der Menschen im nächsten Jahr verändern, wenn diese Produkte auf den Markt kommen und sie anfangen, zu interagieren? Wie wird sich die Erfahrung der Nutzer verändern?

Ich denke, in einem Jahr wird jeder, der etwas Neues in Google Docs beginnt, etwas anderes erwarten. Wenn Sie es ihnen geben und sie später wieder die 2022-er Version von Google Docs nutzen, werden sie es als sehr veraltet empfinden. Wenn meine Kinder keine Rechtschreibprüfung haben, werden sie im Grunde denken, dass sie kaputt ist. Sie und ich wissen vielleicht noch, wie es war, diese Produkte vor der Rechtschreibprüfung zu benutzen. Aber mehr als jedes andere Unternehmen haben wir so viel künstliche Intelligenz in die Suche integriert, dass die Leute sie als selbstverständlich ansehen. Das ist etwas, das ich mit der Zeit gelernt habe. Sie nehmen es als selbstverständlich hin.

Wenn wir die multimodalen Fähigkeiten weiterentwickeln, werden die Menschen in der Lage sein, komplexere Aufgaben auf eine Art und Weise zu erledigen, die sie vorher nicht tun konnten. Es wird echte Anwendungsfälle geben, die sehr viel leistungsfähiger sind.

(jle)