c't 3003: Kann alles und macht alles (und ist kaputt) | AutoGPT ausprobiert

Auto-GPT hat Weltveränderungs-Potenzial: Die Software arbeitet Aufgaben automatisch ab und findet dafür eigenständig Lösungen. c’t 3003 hat's ausprobiert.

In Pocket speichern vorlesen Druckansicht 108 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 15 Min.
Von
  • Jan-Keno Janssen

Software, die selbst denkt? Ja: AutoGPT nutzt die Sprachmodelle von OpenAI und arbeitet mithilfe von GPT-3.5, GPT-4 und Google unterschiedliche Aufgaben selbstständig ab. Wir schauen uns an, was die Software (die nur aus Python-Skripten besteht) heute schon kann. Und wie man sie installiert.

(Hinweis: Es handelt sich hier um einen Bonusinhalt für Menschen, die das Video oben nicht schauen können oder wollen. Die Informationen auf der Bildspur gibt das Transkript nicht wieder.)

Ganz ehrlich: Als ich AutoGPT zum ersten Mal benutzt habe, hat das bei mir eine körperliche Reaktion ausgelöst, also bisschen Schweißausbruch, bisschen Herzklopfen. So eine komische Mischung aus Faszination und so einer komischen Gewissheit, dass diese Technik ziemlich viel verändern wird. Und man noch nicht so ganz genau weiß, ob das gut oder schlecht ist. Und das alles, obwohl die Software im Moment noch läuft wie ein Sack Schrauben.

AutoGPT ist sozusagen eine To-do-Liste, die ich aufschreibe und die sich dann selbst abarbeitet. Vor allem: AutoGPT überlegt sich selbst, aus sich heraus, wie es die Aufgaben löst.

Guckt mal hier, das tipp ich hier auf Englisch ein:

  • Denke dir 10 seltsame und niedliche Fantasietiere aus
  • Generiere Bilder von diesen Tieren und speicher sie ab

Ja, und dann fängt das System an. Und es macht mehr, als ich gefragt habe. Es denkt sich Namen aus von den Tieren, es denkt sich Charaktereigenschaften aus, schreibt die in eine Liste, ja und fängt an Bilder zu generieren. Hier, das ist "Drakonix", das Einhorn mit einem großen Herz für alle Lebewesen.

Ohne, dass ich da irgendwie eingreife.

Oder hier:

  • Finde heraus, wo Jan-Keno Janssen arbeitet
  • Suche die Mailadresse von ihm heraus
  • Schicke ihm ein Foto von einem Schokokuchen und einem Raspberry Pi

Und dann rödelt das System ein bisschen rum, und hat nach ein paar Sekunden herausgefunden: Editor bei c’t; und die Mailadresse auch.

Und ganz wichtig, ich will hier keine aufgeblasenen Erwartungen aufbauen: Das funktioniert noch nicht gut, das ist ein Experiment, das ist buggy, das ist unelegant zu bedienen, und funktioniert bislang auch nur auf Englisch. Vor allem: Ist es auch gefährlich, also guckt auf alle Fälle das ganze Video, bevor ihr selbst damit experimentiert, wirklich.

ABER: Ich gehe jede Wette ein, dass das nur eine Frage von Monaten oder sogar nur Wochen ist, bis das besser funktioniert. Und ziemlich viel verändern wird. In diesem Video erzähle ich euch meine Erfahrungen mit AutoGPT und erkläre auch, wie man das installiert. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei …

Bislang war immer klar, wie Computer funktionieren: Sie arbeiten Anweisungen ab, nicht mehr, aber auch nicht weniger. Die Anweisungen müssen klipp und klar sein, dürfen keine Fragen offenlassen – so funktionieren Computer, ja, seit es Computer gibt.

Und jetzt, ja, ich glaube, das kann man so klar sagen, gilt diese Regel nicht mehr. Mit AutoGPT sagt man einfach, was man erreichen will, was das Endresultat sein soll. Und wie der Computer da hinkommt, kann er sich selbst überlegen. Das klingt jetzt profan, aber das ist krass, das ist eine elementare Veränderung.

Zum Beispiel bei meinem einfachen Beispiel mit dem Herausfinden der Mailadresse: Wollte man sowas bislang machen, musste man das halt entweder manuell recherchieren oder so eine Suchfunktion selbst programmieren. Und das ist gar nicht mal so trivial: Also eine Websuche starten, dann die Ergebnisse parsen und hoffen, dass in den Daten der Suchmaschine irgendwo die Mailadresse drinsteht. Wenn das nicht der Fall ist, ja, dann gehts mit dem selbst geschriebenen Programm.

AutoGPT denkt sich dagegen automatisch mehrere Wege aus, um ans Ziel zu kommen. Es googlet nicht nur, es guckt zum Beispiel bei meinem Fall auch bei Muckrack, einer Journalistendatenbank, und bei LinkedIn. Bei einem meiner E-Mail-Herausfind-Versuche hat AutoGPT den Arbeitgeber der Zielperson gefunden, aber nicht die Mailadresse. Ja, und dann hat er vorgeschlagen, eine freundliche Mail an den Arbeitgeber zu schicken, und nach der Mailadresse der Person zu fragen. Ich habe das dann abgebrochen, aber ja, so würde das ein Mensch auch machen.

So, aber jetzt mal Butter bei die Fische, was ist das denn jetzt genau, dieses AutoGPT? Nicht mehr als ein experimentelles Python-Skript. Allerdings ein sehr beliebtes, als ich für dieses Video recherchiert habe, war AutoGPT das populärste Projekt auf ganz GitHub, der Plattform für Software-Entwicklungsprojekte.

Und nochmal kurz Disclaimer: Weil gerade täglich sehr intensiv an AutoGPT gearbeitet wird, kann es gut möglich sein, dass sich da schon wieder Sachen geändert haben, wenn dieses Video rauskommt.

Was sich nicht verändert: Die "Intelligenz" kommt natürlich nicht aus den AutoGPT-Python-Skripten, sondern von außen, nämlich von OpenAIs GPT-3.5 und GPT-4 – also den großen Sprachmodellen, die auch hinter ChatGPT stecken. Statt aber halt manuell Fragen zu stellen, promptet sich AutoGPT selbst. Dafür muss man einmal seinen Open-AI-API-Key hier eingeben, hat man einen ChatGPT-Account, kann man sich damit auf platform.openai.com einloggen, hier oben rechts auf den Account klicken und sich dort dann einen API-Key rausgeben lassen, das geht auch mit der kostenlosen Variante. Ihr habt da dann 5 US-Dollar API-Guthaben. Für die Einordnung: Während der Recherchen lief AutoGPT mehrere Stunden lang durch und hat bei mir dabei weniger als 3 US-Dollar verbraucht.

Beim ersten Start fragt AutoGPT, wie die generierte "KI" heißen soll, also zum Beispiel "Tierausdenker", was es machen soll, "Tiere ausdenken" und das Wichtigste: Was sind die Ziele. Die gibt man da dann ein und dann läuft das Skript los. Im Standardmodus muss man jeden Schritt manuell abnicken, was auch definitiv sinnvoll ist, eben weil die Software noch total buggy läuft. Und weil das System nicht nur Prompts an die OpenAI-API weitergibt, sondern halt auch Python-Skripte generiert und ausführt, ja, muss ich, glaube ich, nicht weiter erklären, dass das alles andere als sicher ist. Man kann das System auch autonom laufen lassen und mir ist klar, dass das den wohl größten Reiz darstellt. Aber hier sollte man wirklich absolut wissen, was man da tut und das niemals auf einem Produktivsystem einsetzen, sondern wenn überhaupt in einer virtuellen Maschine ohne jegliche wichtigen Daten. Weil das System aber "selbst denkt", also es völlig unvorhersehbare Sachen machen kann, ist auch der Betrieb in einer virtuellen Maschine nicht sicher. Also immer beaufsichtigen. Oder besser noch: Guckt euch das Video hier an und wartet ab, bis das Ganze stabiler und ausgereifter ist.

So, jetzt aber genug Warnungen. Was genau kann einem AutoGPT denn schon jetzt für Arbeiten abnehmen? Ehrlich gesagt: im Moment noch keine so richtig. Bei meinen Experimenten hat das System einige wirklich faszinierende Sachen hinbekommen, hab ich euch ja am Anfang des Videos gezeigt. Aber es hat nie geschafft, die gestellten Aufgaben wirklich komplett zu lösen. Irgendwann ist es immer an irgendwas gescheitert und hing in einem Loop fest, bzw. hat irgendwelche schon gelösten Aufgaben wieder von vorne begonnen.

AutoGPT kommuniziert glücklicherweise immer sehr deutlich, was es macht. Das ist ziemlich interessant: Man gibt nur eine kurze Anweisung.

"Denke dir 5 Tiere aus und generiere Bilder von denen".

Und dann kann man mitverfolgen, was AutoGPT denkt und was der Plan ist, nämlich: „Den 'generate_image'-Befehl nutzen, um Bilder von Fantasietieren zu genieren“ UND die Tiere als Prompt für den Bildgenerator zu beschreiben.

Und dann gibt es immer auch eine "Kritik", also wo das System mitteilt, worauf es aufpassen muss. "Ich muss sichergehen, dass ich die Fantasietiere detailliert beschreibe, sodass die generierten Bilder auch wirklich so aussehen, wie ich sie mir vorstelle". Krass, oder?

In AutoGPT sind ein ganz paar fertige Funktionen eingebaut, also zum Beispiel ein Webcrawler oder eine Bildgenerierung mit Dall-E2. Das ist ja auch von OpenAI. Und weil man ja sowieso schon seinen API-Key für GPT angegeben hat, kann AutoGPT den halt auch direkt für Dall-E benutzen.

Aber, AutoGPT kann sich ja auch selbst Funktionen programmieren. Ich habe mal beobachtet, dass AutoGPT, als es 10 Bilder generieren sollte, ein Bild mit Dall-E2 produziert hat und dann auf einmal angefangen hat zu recherchieren, wie man sonst noch so Bilder generieren kann. Was komplett in die Hose gegangen ist.

Das ist das, was ich meinte mit den unvorhersehbaren Ergebnissen. Solche freien Recherchen von AutoGPT führen meistens ins Nichts, weil man ja zum Beispiel für viele Aktionen im Netz Accounts braucht, und die hat AutoGPT nicht und kann die auch nicht anlegen. Und es scheitert auch schon an irgendwelchen Cookie-Bannern, wenn es Seiten ansurft.

Weil AutoGPT dazu tendiert, Fakten "live" aus dem Netz abzurufen und dann nur die Suchergebnisse mit GPT analysiert, neigt es deutlich weniger zu diesen Halluzinationen, die man ja von ChatGPT und Bing kennt. Also so komplett ausgedachtem Quatsch. Eben weil es die Fakten nicht aus seinem Sprachmodell herauszieht, sondern eben von Google zum Beispiel. Trotzdem sind bei meinen Recherchen manchmal heftige Fehler aufgetreten, also dass AutoGPT zum Beispiel gesagt hat, ich würde in den Niederlanden arbeiten. Also das ist definitiv noch ein Problem.

Um aufs Netz zuzugreifen, benutzt AutoGPT übrigens manchmal das Selenium-Framework. Es kann also passieren, dass es das Web nicht nur im Textmode parst, sondern manchmal geht auch ein Browserfenster auf. Und offenbar, das konnte ich leider noch nicht testen, kann AutoGPT damit auch grafische Elemente und Bilder analysieren – das geht ja mit GPT-4, der aktuellen GPT-Version. Will man darauf allerdings über die API zugreifen, muss man sich bislang noch bei OpenAI extra bewerben – das habe ich zwar, wurde aber nicht freigeschaltet.

Deshalb konnte ich AutoGPT nur mit GPT-3.5 testen. Diese Version würde AutoGPT allerdings auch größtenteils nutzen, wenn ich Zugriff auf GPT-4 hätte, denn GPT-4 ist in der Nutzung 30-mal so teuer wie GPT-3.5-Turbo, ja und deshalb versucht AutoGPT, so viel wie möglich GPT-3.5 zu nutzen und switcht nur dann, wenn es Vorteile bietet, auf GPT-4.

Falls ihr jetzt denkt: Hä, man kann GPT-4 doch schon mit der Premium-Version von ChatGPT nutzen? Ja, das stimmt, aber OpenAI erlaubt noch keinen API-Zugriff über andere Software, also zum Beispiel AutoGPT. Also erlaubt das schon, aber nur Leuten, die freigeschaltet sind.

So, und hier noch ein kurzes Tutorial, wie man AutoGPT installiert. Alle Links sind natürlich im Beschreibungstext hier unten. Die Software läuft auf Linux, macOS und Windows, aber bislang nur auf der Kommandozeile. Es gibt zwar schon grafische Benutzeroberflächen, davon lief bei uns aber keine einzige.

Mein kurzes Tutorial setzt voraus, dass ihr Python installiert habt (mindestens Version 3.10). Alternativ könnt ihr AutoGPT auch über Visual Studio Code Dev Container oder Docker nutzen – ich zeige hier nur die Python-Variante. Außerdem braucht ihr einen Account bei OpenAI, den habt ihr, wie gesagt, wenn ihr ChatGPT nutzt.

So, und die Software selbst kriegt ihr von Github einfach hier und dann hier unten Sourcecode runterladen. Es gibt kein Executable, weil wie gesagt: Es sind nur Python-Skripte.

Die gepackte Datei entpackt ihr in einem Ordner. Dann macht ihr eine Kommandozeile auf, unter Windows brauchte ich übrigens Admin-Rechte, das geht zum Beispiel so: Start-Taste drücken, cmd eingeben und dann Rechtsklick als "Administrator ausführen". Dann hangelt ihr euch über die Kommandozeile mit cd in den Ordner, in dem ihr AutoGPT entpackt habt. Dort dann eingeben:

pip install -r requirements.txt

Dann wird alles installiert, was AutoGPT so braucht.

Ist das durchgelaufen, öffnet ihr die Datei .env.template in einem Texteditor und tragt da euren Open-AI-API-Key ein. Dann speichert ihr die Datei als „.env“, also ohne das .template. Je nach Betriebssystem kann es sein, dass euch Dateien mit "." am Anfang nicht angezeigt werden, unter Linux seht ihr die zum Beispiel nur mit dem ll-Befehl, nicht mit ls.

So, und das war's schon, dann müsst ihr noch eintippen:

python -m autogpt

bzw. wenn ihr keinen GPT-4-Zugang habt:

python -m autogpt --gpt3only

Und dann läuft das. Ihr werdet jetzt nach dem Namen der KI und den Zielen gefragt. Und wie gesagt: Standardmäßig müsst ihr jeden Schritt mit "y" abnicken, ihr könnt aber auch "y -20" zum Beispiel eingeben, dann laufen die nächsten 20 Schritte autonom – gewarnt hatte ich euch ja.

AutoGPT ist für mich eines der faszinierendsten Stücke Software, seit Langem. Es zeigt für mich ganz deutlich, wo die KI-Reise hingeht. Nicht nur, dass diese Systeme ermöglichen, ohne Programmierkenntnisse zu programmieren. Sondern das sind natürlich auch persönliche Assistenten.

Stellt euch mal vor, ihr könnt einfach sagen "Hey, ich brauche eine Schutzhülle für mein XY-Handy, bestell mir mal bitte eine, die gute Bewertungen hat, ich will aber nicht mehr als 10 Euro ausgeben". Oder "Mach mir mal bitte einen Termin bei einem Augenarzt in Hannover, am besten Mittwochsnachmittags, zur Not geht auch Montagmorgen". Man kann ja in vielen Arztpraxen Termine über Web-Interfaces machen, und das können solche Systeme natürlich relativ problemlos.

Also alles, was man im Internet machen kann, werden diese Systeme sehr wahrscheinlich sehr bald autonom bewerkstelligen. Und es geht hier jetzt auch gar nicht darum, ob man das gut oder schlecht findet oder gefährlich. Es ist einfach ganz klar, dass es diese Sachen geben wird – und wenn Menschen das nervige Arbeit erspart, werden sie das auch nutzen. Ich würde sogar noch weiter gehen und denke, dass solche Systeme viele "normale" User-Interfaces, wo man irgendwas in irgendwelche Felder eintragen muss, um sich 'ne Pizza zu bestellen oder so, einfach verschwinden lassen wird. Weil man einfach in normaler Sprache sagen kann, was man will.

Oder lieg ich hier jetzt total falsch? Was meint ihr? Schreibt's gerne in die Kommentare. Und natürlich gerne abonnieren. Tschüss!


c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(jkj)