Interview mit Aleph Alpha und DFKI: "Gestalten statt verwalten – Europa kann KI"

Mensch und Maschine: Jonas Andrulis (Aleph Alpha) und Reinhard Karger (DFKI) diskutieren im Doppelinterview über Fußball und die kommende Disruption durch KI.

In Pocket speichern vorlesen Druckansicht 74 Kommentare lesen

(Bild: mixmagic/Shutterstock.com)

Lesezeit: 28 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Können wir bald reflektierte Gespräche mit Maschinen führen? Unsere Welt steht vor einem voraussichtlich disruptiven Übergang durch Machine Learning; Künstliche Intelligenz (KI) könnte künftig so allgegenwärtig sein wie Elektrizität. Allerdings ist gerade in Deutschland die Skepsis gegenüber der neuen Technologie groß. Offenbar gibt es hierzulande mehr Sommeliers als Mathematikliebhaber. Doch was genau steht uns bevor, und wie gehen wir als Gesellschaft damit um?

Heise-Redakteurin Silke Hahn hat zwei Experten zum Dialog eingeladen: Jonas Andrulis ist Serienunternehmer, der früher in leitender Funktion für Apple an KI geforscht hat. Er leitet das von ihm gegründete Heidelberger Unternehmen Aleph Alpha. Das Start-up baut OpenAI für Europa und hat 2021 mit rund 30 Millionen Euro so viel Wagniskapital erhalten wie sonst kein deutsches Deep-Tech-Unternehmen. Reinhard Karger ist Computerlinguist und Unternehmenssprecher des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI).

Deutsches Forschungszentrum für Künstliche Intelligenz
Reinhard Karger, Unternehmenssprecher DFKI

Reinhard Karger, Sprecher des DFKI

Das DFKI ist eine GmbH und gemeinnützige Public-Private-Partnership mit aktuell rund 1350 Mitarbeitern, das 1988 in Saarbrücken/Kaiserslautern gegründet wurde. Mittlerweile ist es auch an weiteren Standorten vertreten, so unter anderem in Osnabrück, Oldenburg, Bremen, Lübeck, Berlin, Trier und bald auch in Darmstadt.

Die Aufgabe des Forschungszentrums ist, die verschiedenen Anwendungsgebiete und Forschungsansätze der Künstlichen Intelligenz in ihrer Vielfalt abzudecken, statt sich auf eine einzelne Ausprägung zu fokussieren.

"KI-Systeme, die entscheidungsunterstützend eingesetzt werden, sollten die Gründe und die Folgen für den Menschen verständlich darstellen und müssen dann auch auf Rückfragen der Nutzenden eingehen können", findet Unternehmenssprecher Reinhard Karger. Mittlerweile umfasst die Einrichtung 25 Forschungsbereiche und arbeitet mit zahlreichen Universitäten und Unternehmen zusammen. Eine wesentliche "Erfindung" des DFKI war laut Karger Industrie 4.0. Informationen zu den laufenden Aktivitäten und Forschungsprojekten lassen sich der Website des DFKI entnehmen.

Beide vertreten oft ähnliche, aber auch unterschiedliche Perspektiven auf Big Tech, den Standort Deutschland, Regulierung und die Gestaltung der Zukunft. Die Aufzeichnung dieses Austauschs soll Neugier wecken und Denkanstöße liefern.

Silke Hahn (heise Developer): Reinhard, zum Auftakt eine Frage an dich: Du hast im Umfeld der CeBIT 2018 erklärt, was KI für den Journalismus bedeutet. Strukturierte Informationen in Tabellen kann Künstliche Intelligenz offenbar schon gut in Text umsetzen. Wo stehen wir da heute?

Reinhard Karger (DFKI): Das eine ist, dass tatsächlich Journalisten entlastet werden von Fließbandarbeit, die keiner machen sollte. Es wird aber auch zusätzlicher Content produziert, den es ohne KI nicht gäbe. Sehr gut funktioniert das bei Sport, Wetter, Börse. Beim Sport geht es darum, dass Systeme automatisch Spielberichte erstellen können aus Daten, die sowieso erfasst werden. Das wiederum ist nicht entscheidend für die Bundesliga, sondern für die Jugendarbeit. Die A-Jugend, die B-Jugend und so weiter haben wöchentlich Spiele und Vereine haben einen Blog, in dem nicht nur eine Tabelle, sondern auch Spielberichte stehen sollen. Das können die ehrenamtlichen Trainer nicht leisten. Wenn man dort KI-unterstützt Posts veröffentlicht, die vielleicht von 36 Personen gelesen werden, nämlich von den Verwandten und den Kindern selbst, dann motiviert das die Aktiven, unterstützt die gesellschaftliche Entwicklung, fördert die Jugend und den Sport.

Wenn KI den Medienbruch überwinden kann zwischen Welt und Text, ist das in vielen Dimensionen ein gesellschaftlicher Mehrwert. Mir ist das wichtig, weil man ernstlich so tut, als würden der Kommentar, die Analyse oder die Glosse bald von Maschinen geleistet werden können. Aber das stimmt natürlich nicht.

heise: Wissen wir das schon?

Jonas Andrulis (Aleph Alpha): Absolut korrekt! Es ergeben sich neue Möglichkeiten und die Menschen können ihre Zeit, Inspiration und Kreativität ganz neu einsetzen.

Karger: Werkzeuge sind die Erfindung Homo Fabers und spezifische Werkzeuge taugen nur für spezifische Aufgaben. Die Gabel ist ein fantastisches Werkzeug – nur, wenn man Suppe essen möchte, ist sie nicht optimal, das Messer auch nicht. Es gibt traumhafte Werkzeuge für Spracherkennung oder für maschinelle Übersetzung. Erstaunlicherweise gibt es sie, aber für andere Anwendungen eben noch nicht. Wir können nicht sagen, ob dieses "noch" eine Aussage ist für zehn oder hundert Jahre, wenn man sich mit den menschlichen Erkenntnisfähigkeiten beschäftigt. Ich bin schon lange dabei: Was einige Werkzeuge heute leisten können, stimmt mich optimistisch, dass da noch viel mehr kommt.

Der KI-Forscher Jonas Andrulis leitet das von ihm gegründete, in Heidelberg ansässige Unternehmen Aleph Alpha. Der ehemalige Manager der KI-Forschung bei Apple erhielt 2021 den Deutschen KI-Preis – für eine Technologie vergleichbar mit OpenAI und DeepMind.

heise: Multimodalität in der KI ist ja im Kommen. Worum geht es dabei?

Andrulis: KI, die einen Kontext aus der Kombination von Bildern und Text verstehen kann. Die mit Weltwissen und ohne neue Trainingsdaten selbst vollständig neue Beobachtungen einordnen kann. Wir haben hier vor kurzem eigene Forschung veröffentlicht, die international schon gewaltig Wellen geschlagen hat.

Karger: Objekterkennung ist heute in einem ganz anderen Zustand als 2012 vor AlexNet und funktioniert erstaunlich gut. Man kann die Smartphone-Fotobibliothek textuell durchsuchen, unter anderem nach "Fahrrad", und das System findet Fotos, auf denen Fahrräder abgebildet sind. Die nächsten Schritte werden aber nur auf Basis der neuen multimodalen Modelle möglich sein, die als Sprachmodelle gedacht sind, um die Story in einem Bild zu verstehen. Eine Frage wird sein, wie kann man jetzt mit diesen Modellen arbeiten? Da ist vieles noch unklar. Eine Möglichkeit könnte sein, dass man mehrere Fotos auswählt, um das Modell für die Aufgabe zu orientieren, also Prompt-Engineering. Und beim fünften Bild kann das Modell vielleicht eine Geschichte erzählen. Da können dann – hoffentlich – pragmatische Zusammenhänge, die für Menschen auf dem Bild präsent sind, verbalisiert werden, ohne dass diese expliziter Teil der abgebildeten visuellen Szene sind.

Andrulis: Wir sind gerade dabei, eine Spezialversion unseres multimodalen Modells zu bauen, die auf technische Zeichnungen optimiert ist. Für technische Zeichnungen und Folien, Ablaufdiagramme und Skizzen scheint es grundsätzlich zu funktionieren. Wenn wir den Datensatz eines Verlages oder von arXiv.org hätten, das wäre phänomenal. Für mich ist interessant, was kann das jetzt, was können wir damit machen? Für mich ist aber auch interessant, wo führt uns das in einem Jahr hin, oder in zwei Jahren. Wir haben schon Technologie, die geeignet ist, einem Roboter, einem autonomen oder halb autonomen Agenten in der Welt die Möglichkeit zu geben, sich zu orientieren, Dinge zu verstehen und richtige Entscheidungen zu treffen.

KI versteht Bilder: Aleph Alphas Modell Luminous – Playground (22 Bilder)

Schatzkarte

luminous findet Schätze auf einer handgeschriebenen Pergamentkarte. Die Fähigkeit der KI, Handschrift zu entziffern, ist dabei nicht das einzig bemerkenswerte Detail.
(Bild: Aleph Alpha)

heise: KI ist teilweise schon im Arbeitsalltag angekommen, DeepL beispielsweise kann Technikjournalisten das Handwerk enorm erleichtern.

Andrulis: Witzig, dass du gerade DeepL sagst. Das war einer der ersten Tests, die ich in unserem Playground gemacht habe. Reinhard hatte eine Anekdote zu einem Text über ein Mädchen, das an der Bushaltestelle steht. "Sie ist sehr verrostet." Und DeepL als bester verfügbarer Übersetzer hat das übersetzt mit "She is very rusty." Ich habe das parallel bei uns ins Modell eingetippert und da war dann im Ergebnis die Haltestelle rostig. Dafür notwendiges Kontextverständnis und Weltwissen waren noch bis vor wenigen Monaten durch KI nicht in diesem Maße erreichbar.

Übersetzungsvergleich zwischen dem multimodalen KI-Modell luminous-base von Aleph Alpha und DeepL

Es könnte Deutschland jetzt mit Aleph Alpha gelingen, für eine revolutionäre Zukunftstechnologie gemeinsam mit den USA und China bahnbrechende Innovationen zu gestalten, Spitzen-KI-Forscher packen ihre Koffer und kommen aus den USA und der Welt nach Heidelberg. Aber in Deutschland ist einer der ersten Gedanken die Sorge um Arbeitsplätze. Diese Sorge und die dadurch zum Ausdruck kommende defensive Grundhaltung sind dabei für mich das wesentliche Zukunftsrisiko: Ein neues Zeitalter der Mensch-Maschine-Zusammenarbeit entsteht und wird unsere Welt verändern wie kaum eine Entwicklung davor. Unser Verhalten in diesem Kontext wird entscheiden, wie wir unsere Zukunft gestalten können.

Andrulis: Es wird oft ein Vergleich zur Industriellen Revolution oder zur Elektrizität bemüht. Natürlich hinken solche Vergleiche. All die disruptiven Technologien der Vergangenheit haben jedoch nicht verhindert, dass aktuell in fast jedem Beruf gute Kräfte fast schon verzweifelt gesucht werden, und viele gute und erstrebenswerte Entwicklungen für die Gestaltung unserer Lebenszeit folgten.

heise: Uns Zeitgenossen wird die KI bestimmt einige Vorteile bieten. Disruption bringt aber auch Verwerfungen, bei der Industriellen Revolution sind die Weber nicht hinterhergekommen mit der Tuchproduktion. Wie schätzt du aus heutiger Sicht die gesellschaftlichen Auswirkungen ein?

Andrulis: Die Geschwindigkeit ist ein wichtiger Punkt. Ich glaube nicht, dass diese Entwicklung an sich etwas Schlechtes für uns bringt. Aber eine der Sachen, die bedenklich sind und über die wir uns Gedanken machen müssen, ist, wie wir als Gesellschaft mit dieser Geschwindigkeit umgehen können. Das war auch ein jüngster Tweet von Sam Altman, der sagt, diese extrem schnelle Anpassungsfähigkeit, die wechselt sich gerade von einem Vorteil zu einer absoluten Überlebensnotwendigkeit für Organisationen und Unternehmen.

Und ich glaube, das ist gerade für Deutschland entscheidend, mit einem hohen Maß an Struktur und Verwaltung, mit einem großen Mittelstand, der absolut phänomenale Kompetenzen hat, sich aber den Fokus auf Machine Learning und moderne KI nicht im gleichen Maße erlauben kann wie US-Technologiegiganten. Wir sehen es ja im Cloud-Bereich: Einen modernen Cloud-Stack zu bauen und zu betreiben, das kann kaum jemand mehr.

Karger: Jonas, die Sache mit der Beschleunigung, jetzt ist aber langsam gut! Das Problem der Beschleunigung war Ende des 19., Anfang des 20. Jahrhunderts ein Riesenthema und Neurasthenie hieß die dazu passende Modekrankheit. Aber Beschleunigung oder Geschwindigkeit sind weniger das Problem. Es geht um Interesse, und es geht um Neugier. Es geht darum, dass wir klarer kommunizieren, was man mit KI erreichen kann, und warum, sodass man nicht ein kaltes Interesse hat für KI und nur für Fußball ein heißes. Man kann ein heißes Interesse für Fußball haben, aber man sollte ein kochendes Bedürfnis haben, zu erfahren, wie geil weit die Menschheit gekommen ist, intelligente Erkenntnisfähigkeit maschinell umzusetzen. Es geht um Neugier, und die ist verschüttet.

OCR heute: Live Text markiert auch in Bildern Orte, an denen ein gesuchter Begriff zu finden ist (gelber Punkt). Auf der Klimaanlage des Wohnmobils befindet sich eine kleine Aufschrift des Herstellers "Dometic", die die KI-Anwendung im iPhone ausfindig machen konnte.

(Bild: DFKI)

heise: Meinst du? Algorithmen und Künstliche Intelligenz lösen Neugier aus, aber auch Angst. Klar ist man fasziniert und will mehr wissen, doch selbst technikaffine Menschen sind angesichts der potenziellen Risiken dieser neuen Technologie ambivalent.

Karger: Da hast du vollkommen recht. Wenn man sich überlegt, welche Perversionen der Datenauswertung möglich sind durch mächtige Datenauswertungswerkzeuge, wird mir übel. Es ist kein Problem, den gesamten Voice- und Textverkehr der Welt zu monitoren. Es wird nicht die tolle Qualität sein, aber da kann man sich durchaus dystopische Szenarien mit totalitären Kontrollstrukturen vorstellen und düstere Fantasien entwickeln.

Karger: Wenn wir schon bei der Industriellen Revolution waren, möchte ich euch ein Buch empfehlen: "The Technology Trap. Capital, Labor and Power in the Age of Automation" von Carl Benedikt Frey. Super zu lesen.

heise: Was hat es damit auf sich?

Karger: Frey schreibt 2019 in "The Technology Trap" über die Industrielle Revolution und auch, warum sie im 18. Jahrhundert und nicht vorher passiert ist. In dem Kapitel zur Zukunft und zu KI sagt er: Es wird sowieso nicht jede Tätigkeit von KI ersetzt werden, und bei den Tätigkeiten, die durch Automatisierung und KI übernommen werden können, wird das zeitlich versetzt geschehen. Es wird am Ende nicht nur noch Machine-Learning-Ingenieure geben. Es gibt viele Tätigkeiten, die wir als unterkomplex und einfach bezeichnen, die aber als Aktion in der Welt bei weitem noch nicht von Robotern übernommen werden können. Ich sag nur: Gute Laune haben, Bügelbrett, Bügeleisen, Hemd bügeln. Und jetzt nicht sagen, dass es da ein anderes Instrument geben könnte, das das Hemd glättet. Es geht um die sensomotorische Intelligenz, die man braucht, um ein Hemd zu bügeln, und es ist unglaublich, was wir da machen, ohne zu ahnen, wie komplex diese Aktionen tatsächlich sind.

heise: Das wäre doch fantastisch, wenn es einen Roboter dafür gäbe...

Karger: Wir haben viele Fähigkeiten, für die man kein Nobelpreisträger sein muss, wir können das einfach. Und es gibt viel, was Maschinen auf absehbare Zeit nicht können werden. Frey hat die technologischen Disruptionen der letzten Jahrhunderte analysiert und versucht, herauszufinden, ob diesmal etwas anders ist. Er konnte nichts finden. Es gibt Anpassungszeiträume, das hingegen ist richtig.

heise: Stichwort Anpassung, wie steht ihr zur Regulierung in der EU?

Karger: Die Regulierungsvorschläge der Europäischen Kommission sind sensationell. Wenn wir etwas brauchen, dann ist es genau dies – dass man eine Haltung hat und sagt, gesellschaftlich akzeptieren wir Anwendungen nicht, die x und y Eigenschaften haben. Wir sind glücklicherweise in Europa und könnten durchaus stolzer sein auf diese Aktivitäten, durch die wir den Zusammenhalt nicht verlieren und gesellschaftliche Polarisierung vermeiden. Immer wieder kommt die DSGVO vor in Gesprächen: Verhindert sie nicht Innovationen? Da sage ich: So what! Die DSGVO sichert die Privatheit der Bürger und damit zu einem gewissen Teil das gesellschaftliche Überleben in Europa. Wenn man bessere Algorithmen braucht, um gute Ergebnisse zu liefern, ohne die privaten Daten auszuwringen – dann muss man eben schlauer sein. Wir sind Europa! Wir haben die Aufklärung erfunden! Und Deutschland erst recht! Ich weiß wirklich nicht, was uns zurückhalten sollte, die Systeme besser zu machen als diese Art von Datenausquetschen, womit manche Unternehmen ganz schön groß geworden sind, aber zu Hetze und Spaltung beigetragen haben.

Andrulis: Beim Thema Regulierung haben wir eine etwas andere Perspektive, Reinhard. Für Aleph Alpha ist die aktuelle Entwicklung existenziell. Ich stimme dem Werteargument vollkommen zu. Wir müssen uns überlegen, wie wir Technologie einsetzen wollen, und das ist eine politische, eine gesellschaftliche Aufgabe. Das heißt, nicht alles, was möglich ist, soll gemacht werden, und nicht alles, was sich irgendjemand wünscht – ein Unternehmen oder irgendeine Regierung. Doch für diese Art von Technologie sind wir das einzige europäische Unternehmen. Es ist ein Überlebenskampf, den wir gegen Microsoft und OpenAI führen. Gerade bin ich in einem Projekt, wo es um Zertifizierung, Prüfung, Validierung geht. Unser kleines Team und die überschaubaren Ressourcen sind durch diese Anforderungen deutlich belastet.