c't 3003: Die neuen KI-Funktionen in Photoshop und Premiere ausprobiert

Adobe hat in Photoshop und Premiere neue KI-Funktionen eingebaut. Die werden den Arbeitsalltag immens verändern, glaubt c't 3003.

18

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

26.05.2023, 13:36 Uhr

Lesezeit: 15 Min.

c't Magazin

Von

Jan-Keno Janssen

In Photoshop kann man jetzt in kürzester Zeit Bildelemente verändern, löschen oder durch neue ersetzen – einfach dadurch, dass man in ein Textfeld schreibt, was man haben will. Und auch in Adobes Videoschnitt-Software Premiere gibt es jetzt neue, hilfreiche KI-Funktionen. c't 3003 hat's ausprobiert.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das ist ein Selfie von mir aus Paris, komplett unbearbeitet. Jetzt lade ich das in die Photoshop Beta, ziehe einfach so ein Auswahlrechteck grob über mein T-Shirt, also ohne Freistellung und nix, einfach nur ein Rechteck. Und jetzt tippe ich hier ein: Tuxedo, also Smoking. Zack, "Generieren", hab’ ich einen Smoking an und kann sogar noch unterschiedliche Varianten durchklicken. Ich habe hier keine Schritte übersprungen, wir haben nur die Generierungszeit etwas beschleunigt. Ja, und wo ich gerade dabei bin: Lass doch mal den Eiffelturm durch den Turm von Pisa ersetzen. Einfach grob auswählen, Tower of Pisa eingeben, zack, fertig. Krass, oder? Das ist noch längst nicht alles, was Adobe an KI-Funktionen eingebaut hat, man kann in Premiere zum Beispiel jetzt per Texteingabe Video editieren. Wir haben uns das alles mal genauer angesehen. Bleibt dran (und abonnieren nicht vergessen).

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei...

Adobe bietet ja schon seit Längerem ein KI-Bildgenerierungstool an, Firefly heißt das, einfach im Browser auf firefly.adobe.com gehen, und ja, das macht das gleiche wie Midjourney, Stable Diffusion und Dall-E, man gibt irgendwas ein, Affe auf dem Einrad, zack, und fertig ist das Bild. Das Besondere an Adobe Firefly: Es ist mit Bildern von Adobes Stockfoto-Datenbank trainiert und Adobe verspricht: Die generierten Bilder können problemlos kommerziell verwendet werden, es besteht kein Risiko für irgendwelche Urheberrechtsverletzungen. Bei der Konkurrenz ist die Datenlage etwas unklarer, da gibt es immer mal wieder Kreative, die ihre Bilder oder Teile davon in den neuen generierten Bildern entdecken. Aber generell: Firefly funktioniert genauso wie wie Midjourney oder Stable Diffusion.

Aber jetzt hat Adobe die Firefly-KI-Technik direkt in ihre Software eingebaut, zuerst mal in Photoshop. Also in der Beta-Version, die können aber alle, die ein Abo haben, hier in der Creative-Cloud-Desktop-App installieren: Einfach hier auf Beta-Applikationen klicken und dann ist da “Photoshop (Beta)”, installieren klicken und man hat zwei Photoshop-Versionen, die normale und die Beta. Übrigens passiert die ganze Generierei nicht lokal, sondern in der Cloud. Das heißt, man braucht keinen schnellen Rechner, aber eine stabile Internetverbindung.

Und das, sage ich jetzt nach einem ganzen Tag Ausprobierei: Auch, wenn das noch lange nicht ausgereift ist, wird das die Arbeit in Photoshop stark verändern, ganz sicher. Alleine ich als Gelegenheitsnutzer hatte schon mehrfach das Problem, dass ich ein Bild in einem bestimmten Seitenverhältnis brauchte; zum Beispiel für YouTube-Thumbnails, das Motiv ließ sich aber nicht so einfach skalieren, ich hätte gerne oben oder an der Seite was drangeklebt.

Ja, das geht jetzt. Hier mal ein Extrembeispiel: Das ist ein Hochformat-Foto von meinem 3003-Kollegen Sahin, wie er im Park steht und mit einem Roboter rumfummelt. Ich hätte das aber gerne als 16:9-Querformat. Also das richtige Format angelegt, das vorhandene Bild rein, die weißen Flächen markiert und einfach auf “Generieren”. Tja, da baut Photoshop einfach den ganzen Park drumherum. Ah, hier oben ist noch ein bisschen weiß, zack, jetzt nicht mehr. Und es ist wirklich so einfach, wie es aussieht. Sobald ihr irgendwo einen Rahmen aufzieht, poppt da dieser Balken mit dem “Generieren”-Knopf auf. Und wenn man da draufdrückt, kann man da einfach reinschreiben, was man da haben will.

Übrigens gab es schon länger eine Funktion zum „inhaltsbasierten Füllen”, die arbeitet aber lokal und auch nur mit den Daten, die schon im Bild vorhanden sind. Ja, und die ist eine ganze Ecke schlechter, so sieht die alte Funktion im Vergleich aus.

Nee, schnell zurück zum KI-generierten Sahin im Park. Bislang ist das Bild ein bisschen langweilig, mach’ ich da rechts mal 'nen Tiger hin. Einfach Auswahlrechteck aufziehen, „Tiger“ hier reinschreiben und dann ist da ein Tiger. Man hat immer drei Varianten, wo man dann durchschalten kann und die aussucht, die einem am besten gefällt. Warum fährt da eigentlich kein Affe auf dem Einrad lang? Jetzt schon. Und da passt doch gut ein Kühlschrank hin. Ich finde, Sahin sollte einen Ballon in der Hand haben, ach, nee, lieber einen Akku-Bohrer. Und die Klamotten sind doch auch optimierbar. Da noch irgendeine Matte auf den Asphalt, och, da hinten passt doch schön ein Ufo hin, fehlt nur noch der Eiffelturm. Und fertig ist das wunderschöne Bild, ist doch viel besser als die Realität.

Wenn ihr jetzt denkt, ja ok, alles sieht hier aber auch nicht realistisch aus, ja, das stimmt. Vor allem Sachen mit Menschen kann die Adobe-KI noch gar nicht gut. Hier guckt mal, ich wollte mir hier mal perfekte Zähne machen lassen: Ja, ok, ich sag’ mal: Ganz perfekt ist das noch nicht.

Und guckt mal hier: “Mittelalte Frau, Straßenfotografie, leuchtende Farben” gebe ich mal in Photoshop ein. Ja, gut, auch gar nicht mal so gut. Zum Vergleich: Das macht Midjourney in der aktuellen 5.1-Version aus dem gleichen Prompt. Und auch der auf lokaler Hardware lauffähige Bildgeniererer Stable-Diffusion bekommt das mit dem aktuellen XL-Modell besser hin als Firefly in Photoshop. Aber die Erfahrung zeigt: Je länger die Bildgenerierer feintrainiert werden, desto besser die Ergebnisse. Firefly ist so ungefähr auf dem Stand von Stable Diffusion vor ein paar Monaten – ich bin einigermaßen zuversichtlich, dass das noch besser wird.

Anders als Stable Diffusion ist die Adobe-KI ist ziemlich rigoros, was verbotene Begriffe angeht. Man kann zum Beispiel keine real existierenden Personen einbauen, Nichtmal, wenn die schon lange tot sind, wie Einstein zum Beispiel. Außerdem ging bei meinen Tests nicht: Kondom, Pistole, Waffe, Messer – Brotmesser geht aber.

Texte in Bildern würde Adobe wahrscheinlich gerne können, aber das klappt mit der Technik noch nicht, also wenn ich zum Beispiel schreibe, mach da mal ein Schild hin, wo c’t 3003 draufsteht. Jaaaaa. Das ist aber bei bislang allen Bildgenerierern so, das sieht dann immer ein bisschen so aus wie Aurebesh, diese Schriftsprache im Star-Wars-Universum. Was man aber machen kann: Die einzelnen Buchstaben vom Bildgenerierer füllen lassen, zum Beispiel mit Neonröhren, Honig oder Blumen.

Aber trotz der Kritik: Die Technik ist trotzdem ein Gamechanger. Vor allem, weil das alles in Photoshop so leicht zu bedienen ist und, dass man hier nicht einfach nur komplette Bilder generiert, sondern Bildteile. Das ist in der Praxis wirklich supernützlich. Alleine, dass man einfach Objekte, die man nicht haben will, löschen kann, indem man einfach ein Auswahlrechteck drumrumzieht und auf generieren drückt, ohne was einzugeben. Hier, das ist noch mal ein Selfie von mir aus Paris. Mich stört mein Kopp da vorn, ich will mich da weghaben, zack. Und das sieht jetzt beim ersten Rübergehen noch ziemlich schrottig aus, aber ich ziehe einfach immer wieder Rechtecke über die Bildteile, die mir nicht gefallen. Und am Ende ist da ein Bild, ganz ohne Keno, und zumindest beim schnellen Draufgucken würde mir jetzt nicht auffallen, dass da was falsch ist. Oder was meint ihr?

Ich habe mal den c’t-Photoshop-Experten-André gefragt, der ist gerade in Marrakesch im Urlaub, ob er denkt, dass wir jetzt von Fake-Bildern überschwemmt werden.

André Kramer: Das ist eine Diskussion, die immer wieder geführt wird, seit ich das erste Mal mit dem Thema zu tun hatte. Also im Prinzip seit Photoshop 1.0 wird gesagt, ab jetzt ist Bilderfälschen so einfach, dass man vor Bildfälschung sich nicht mehr retten kann. Und das ist noch nie passiert. Also es gibt natürlich immer wieder beeindruckende Fälschungen. Da gibt's Bilder, die sind echt, wo man denkt, das sieht so fake aus. Ich denke mal, das ist ein Katz-und-Maus-Spiel. Es wird immer schwieriger, Fälschungen zu erkennen. Aber da muss man eben immer genauer hingucken. Und Medien darf man spätestens seit Social-Media das ganze News-Geschäft übernommen hat und das nicht mehr bei Instanzen wie Tagesschau und so ist – kann man eh nicht mehr trauen. Also man muss schon sehr genau hingucken und künftig vielleicht noch genauer.

Der ist übrigens wirklich gerade in Marrakesch. Das Gebäude im Hintergrund ist kein Fake.

Auch in der Videobearbeitung setzt Adobe jetzt KI ein. Dabei muss KI nicht immer zwingend generative sein, also etwas Neues erschaffen. Und da ist Premiere ein gutes Beispiel, wie KI viele Dinge einfacher machen kann, finde ich.

Guckt mal hier: Das ist eine Aufnahme von einem älteren 3003-Video. Das habt ihr vielleicht schon gesehen. Da spreche ich über die gefährlichste Malware der PC-Geschichte. Normalerweise würde man jetzt im Schnitt eben überall einen Cut setzen, wo ich mich mal verspreche oder einen Satz zweimal sage und das dann so zurechttrimmen. Dieser Schritt dauert aber und ist auch - ja eher langweilig. Mit dem textbasierten Bearbeiten in Premiere kann ich mir jetzt einfach ein Transkript erstellen lassen und dann anhand von dem Text einfach Stellen herausschneiden.

Das geht seit dem letzten Premiere-Update vor einigen Tagen. Im Prinzip transkribiert die Software alles, was im Video gesagt wird und kann dabei auch zwischen unterschiedlichen Sprechern unterscheiden. Das Transkribieren alleine ist jetzt noch nichts so Besonderes. Das gibts ja schon länger und ist in den letzten Monaten z.B. durch Whisper von OpenAI auch bedeutend besser geworden. Was aber wirklich neu ist, ist die Möglichkeit, jetzt einfach hier zu klicken und einen Teil des Videos über dieses Textfeld zu entfernen.

Einfach "cmd" und x klicken und schon wird die entsprechende Stelle aus dem Video geschnitten. Richtig praktisch ist das auch, wenn ihr jetzt etwa einen bestimmten Teil aus einem Clip kopieren möchtet, wenn ihr nur einen bestimmten Teil des Videos braucht. Dann klickst du einfach hier auf Suche und gibst dein Schlagwort ein, wählst den Text-Ausschnitt aus und hast genau den Teil, den du brauchst, ausgeschnitten.

Das alles funktioniert übrigens lokal auf dem Rechner. In unseren Tests auf einem MacBook Pro mit M2 Max ging das alles super schnell. Klar mit älterer Hardware ist das etwas mühseliger. Das ist mit Videoschnitt ja immer so 'ne Sache.

Das ganze funktioniert jetzt schon relativ gut, aber wenn sich das Audio jetzt auch noch automatisch ein- und ausblenden würde - also die Übergänge zwischen den Schnitten nicht mehr hörbar wären - dann könnte man nur über den Texteditor den Rohschnitt von so einem Talking-Head-Video machen; und uns wirklich viel Zeit sparen.

Und ich glaube, ich lehne mich jetzt auch nicht allzu weit aus dem Fenster, wenn ich sage, dass Adobe da sehr wahrscheinlich auch andere KI-Tools integrieren wird. Es gibt ja jetzt schon die Möglichkeit, die eigene Stimme digital zu klonen. Stellt euch mal vor, was damit bald möglich sein könnte. Rein hypothetisch könnte man dann in Premiere einfach einen Text eingeben und die Person sagt ihn dann. Die entsprechenden Mundbewegungen zu simulieren, könnte mit KI bald auch schon möglich sein. Dann könnte man nicht nur den Text auswählen, denn man ausschneiden möchte oder rauskopieren, sondern eben auch neuen Text eingeben, der dann im Video ist. Wenn ich dann in einem 3003 Video an einer Stelle noch einen Satz hinzufügen möchte, wäre das einfach in Premiere möglich. Jetzt ist das quasi unmöglich, weil ich den Take ja komplett neu drehen müsste und ich einige Details nicht mehr so hinkriege, wie beim anderen Dreh, also zum Beispiel wie die Haare aussehen.

Gut, zugegeben, das ist jetzt alles noch ein bisschen Zukunftsmusik. Wir wollen uns ja anschauen, was jetzt schon geht. Und da hat Adobe in Premiere noch eine KI-Funktion, die wirklich super hilfreich sein kann.

Denn auch ein anderes KI-Feature in Premiere Pro hilft uns beim Schneiden der 3003 Videos. Wir verwenden im Hintergrund ja oft Musik. Die laden wir uns von einer Plattform runter und suchen eben entsprechend nach Stimmung und so aus. Das Problem ist: Die Musik ist nie genauso lange, wie wir die im Hintergrund bräuchten. Und da hilft die Remix-Funktion unter Essential Sound. Damit ist es nämlich möglich, genau einzustellen, wie lang ein Musik-Stück sein soll. Und die KI zieht die Musik dann nicht einfach kürzer oder länger, sondern erstellt einen Remix, der beliebig lang sein kann. In den allermeisten Fällen funktioniert das Ganze mittlerweile so sauber, dass man die Übergänge gar nicht mehr hört. Damit kann quasi mit ein paar Klicks aus einem 2 Minuten Track, ein 15 Minuten Track werden.

Und das zeigt, finde ich, ganz deutlich: KI - gerade in diesem kreativen Bereich - geht eben deutlich über das reine Erstellen von Content mittels Prompts, mit Tools wie ChatGPT, Midjourney, Stable Diffusion oder eben Adobe Firefly hinaus. Da gibt es mittlerweile so viele Kleinigkeiten, die das Arbeiten deutlich leichter und schneller machen. Das fängt beim automatischen Freistellen in Photoshop an und geht weiter bis zum automatischen Farbabgleich in Premiere. Das ersetzt jetzt nicht die kreative Eigenleistung, aber macht den Weg dahin deutlich schneller und komfortabler.

Bevor das hier jetzt in einer kompletten Lobhudelei für Adobe endet: Ich muss zumindest einmal sagen, dass ich es unschön finde, dass man Adobe-Software nicht mehr kaufen kann, sondern für teures Geld abonnieren muss. Photoshop und Premiere kosten einzeln je 23,79 Euro im Monat, die ganze Creative Suite mit 20 Programmen kostet 61,95. Das sind im Jahr fast 750 Euro. Dennoch: Mit den KI-Funktionen bekommt man zumindest jetzt eine ganze Menge mehr fürs viele Geld. Tschüss!

Lesen Sie auch

KI kann sehr schiefgehen: Warnende Stimme im Hause Google

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.