Drei Fragen und Antworten: KI-Bilderkennung – was kommt da noch?

KI-Bildgeneratoren begleitet eine große Debatte um Urheberrechte und Stellenabbau. Wie gut sind die Systeme und wohin kann sich Bilderkennung entwickeln?

3

(Bild: iX)

17.06.2023, 07:16 Uhr

Lesezeit: 5 Min.

iX Magazin

Von

Philipp Steevens

In KI-Bildgeneratoren stecken Systeme, die Sprache verarbeiten, Bilder erkennen und beides zu neuen Inhalten verweben können. Durch offene Systeme wie Dall-E und Stable Diffusion sind solche Anwendungen der breiten Masse zugänglich. Mit Firefly bringt Adobe solche Generatoren in Photoshop bereits für Enterprise-Kunden. Die Bildgeneratoren haben eine breite Debatte um Urheberrechte ausgelöst und viele Künstler sprechen sich in ihren Communities aktiv dagegen aus. Im Interview mit Dr. Gerhard Heinzerling, AI Specialist bei der Arineo Group, wirft iX einen Blick darauf, ob dieses Systeme auch technisch Zeichnen können, wo sich Bilderkennung hinentwickeln könnte und welche Rolle multimodales Lernen für das Verstehen von Prompts bedeutet.

Viele Menschen setzen KI-Bildgeneratoren bereits statt Illustratoren oder Grafikern ein. Wie schnell lösen solche Systeme auch technische Zeichner ab?

Der Einsatz von KI-Modellen zur Bildgenerierung im Bereich der technischen Zeichnung hat in den letzten Jahren Fortschritte gemacht. Es gibt bereits Modelle die einfache technische Zeichnungen generieren können oder bestehende Zeichnungen vervollständigen. Diese Modelle können auf Basis von Eingabeparametern und spezifischen Anforderungen automatisch Zeichnungen erstellen.

Allerdings ist technischer Zeichner ein Beruf, der neben dem Zeichnen umfangreiches Fachwissen und Problemlösungsfähigkeiten erfordert. Es geht nicht nur darum, Bilder zu generieren, sondern auch technische Konzepte zu verstehen, die Anforderungen des Kunden zu berücksichtigen und die Zeichnungen entsprechend anzupassen.

Derzeit sind KI-Modelle beim Generieren komplexer technischer Zeichnungen noch nicht so fortgeschritten, dass sie Menschen ersetzen können. Es erfordert weiterhin menschliche Expertise, um die technischen Details zu verstehen, Änderungen vorzunehmen und kreative Lösungen zu finden. Eine wirkliche und vollständige Ablösung von technischen Zeichnern durch KI oder Bildgeneratoren sehe ich in naher Zukunft nicht.

Dr. Gerhard Heinzerling hat 1999 über die Frage, wie Wörter im Gehirn gespeichert sind, promoviert. Danach arbeitete er als SAP-Berater und ist heute im Bereich der Bilderkennung mittels KI bei der Firma Arineo angestellt.

Abgesehen von Zeichnungen und der jetzt offiziell abgesagten, biometrischen Massenüberwachung: Welche neuen Einsatzzwecke von Bilderkennungssystemen können wir in nächster Zeit erwarten?

Da kommt einiges auf uns zu. In der Automobilindustrie spielen Bilderkennungssysteme eine wichtige Rolle bei der Entwicklung autonomer Fahrzeuge. Man setzt KI ein, um Verkehrsschilder, Fußgänger, Fahrzeuge und andere Objekte auf der Straße zu erkennen und zu verfolgen. Im Gesundheitswesen sind Bilderkennungssysteme vor Allem für die Diagnose von Krankheiten und Verletzungen im Gespräch. Es geht darum, Tumore, Anomalien oder andere gesundheitliche Zustände auf Röntgenbildern, CT-Scans, MRTs und anderen medizinischen Bildern zu erkennen.

Auch im freien Feld können Bilderkennungssysteme Einsatzzwecke finden. So lassen sich auf der einen Seite in der Landwirtschaft Pflanzenkrankheiten, Schädlingsbefall oder Nährstoffmängel der Pflanzen erkennen. Auch zum Überwachen des Pflanzenwachstums, zur Ernteplanung und zur Optimierung der Bewässerung eignen sich solche Systeme. Auf der anderen Seite kann Bilderkennung helfen, Umweltverschmutzung, Entwaldung, Artenvielfalt oder andere Umweltaspekte zu überwachen. Dabei unterstützt die KI dann bei Umweltschutzmaßnahmen und der Analyse von Umweltveränderungen.

Und auch der Einzelhandel kann profitieren: Bilderkennungssysteme analysieren Kundenverhalten und Kundenströmen und helfen dabei, Produktplatzierungen zu optimieren und die Inventarverwaltung zu verbessern.

Alle reden über KI, aber nur wenige kommen auf den Punkt. Das neue iX Special zeigt, wie die Architektur hinter den großen Sprachmodellen funktioniert und welche Systeme in einer generativen KI beim Erzeugen von Bildern zusammenarbeiten. Entwickler erfahren, wie KI-Chips funktionieren und warum davon so viele auf dem Markt auftauchen. Ein Benchmark hilft bei der Wahl der richtigen GPU für die eigenen Projekte. Für das Selbstentwickeln führt das Sonderheft durch gängige Bibliotheken und zeigt, wo sich die besten offenen Modelle finden lassen. iX-Abonnenten erhalten das neue Heft kostenlos – ansonsten ab sofort hier im heise-Shop bestellen!

Bilder und Sprache sind in ihrer Art Bedeutung zu transportieren sehr unterschiedlich und komplex. Wie können wir sichergehen, dass ein KI-System alle Informationen aus einem Prompt in normaler Sprache oder einem Bild verarbeiten kann?

Das Verarbeiten von Informationen aus einem Prompt ist eine komplexe Aufgabe für KI-Systeme. Es gibt jedoch mehrere Ansätze, um sicherzustellen, dass ein KI-System alle relevanten Informationen richtig verarbeiten kann. Zum einen das Training mit vielfältigen Daten. Für den Umgang mit Informationen aus unterschiedlichen Quellen, ist es wichtig, eine KI mit einer breiten Palette von Daten zu trainieren. Dies kann bedeuten, dass Entwickler das System mit einer Vielzahl von Texten, Bildern und multimodalen Datenquellen trainieren, um ein umfassendes Verständnis der verschiedenen Informationsformate zu entwickeln.

Das führt dann zu multimodalem Lernen, bei dem KI-Systeme sowohl visuelle als auch sprachliche Informationen gemeinsam verarbeiten. Durch das Training mit multimodalen Daten können KI-Systeme etwa lernen, Beziehungen zwischen Bildern und zugehörigen Texten herzustellen und so ein besseres Verständnis der Informationen zu entwickeln. Für spezielle Einsatzzwecke lassen sich die KI-Systeme dann auf bestimmte Aufgaben oder Domänen feinabstimmen. Transferlernen ermöglicht es KI-Systemen zudem, das in einem Kontext gelernte Wissen auf neue, ähnliche Kontexte anzuwenden. Ergebnisse von Modellen hängen immer von der Datenqualität ab und besonders bei komplexen Themen sollte man immer das Fachwissen von Menschen einbeziehen.

Herr Heinzerling, vielen Dank für Ihre Antworten!

In der Serie „Drei Fragen und Antworten“ will die iX die heutigen Herausforderungen der IT auf den Punkt bringen – egal ob es sich um den Blick des Anwenders vorm PC, die Sicht des Managers oder den Alltag eines Administrators handelt. Haben Sie Anregungen aus Ihrer tagtäglichen Praxis oder der Ihrer Nutzer? Wessen Tipps zu welchem Thema würden Sie gerne kurz und knackig lesen? Dann schreiben Sie uns gerne oder hinterlassen Sie einen Kommentar im Forum.