Mac & i 5/2017
S. 148
Developer's Corner
Vision-Framework
Aufmacherbild

Gut erkannt

Gesichts- und Objekterkennung mit dem Vision-Framework

Bildanalyse, Gesichtserkennung und künstliche Intelligenz galten bislang als zu schwer, um sie mal eben so in eine App einzubauen. Mit Apples neuem Vision-Framework rückt dieses Thema für alle Entwickler in greifbare Nähe. Mit wenigen Zeilen Programmcode lernt eine App, Bilder zu analysieren, Objekte, Gesichter oder Emotionen zu erkennen – und zwar nicht nur in Fotos, sondern auch in Videos.

Bilderkennung ist eine praktische Angelegenheit: Sie hilft dabei, Objekte in Fotos und Videos zu finden. Das können ganz unterschiedliche Sachen sein wie Gesichter, Texte, Barcodes oder ganz einfach nur Rechtecke. An vielen Stellen in iOS und macOS benutzen Anwender eine Bilderkennung inzwischen ganz selbstverständlich, etwa für die Personen- und Objektsuche in der Fotos-App oder zum bequemen Einlesen von iTunes-Gutschein-Karten mit Hilfe der Kamera des iPhone. tvOS kann das alles ebenso, nur kommt es dort augenscheinlich noch nicht zum Einsatz.

Unter der Haube passieren bei der Analyse von Bildern und Videos eine ganze Reihe von Dingen, von denen man als Nutzer kaum etwas mitbekommt. Die Betriebssysteme wandeln die Eingangsdaten zunächst in ein passendes Format und die richtige Größe. Anschließend bereitet sie das OS mit ein oder mehreren Filtern für die jeweilige Aufgabe vor, wandelt das Bild etwa in Schwarzweiß um und erhöht den Kontrast so stark, dass Schriftzeichen und Linien deutlich hervortreten. Am Ende der Kette sorgt der eigentliche Bilderkennungs-Algorithmus für die Entschlüsselung und Umwandlung der Bildinformationen in verwendbare Daten. Das geschieht über sogenannte neuronale Netze, im Marketing meist mit dem Stichwort künstliche Intelligenz beworben.