Mobile Foto-Fabriken
Wie Smartphone-Kameras teure Foto- und Studiotechnik simulieren
Smartphone-Kameras imitieren nicht mehr nur fotografisches Bokeh, sondern ermöglichen Nachtaufnahmen sowie professionell ausgeleuchtete Porträts – einfach aus der Hand, ohne schweres Stativ, Blitz und Studiolampen. Dafür sorgen raffinierte Algorithmen, clevere optische Konstruktionen und maschinelles Lernen aus den Laboren von Google, Apple, Huawei und Leica.
Seit Erfindung der Smartphone-Fotografie sehnen sich Hersteller und Nutzer nach der Qualität und der Ästhetik von Spiegelreflex- oder Systemkamera-Aufnahmen: edle Unschärfe, knackige Details, kaum Rauschen auch bei schlechtem Licht. Gemäß den optischen Gesetzen benötigt man für all das aber möglichst große lichtempfindliche Zellen auf möglichst großen Sensoren, deren Abmessungen wiederum raumgreifende, schwere Objektive nach sich ziehen. Weil das Smartphone damit seinen Immer-dabei-Status verlieren würde, müssen sich die Hersteller zwangsläufig mit deutlich kleineren Sensoren und fest eingebauten Miniaturobjektiven begnügen, was lange Zeit bedeutete: brillante, detailreiche Fotos nur bei Tageslicht, geringe Auflösung und keine fotografische Hintergrundunschärfe (Bokeh).
Im Laufe der Jahre sind die Smartphones zu veritablen Rechenzentren herangewachsen: Bestückt mit schneller CPU, zig Gigabyte Arbeitsspeicher, flankiert von Grafik- und KI-Beschleunigern (Neural Processing Unit, NPU), bringen Entwickler dort Bildverarbeitungsalgorithmen zum Laufen, für die sie früher eine Serverfarm gebraucht hätten. So öffnen sich mit fast jeder Kamerageneration neue Perspektiven. Die erste Generation simulierte glaubhaftes Bokeh [1] und erweiterte den Dynamikumfang, die nächste ermöglichte erstaunlich scharfe, rauscharme Nachtaufnahmen aus der Hand und entlockte den Sensoren deutlich mehr Auflösung. Die Algorithmen dahinter haben eines gemein: Sie stützen sich auf Bilderserien, um möglichst viele Bilddetails zu sammeln, die das beschränkte optische System aus einer Belichtung allein nicht gewinnen kann.
Die Herausforderung dabei ist, die einzelnen Frames so passgenau zu überlagern, dass keine Geisterbilder entstehen. Szenen mit Menschen und anderen sich bewegenden Objekten bringen die Algorithmen an ihre Grenzen, insgesamt arbeiten die Verfahren aber auch dann noch erstaunlich präzise. Pionier auf diesem Gebiet ist Google und insbesondere der Computergrafikexperte Marc Levoy. Unter seiner Ägide entstanden bahnbrechende Techniken wie HDR+, Porträtmodus auf Basis geteilter Pixel, Night Sight und Super Res Zoom, die die Möglichkeiten des günstigen Ein-Kamera-Systems derart ausreizten, dass sie manch teure Konkurrenz mit zwei und mehr Linsen deklassierte. Hinter diesen Algorithmen stehe der generelle Anspruch, dass sie möglichst gut skalieren, sich mit der zugrunde liegenden Hardware verbessern und mit allen verfügbaren Kameras des Smartphones funktionieren, erläutert Google gegenüber c’t. Mehr oder weniger abgewandelt haben sich solche Verfahren als Fundament der Bildverarbeitung in allen besseren Smartphones etabliert – von Apple über Samsung bis hin zu Huawei und Xiaomi.
Nachtsichtgeräte
Um nächtliche Szenen mit Mondschein, Sternenhimmel oder städtischem Lichtermeer aus der Hand aufzunehmen, schießen die Smartphone-Kameras anstatt einer Langzeitbelichtung mehrere kurz belichtete Aufnahmen nacheinander und überlagern sie anschließend. Damit vermeiden sie Verwacklungsunschärfe, erhöhen den Dynamikumfang und reduzieren das Rauschen. Wie ihre Technik im Detail funktioniert, verraten die meisten Hersteller nicht. Nur Google gibt großzügige Einblicke in die faszinierende Welt seiner Foto-Algorithmen.
Sobald der Anwender die Kamera-App öffnet, beginnt ein kontinuierliches Shooting mit strenger Selektion. Wie genau die einzelnen Frames geschossen und gelöscht werden, ergibt sich aus einer akribischen Analyse des Motivs und der Aufnahmebedingungen. Stark verwackelt? Falscher Fokus? Lässt sich nicht passgenau überlagern? All das erkennt der Algorithmus in Sekundenbruchteilen, verwirft unbrauchbare Frames direkt und behält nur aktuelle Aufnahmen im Speicher. Sobald der Auslöser gedrückt wird, schickt die Kamera sofort neun bis 15 Bilder zur Verarbeitung an den Night-Sight-Algorithmus.
Die Belichtungszeit variiert mit der Helligkeit des Motivs, bleibt aber so kurz, dass die Aufnahmen nicht verwackeln; dabei unterstützt auch die optische Bildstabilisierung (OIS). Erkennen die im Smartphone verbauten Gyro-Sensoren, dass die Kamera auf festem Untergrund oder einem Stativ steht, verlängern sie automatisch die Belichtungszeiten. Bewegte Objekte im Motiv wirken sich verkürzend aus, weil Bewegungsunschärfe das Überlagern erschwert beziehungsweise dessen Qualität verschlechtert. Abhängig von diesen Parametern nimmt die App beispielsweise aus der Hand 15 Fotos mit 1/15 Sekunde oder kürzerer Belichtungszeit auf. Oder sechs Frames mit längerer Belichtung bis hin zu einer Sekunde.
Die Belichtungsstrategie orientierte sich anfangs am Prinzip des zuvor entwickelten High-Dynamic-Range-Verfahrens HDR+: Anstatt klassische Serien aus unter-, über- und neutral ausgeleuchteten Einzelbildern zu fertigen (Bracketing), wurden alle Frames unterbelichtet. Mit diesem Verfahren ließ sich Ghosting an bewegten Objekten sowie das Übersättigen von Farben effektiv vermeiden; auch das Ausrichten gelingt leichter, weil die Einzelbilder homogener sind. Weil vergleichsweise viele Frames miteinander verrechnet werden, reduziert sich nebenbei auch das Rauschen – allerdings nicht so stark wie beim Bracketing.
Im Frühjahr kamen Pixel-4a/5-Nutzer in den Genuss eines verbesserten Algorithmus, der HDR+ mit Belichtungsreihen ermöglichte. Jetzt kombiniert Night Sight zwölf Kurzzeit- mit drei Langzeitbelichtungen.
Mehr Auflösung
Zum passgenauen Überlagern nutzen Google-Smartphones ab dem Pixel 3 mit seinem schnelleren Prozessor ein Verfahren namens Super Res Zoom. Wie der Name andeutet, soll Super Res Zoom eigentlich die Auflösung erhöhen, und zwar nicht durch simple Interpolation, sondern indem es echte zusätzliche Bildinformationen in der Szene sammelt – wiederum aus Serienbildern.
Das funktioniert folgendermaßen: Weil die Fotodioden eines typischen CMOS-Sensors helligkeits-, nicht aber farbempfindlich sind, sorgt ein vorgesetztes Farbfilter-Array dafür, dass jedes Pixel eine der Farben Rot, Grün oder Blau misst. Den RGB-Wert jedes Pixels interpoliert die Kamerasoftware anschließend mithilfe der Nachbarpixel (Demosaicing), weshalb handelsübliche Digitalkameras die volle Sensorauflösung konstruktionsbedingt gar nicht ausschöpfen können.
Die jeweils fehlenden Farbwerte lassen sich aber indirekt messen und nachträglich ergänzen, indem man drei zusätzliche Aufnahmen anfertigt: die erste um ein Pixel nach rechts versetzt, die zweite um ein Pixel nach unten und die dritte um ein Pixel nach rechts und unten verschoben. Solche Idealbedingungen herrschen allerdings nur, wenn der Sensor aktiv im Gehäuse verschoben wird und die Kamera stabil auf einem Stativ steht – etwa in der Astrofotografie, die solche Methoden seit Jahren praktiziert. Die Herausforderung in der Smartphone-Fotografie ist, dass die Schwankungen üblicherweise recht groß und ungleichmäßig ausfallen.
Hier kommt den Entwicklern eine „Schwäche“ der optischen Bildstabilisatoren (Optical Image Stabilization, OIS) zupass: Laut Google gleichen diese Systeme die gröbsten Schwankungen aus, nämlich fünf bis 20 Pixel Versatz zwischen zwei aufeinanderfolgenden Frames. Sie scheitern aber am hochfrequenten Händezittern, das nur wenige Pixel ausmacht. Genau diese verbliebenen Mikro-Verschiebungen liefern dem Algorithmus die begehrten Farbwerte. Schraubt der Fotograf sein Handy doch mal aufs Stativ oder stützt sich ab, wird das OIS sogar vorübergehend zweckentfremdet, um das Smartphone sanft durchzuschütteln.
Der Algorithmus sucht nun in den einzelnen Frames nach gemeinsamen Strukturen, um die Bilder grob übereinanderzulegen. Doch das passgenaue Ausrichten aller Frames gelingt nur beim Stillleben, also äußerst selten. Meist wiegen sich Blätter und Gräser im Wind, im Meer brechen sich Wellen, Menschen und Autos bewegen sich durch die komplette Szene. Um dadurch entstehende Artefakte und Geisterbilder zu vermeiden, wird ein Referenzbild als Basis ausgewählt und gezielt mit Pixeln aus den anderen Frames angereichert. Dabei ergänzt der Algorithmus nur solche Details, die er exakt und eindeutig zuordnen kann. Effekt: Manche Partien der Szene erhalten eine höhere Auflösung und sind rauschärmer als andere.
Auf dem iPhone heißen die entsprechenden Algorithmen Smart HDR (ab iPhone XS), Nachtmodus (iPhone 11 Pro Max) und Deep Fusion (iPhone 11). Bei Huawei spricht man von Multi-Frame HDR, Multi-Frame Noise Reduction und Multi-Frame Super Resolution. Laut Dr. Florian Weiler, Technischer Projekteitler Image Pipeline bei Leica, kamen erste Implementierungen bereits im Huawei P9 zum Einsatz.
Raffinierte Optik
Unabhängig vom Nachtmodus diente der Super-Res-Algorithmus auch als Ersatz für ein optisches Zoom, und bis hin zu einer Zweifachvergrößerung konkurrierte er durchaus mit einem optischen Tele. Doch mittlerweile verbauen Huawei, Samsung und Xiaomi immer raffinierter konstruierte Periskop-Teleobjektive, die um 90 Grad gedreht im Gehäuse liegen und das durch die Front einfallende Licht über einen Spiegel durchs Linsensystem leiten. Dank dieser Technik rückten sogar lange Brennweiten in den Bereich des Möglichen. Spitzenreiter ist momentan das Huawei Mate P40 Pro+ mit seinem 240-Millimeter-Tele von Leica, das das Licht über eine zusätzliche Spiegelkonstruktion im Inneren nochmals umleitet und damit etwas kompakter ausfällt. Das 65-Millimeter-Tele des iPhone 12 Max Pro sitzt noch klassisch senkrecht im Gehäuse, dafür setzt Apple auf große, lichtstarke 12-Megapixel-Sensoren mit großen Pixeln. Ein Periskopsystem fürs iPhone existiert erst auf dem Papier, nämlich in einer umfangreichen Patentschrift des Herstellers (siehe ct.de/y7xx).
Weil Smartphones kein echtes Zoomobjektiv besitzen, sondern mehrere Festbrennweiten kombinieren, ist das Zoomen nur in bestimmten Fällen ein rein optischer Prozess: nämlich dann, wenn die gewählte Vergrößerung exakt zur Brennweite einer der Kameras passt. Alles dazwischen oder deutlich darüber nennt sich Hybrid- oder Digitalzoom, wobei ebenfalls Multi-Shot- und Super-Res-Algorithmen zum Einsatz kommen, erklärt Dr. Weiler. Der Hybrid-Zoom-Algorithmus schneidet aus dem hochauflösenden Foto der Hauptkamera den passenden Ausschnitt zurecht und mischt mehr oder weniger Details aus simultan geschossenen Aufnahmen der anderen drei Kameras hinzu, auch unter Zuhilfenahme von Super-Resolution-Techniken. Reproduzierbare Ergebnisse kann man davon nicht immer erwarten, weil das exakte Mischverfahren von der vorherigen, KI-gestützten Motivanalyse abhängt.
Smarte Farbgestaltung
Apropos künstliche Intelligenz: Weißabgleich und Farbumsetzung sind knifflige Aufgaben, die auch Spiegelreflexkameras nicht immer zufriedenstellend lösen. Ihre klassischen Messverfahren und Algorithmen zielen auf eine möglichst neutrale Umsetzung, die aber nicht in jeder Aufnahmesituation das liefert, was der Fotograf wahrgenommen hat. So schimmern Hauttöne zu rötlich, das Gras zu grün, der Sonnenuntergang zu gelb. Solche schwer beschreibbaren Zusammenhänge zwischen allen möglichen Einflussfaktoren lassen sich am besten mit Machine-Learning-Algorithmen modellieren – und dafür bringen Smartphones im Unterschied zu Spiegelreflexkameras die perfekte Hardware-Ausstattung mit.
Mithilfe unzähliger Beispielfotos trainieren die Hersteller neuronale Netze auf die perfekte Umsetzung und Anmutung – und zwar abhängig von Motiv und Aufnahmebedingungen. Anhand von Porträt-Beispielen etwa lernen sie, sowohl bei Hell- als auch bei Dunkelhäutigen einen natürlichen Hautton zu treffen. Nach Durchsicht von Sonnenuntergangsbildern haben sie verinnerlicht, dass der kräftige Rotton dazugehört und keinesfalls neutralisiert werden darf. Wie gut sich solche KIs auf unterschiedliche Aufnahmebedingungen einstellen können, hängt stark von der Vielfalt der Trainingsdaten ab. Und ob das Ergebnis einem persönlich gefällt, steht und fällt auch damit, auf welchen „Look“ es optimiert wurde.
Nicht bei jeder Kamera ist man auf Gedeih und Verderb den Black-Box-Algorithmen der Hersteller ausgeliefert. Neuere Pixel-Smartphones etwa blenden bei Nachtmodus-Aufnahmen zwei Regler für den Kontrastausgleich ein. Porträts lassen sich nachträglich wie im Studio ausleuchten, wofür Google mit enormem Aufwand ein spezielles neuronales Netz trainiert hat. Apple wiederum hat mit ProRAW ein eigenes Rohdatenformat entwickelt, über das sich auch bei Multi-Frame-Belichtungen (Intelligente HDR, Deep Fusion, Nachtmodus) die wichtigsten Parameter nachträglich justieren lassen: Belichtung, Farbe und Weißabgleich. Die Stärke der Rauschreduzierung kann der Nutzer leider noch nicht beeinflussen.
Berechenbare Zukunft
Smartphone- und Kamerahersteller investieren massiv in Computational-Photography-Infrastruktur. Die Bedeutung der Technik lässt sich schon allein an der Tatsache bemessen, dass der traditionsreiche Optik-Spezialist Leica ein eigenes, darauf spezialisiertes Forschungszentrum mit 40 Mitarbeitern in den USA aufgebaut hat. Für Leica liegt die Zukunft in der konsequenten Weiterentwicklung und dem reibungslosen Zusammenspiel aller beteiligter Komponenten: „Neueste Fertigungsverfahren und Materialien ermöglichen kompaktere Objektive und schaffen neue Freiheitsgrade im Optikdesign“, so Andreas Mohrland, Kompetenzfeldleiter Image Pipeline. „Zusätzlich werden die Bildsensoren mit mehr Intelligenz ausgestattet und übernehmen die Vorverarbeitung der Bilddaten. Ergänzend werden etablierte Algorithmen in Hardware gegossen.“ Dies schaffe Ressourcen für fortgeschrittene Algorithmen, die zunehmend von Machine-Learning-Verfahren gestützt werden. (atr@ct.de)
Publikationen: ct.de/y7xx