Machine Learning: ML Kit kümmert sich zum offiziellen Release um Selfies

Das Software Development Kit für mobile ML-Anwendungen ist allgemein verfügbar, und eine neue Funktion trennt bei Selfies die Person(en) vom Hintergrund.

3

(Bild: Shutterstock)

10.03.2021, 10:24 Uhr

Lesezeit: 4 Min.

Developer

Von

Rainald Menge-Sonnentag

Machine Learning: ML Kit kümmert sich zum offiziellen Release um Selfies

Google hat das ML Kit für allgemein verfügbar erklärt. Mit dem GA-Release (General Availability) gilt das auf Machine-Learning-Anwendungen zugeschnittene Software Development Kit (SDK) für Mobilentwickler als reif für den produktiven Einsatz. Gleichzeitig bekommt es ein neues Modul zum Segmentieren von Selfies.

Google hatte das SDK erstmals auf der Google I/O 2018 vorgestellt. Es enthält unter dem Schlagwort "Vision" zum GA-Release acht Methoden für die Bild- beziehungsweise Videoanalyse, während sich unter "Natural Language" derzeit vier Funktionen für das Analysieren und Verarbeiten von Texten befinden. Trotz der allgemeinen Verfügbarkeit haben drei APIs derzeit noch Beta-Status. Ursprünglich war das ML Kit eng mit Firebase verbunden, aber im Juni hat Google es von der Mobilplattform gelöst.

Videos by heise

Von Texterkennung bis Selfie-Unterteilung

Der Bereich Vision bietet APIs, um Texte aus Bildern zu extrahieren (Text Recognition), Barcodes einzulesen (Barcode Scanning) und Beschreibungen für Bilder zu erstellen (Image Labeling). Eine weitere API hilft beim Übertragen handgeschriebener Texte (Digital Ink Recognition). Schließlich gibt es APIs zur Posen- (Pose Detection) und Gesichtserkennung (Face Detection) und zum Identifizieren und Nachverfolgen von Objekten über mehrere Frames in einem Video (Object Detection And Tracking).

Zum Release existieren bringt das ML Kit zwölf APIs mit

(Bild: Google)

Der Neuzugang Selfie Segmentation zielt darauf ab, in Selfies die Person oder Personen vom Hintergrund zu trennen. Die API erstellt eine Ausgabemaske mit derselben Größe wie das Foto. Jeder Pixel in der Maske besitzt eine Gleitkommazahl zwischen 0 und 1, die die Konfidenz wiedergibt, dass an der Position eine Person zu sehen ist. Optional lässt sich die Maske über den Parameter RAW_SIZE_MASK auf eine feste Größe skalieren.

Die API funktioniert sowohl mit Fotos als auch mit Videos, wobei sie bei Letzteren die vorherigen Ausgaben in die Berechnung einbezieht, um sanftere Übergänge zu erzeugen. Die Seflie Segmentation erkennt sowohl einzelne Personen als auch Gruppen, ohne dass eine manuelle Anpassung nötig ist. Die Funktionsweise soll unter Android und iOS dieselbe sein. Derzeit ist die Selfie-Segmentation-API noch als Beta gekennzeichnet.

Aus dem linken Eingabebild erstellt das ML Kit eine Maske, die rechts über das Bild gelegt ist.

(Bild: Google)

Für Poser und Drill-Seargants

Die Pose-Detection-API ist ebenfalls weiterhin als Beta gekennzeichnet. Sie bringt im aktuellen Release ein paar Neuerungen mit. So gibt sie nun eine Z-Koordinate mit, um zu erkennen, ob sich ein Teil vor oder hinter den Hüften der Person befindet. Außerdem kann sie zusätzliche Posen aus den Bereichen Fitness und Yoga erkennen.

Google hat zudem ein interaktives Tutorial und zugehöriges Colab-Notebook umgesetzt, das auf Fitnessanwendungen abzielt und unter anderem Liegestütze und Kniebeugen in Videos mitzählen kann.

Ein Tutorial zählt Liegestütze und Kniebeugen.

(Bild: Google)

Übersetzen und Antworten auf Knopfdruck

Im Bereich Natural Language gibt es zum GA-Release keine Neuzugänge. Die zugehörigen APIs beschäftigen sich mit dem Erkennen der Sprache eines Texts (Language Identification) und der maschinellen Übersetzung zwischen zwei von insgesamt gut 50 Sprachen (Translation). Außerdem existiert eine API, die automatische Antwortvorschläge macht (Smart Replies).

Am 27. und 28. April findet die Minds Mastering Machines zum vierten Mal statt. Dieses Jahr richten die Veranstalter heise Developer, iX und dpunkt.verlag die Entwicklerkonferenz als Online-Veranstaltung aus. In den Wochen nach der Konferenz finden Workshops ebenfalls online statt.

Ein Schwerpunktthema im Programm der Konferenz ist der Bereich des Natural Language Processing. Daneben steht vor allem das aufstrebende Thema MLOps im Fokus

Die jüngste API Entity Extraction kam im Dezember ins ML Kit. Sie erkennt einzelne Entitäten beziehungsweise Einheiten in Texten, um beispielsweise E-Mail-Adressen, IBANs oder Datumsangaben auszuwerten. Sie ist neben der Selfie Segmentation und der Pose Detection die dritte als Beta gekennzeichnete API.

Weitere Details zur allgemeinen Verfügbarkeit von ML Kit und dem Neuzugang Selfie Segmentation lassen sich dem Entwicklerblog von Google entnehmen. Die Beschreibung der APIs findet sich in auf der Seite mit den Anleitungen zum ML Kit.

(rme)