Explizite Songtexte erkennen mit KI-Tool von Deezer
Deezer kombiniert seinen Tonspurentrenner Spleeter mit einem KI-Tool um explizite Inhalte bei Songtexten besser erkennen zu können.
Der Musikstreamingdienst Deezer entwickelte ein KI-Tool, das in der Lage ist, eindeutige bzw. anstößige Songtexte zu erkennen. Wenn Künstler ihre Musik auf einer Streaming-Plattform wie Deezer veröffentlichen, können sie diese als "explicit" kennzeichnen. Damit machen sie deutlich, dass ihre Songtexte Worte enthalten, die für bestimmte Zielgruppen wie Kinder nicht geeignet sind. Kunden der Streamingdienste haben anschließend die Möglichkeit, per Filter explizite Songtexte von ihren Suchergebnissen auszuschließen.
Die Entscheidung, ob ein Text anstößige Inhalte enthält, ist dabei subjektiv und nicht immer einfach zu treffen. Je nach Kontext oder kulturellem Hintergrund können Worte als eindeutig eingestuft werden oder nicht. Aus diesem Grund braucht es Content-Moderatoren, die einschätzen können, ob ein Begriff explizit ist. Maschinen stoßen bei dieser Aufgabe schnell an ihre Grenzen.
Deezer hat sich dieser Herausforderung angenommen und entwickelte ein KI-Tool, das Content-Moderatoren potenziell eindeutige Texte vorschlägt. Dafür nutzt der Musikstreamingdienst seinen Tonspurentrenner Spleeter, um in einem ersten Schritt die Vocals vom Song zu isolieren. Anschließend kommt ein Keyword Spotting System zum Einsatz, das bestimmte Schlüsselwörter in den Vocals erkennt. Auf dieser Grundlage klassifiziert ein Algorithmus aus einem Set von möglichen Erkennungswahrscheinlichkeiten, ob es sich um einen als "explicit" zu markierenden Text handelt oder nicht. Anschließend entscheidet ein Mensch, ob die als explizit vorgeschlagenen Texte auch wirklich anstößige Inhalte enthalten. Komplett automatisieren kann man diese Entscheidung noch nicht.
Grenzen der KI
Das Problem bei der Automatisierung solcher Aufgaben besteht darin, dass die Grundlage der Entscheidung, die von der Maschine getroffen wird, nicht transparent ist. Trainiert man zum Beispiel eine KI mit Rap-Songs, muss man darauf achten, genauso viele Lieder mit Explicit-Lyrics wie unanstößige Texte zu verwenden. Ansonsten könnte die KI lernen, dass Rap-Songs allein aufgrund ihres Genres explizite Inhalte enthalten.
Diese von Deezer verwendete Methode wird auch als Explainable-ML (Machine Learning) bezeichnet. Im Gegensatz zum Blackbox-ML lassen sich die Entscheidungen der KI hier besser nachvollziehen. Auf seiner Webseite zeigt Deezer, dass ihr Modell dem Blackbox-Modell bei der Explicit-Klassifizierung ĂĽberlegen war. (kim)