Machine Learning: Wie Federated Learning KI und Datenschutz vereint

Federated Learning als Kompromiss für Unternehmen, die ihre Daten schützen, aber trotzdem für das Training eines Machine-Learning-Modells einsetzen wollen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 12 Min.
Von
  • Oliver Bracht
Inhaltsverzeichnis

Bei der Entwicklung von Machine-Learning-Modellen kann man sich durchaus auf das Prinzip "Viel hilft viel" verlassen. Qualität und Güte von Algorithmen sind untrennbar mit der verfügbaren Menge relevanter Daten verbunden. Big-Tech-Unternehmen sind in der komfortablen Situation, dass sie über ausreichend Daten ihrer Nutzer verfügen und sich die Möglichkeit gesichert haben, sie zum Modelltraining zu nutzen. Anders sieht die Situation bei klassischen Unternehmen aus, insbesondere im B2B-Umfeld. Dort sind es üblicherweise nicht die KI-Anbieter selbst, die Daten erheben und sammeln, sondern Anwenderunternehmen – zum Beispiel im Maschinenbau, wo sie aus der verbauten Sensorik stammen. Um mit diesen Daten Modelle zu trainieren, gibt es zwei Optionen: Entweder trainiert der Modellanbieter ein zentrales Modell mit allen Daten oder die Anwender trainieren dezentrale und unabhängige Modelle direkt vor Ort.

Mehr zu Machine Learning

Im ersten Fall übergeben die Anwenderunternehmen die Daten an den Hersteller, der sie zentral sammelt, ein KI-Modell darauf trainiert und es dann den Anwendungsunternehmen bereitstellt. Das Modell lernt hier über alle Anwender. Unternehmen geben ihre Daten allerdings prinzipiell ungern weiter, denn sie fürchten, dass sie damit sensible Informationen wie Produktionsprozesse oder geistiges Eigentum preisgeben könnten.

Die Alternative besteht darin, dass jedes Anwenderunternehmen ein eigenes Modell erstellt. Damit sind die Datenschutz- und Datensicherheitsbedenken gelöst, allerdings ist die Güte der Modelle wesentlich schlechter als bei einem Modell, das auf alle Daten Zugriff hat. Das gilt insbesondere dann, wenn es darum geht, Ereignisse wie beispielsweise Maschinenstörungen zu prognostizieren. Problematische Verläufe bilden hier eine starke Minorität – es handelt sich um sogenannte Rare Events. Bei einer begrenzten Datenbasis ist das Training eines Prognosemodells dadurch erheblich schwerer und belastbare Ergebnisse bleiben komplett aus oder treten erst mit großem zeitlichen Vorlauf ein.

Das war die Leseprobe unseres heise-Plus-Artikels "Machine Learning: Wie Federated Learning KI und Datenschutz vereint". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.