Verteiltes Machine Learning: Substra neu im Inkubator der Linux Foundation

Das Open-Source-Framework soll datenschutzkonforme föderierte ML-Lernprojekte möglich machen.

In Pocket speichern vorlesen Druckansicht

(Bild: NicoElNino/Shutterstock.com)

Lesezeit: 2 Min.
Von
  • Matthias Parbel

Die LF AI & Data Foundation nimmt ein weiteres Open-Source-Projekt unter ihre Fittiche, das sich zunächst im Inkubator bewähren muss: Substra. Das Framework richtet sich an Data Scientists und Machine-Learning-Fachleute, die verteilte, team- und unternehmensübergreifende ML-Projekte abwickeln wollen, ohne auf die Vertraulichkeit ihrer jeweiligen Datensätze verzichten zu müssen.

Substra ist eine Entwicklung, die auf das US-Unternehmen Owkin zurückgeht, das sich auf den Einsatz künstlicher Intelligenz in der medizinischen Forschung spezialisiert hat. Im Fokus steht dabei unter anderem föderiertes maschinelles Lernen auf der Basis dezentraler Datensätze, das den erhöhten Datenschutzanforderungen in der Medizin gerecht wird. Substra gibt Data Scientists die erforderlichen Funktionen an die Hand, föderierte ML-Lernprojekte aufzusetzen, ohne dabei ihre Daten "außerhalb der eigenen Firewall" bereitstellen zu müssen.

Substra lässt sich mit allen gängigen ML-Frameworks nutzen, um eigene ML-Algorithmen auch auf remote Datensätzen anzuwenden und zu monitoren – sowohl zum Testen wie auch für Prognosen. Umgekehrt können Forschende ihre eigenen Datensätze anderen Anwenderinnen und Anwendern über detailliert konfigurierbare Freigaberegeln zur Verfügung stellen. Substra verhindert in diesen Szenarien sowohl den Einblick in "fremde" Daten wie auch deren Download.

Das Framework baut auf der Distributed-Ledger-Technologie (Blockchain) auf und eröffnet dadurch auch die Zusammenarbeit konkurrierender Teams auf einem gemeinsamen, virtuellen Datenpool – ohne Einschränkungen beim Datenschutz. Substra lässt sich flexibel für unterschiedliche Anwendungsfälle konfigurieren und sorgt zudem für Transparenz durch einen kontinuierlichen, unveränderbaren Audit, der sämtliche auf der Plattform durchgeführten Operationen registriert. Dadurch lassen sich die ML-Modelle übergreifender Projekte bei Bedarf sogar zertifizieren.

Weitere Informationen zu Substra finden sich im Blogbeitrag der LF AI & Data Foundation sowie in der Dokumentation auf der Projektwebsite und im GitHub Repository.

(map)