Im Test: SageMaker für Machine Learning in der Cloud

AWS SageMaker ist Amazons Plattform für ML-Projekte. Der Service SageMaker Pipelines soll ML und CI/CD zusammenführen. Wir zeigen, wie das funktioniert.

Artikel verschenken

13.09.2023, 15:00 Uhr

Lesezeit: 11 Min.

iX Magazin

Von

Franz Eigner

Im Test: SageMaker für Machine Learning in der Cloud
Einzelne Verarbeitungsschritte definieren
Training und Modellregistrierung
Aufrufen der Pipeline und Erstellen der Endpunkte
Fazit

Artikel in iX 11/2023 lesen

Data Scientists investieren während Machine-Learning-Projekten viel Zeit in das Aufbereiten von Daten, das Entwickeln von Modellen und das schlussendliche Bereitstellen des Modells als Service. Mit MLOps und dem Erstellen von Datenpipelines lassen sich diese Prozesse effizienter und produktiver gestalten. Entwickler können fertige Pipelines durch das Austauschen verschiedener Komponenten unkompliziert für neue Projekte anpassen. Mittlerweile finden sich viele Plattformen und Cloud-Services für MLOps. Dieser Artikel stellt AWS SageMaker Pipelines anhand eines Praxisbeispiels vor.

Als Beispiel dient eine Pipeline für einen Service, der Vorhersagen darüber treffen soll, ob eine Bank einen Kreditantrag akzeptiert oder nicht. Die für das Modelltraining benötigten Daten liegen dabei in der Regel als Tabelle vor. In jeder Zeile sind Informationen über den Kunden gespeichert, etwa das monatliche Einkommen oder die Wohnsituation. Zusätzlich benötigt das Modelltraining die Zielvariable, auch Target genannt – hier also, ob der Kunde letztendlich den Kredit erhalten hat. Da es sich in diesem Fall um eine Ja-Nein-Entscheidung handelt, spricht man von einer binären Klassifikationsaufgabe.

Franz Eigner ist Senior Data Scientist mit Fokus auf AWS Cloud-Technik. Seine Spezialgebiete sind Product Recommendation und Document Analysis.

Der erfolgreichste Ansatz für solche Fragestellungen ist Gradient Boosting. Es erstellt schrittweise schwache Vorhersagemodelle, meist Entscheidungsbäume, um den Vorhersagefehler zu reduzieren. Die Modelle werden iterativ auf den verbleibenden Fehlern der vorherigen Vorhersagen trainiert und anschließend kombiniert. Die verbreitetsten Frameworks dafür sind LightGBM, CatBoost und XGBoost. Eine erste, einfache Herangehensweise wäre das Erstellen eines Python-Skripts auf einem lokalen System, das das Training durchführt und das trainierte Modell anschließend im pickle-Format exportiert. Dabei gibt es jedoch einige Schwierigkeiten: Bei den Fragen nach kontinuierlichen Updates, dem kontinuierlichen Bereitstellen (Continuous Integration / Continuous Delivery, CI/CD) und dem Vergleich von Modellexperimenten wird schnell klar, dass es einer anderen Strategie bedarf. Hier kommt die Machine-Learning-Pipeline ins Spiel: Sie ermöglicht ein effizientes und strukturiertes Umsetzen von ML-Projekten.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

So gelingt der Weg zur finanziellen Freiheit mit ETFs und Fonds

Finanzielle Freiheit dürfte die Motivation der meisten Anleger sein, um Geld an der Börse zu investieren. Mit Disziplin und bewährten ETFs und Fonds klappt’s.

Mit der Baureihe G60 bietet BMW den 5er erstmals auch als reines Elektroauto an.

UpdateWas 100 Kilometer mit dem Elektroauto wirklich kosten

Wer die Fahrtkosten auf den Verbrauch reduziert, unterschlägt den größten Teil der tatsächlichen Ausgaben. Das zeigt der Vergleich von zwölf Modellen.

Wie der ARM-Prozessor Snapdragon X den Notebookmarkt umkrempelt

Der ARM-Chip Snapdragon X für Notebooks ist stärker, als es AMD und vor allem Intel lieb sein kann. Zudem werden KI-Beschleuniger wegen Copilot+ entscheidend.

Einplatinencomputer im Test: Hardkernel Odroid-H4+ mit Intel N97

Hardkernel schickt die dritte Generation ihres lüfterlos kühlbaren x86-Boards Odroid-H ins Rennen. Es eignet sich für Selbstbau-Heimserver – mit Eigenheiten.

USB-SSD-Gehäuse mit RAID-Funktionen im Test

Die vier USB-Gehäuse mit RAID-Funktionen für zwei SSDs versprechen, beim Defekt eines Datenträgers immer noch eine Sicherheitskopie zu haben.

Test Elektroauto VW ID.4 Pro: Sparsamer als bisher

VW versieht den ID.4 mit einem neuen Motor, der weniger Strom benötigt und mehr leistet. Dazu sind Teile des E-SUVs deutlich gereift, wie unser Test zeigt.

VW ID.3 Facelift im Test

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}