David Hipp: Machine Learning als Katalysator für intelligente Datenintegration

Die für moderne Analytics-Anwendungen notwendige, aber aufwendige Datenintegration lässt sich durch Machine Learning vereinfachen.

In Pocket speichern vorlesen Druckansicht
David Hipp: ML als Katalysator für die intelligente Datenintegration
Lesezeit: 1 Min.
Von
  • Matthias Parbel

In diesem Vortrag von der data2day-Konferenz 2019 beschreibt David Hipp den notwendigen, aber meist auch aufwendigen Weg der Datenintegration, die die Basis für moderne Advanced-Analytics-Anwendung schafft. Die Integration ist von vielen repetitiven Prozessen gekennzeichnet, deren hoher Aufwand sich mittels Machine Learning reduzieren lässt.

Dazu stellt Hipp ein praxiserprobtes Konzept vor, mit dem sich die zeitaufwendige Integration tabellarischer Daten deutlich beschleunigen lässt. Das Herzstück ist ein Python-Paket, das mithilfe eines XGBoost-Modells Tabellenspalten klassifiziert und damit die Grundlage für das eigentliche Schema Matching schafft. Der Vortrag behandelt neben dem analytischen Kern auch technische Aspekte und stellt die im Projekt gesammelten Erfahrungen heraus.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Vimeo LLC) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

ist Data Scientist und Projektleiter bei der HMS Analytical Software GmbH in Heidelberg. Während seiner Promotion in Mathematik forschte er an Werkzeugen, um die Güte von Wellensimulationen zu bestimmen und engagierte sich in der Wissenschaftskommunikation. Heute automatisiert er Datenintegration mit Hilfe von Machine Learning und entwickelt Advanced-Analytics-Plattformen.

Mehr zu Python auf der enterPy online
David Hipp: ML als Katalysator für die intelligente Datenintegration

Die erste von heise Developer, iX und dpunkt.verlag organisierte virtuelle Konferenz enterPy online am 26. Mai vermittelt einen kompakten Überblick zum Einsatz von Python in Businessanwendungen in den Bereichen Web-Entwicklung, Data Science und DevOps.

(map)