Machine Learning: Datenexplorations-Tool Kangas als öffentliche Beta verfügbar

Das Open-Source-Tool Kangas steht als Python-Library bereit. Es lässt sich für Text, Grafiken und Videos einsetzen und kann mit großen Datensätzen umgehen.

(Bild: metamorworks / Shutterstock.com)

22.11.2022, 10:22 Uhr

Lesezeit: 3 Min.

Developer

Von

Maika Möbus

Das Softwareunternehmen Comet mit Hauptsitz in den USA hat sein erstes quelloffenes Tool Kangas veröffentlicht. Das Tool zur Exploration, Analyse und Visualisierung von Daten soll Entwicklerinnen und Entwicklern in einer frühen Phase des Machine-Learning-Lebenszyklus zu mehr Klarheit über ihre Daten verhelfen. Es lässt sich ergänzend zu weiteren Tools wie Pandas oder TensorBoard nutzen.

Kangas entspringt dem Forschungsteam bei Comet, wo es zunächst für Nutzerinnen und Nutzer entwickelt wurde, die große Computervision-Datensätze visualisieren wollten. Daraus entstand ein Standalone-Open-Source-Projekt. Derzeit hat Kangas den Status einer öffentlichen Beta, soll laut Comet auch in Zukunft Open Source bleiben und ist "von der und für die ML-Community entwickelt worden".

Videos by heise

Skalierbarkeit, Performance und Interoperabilität

Kangas lässt sich mittels pip installieren: pip install kangas. Das Tool bietet eine Python-API zum Logging großer Datentabellen sowie ein visuelles Interface, um komplexe Queries auf einen Datensatz anzuwenden, wobei sich das UI durch eine einfache Bedienung und eine hohe Performance auszeichnen soll. Die fundamentale Klasse des Tools zum Repräsentieren von Datensätzen ist DataGrid. Diese kann mit Datensätzen umgehen, die Millionen von Reihen besitzen. Das Importieren einer öffentlichen DataGrid-Datei demonstriert das Entwicklungsteam auf GitHub:

import kangas as kg

# Load an existing DataGrid
dg = kg.read_datagrid("https://github.com/caleb-kaiser/kangas_examples/raw/master/coco-500.datagrid")

Daneben lassen sich auch CSV-Dateien, Pandas DataFrames oder HuggingFace-Datensätze verwenden. Das Erstellen eines neuen DataGrid ist ebenfalls möglich. Im Kangas Viewer besteht die Möglichkeit, Daten zu gruppieren, zu sortieren und zu filtern. Dabei übernimmt Kangas das Parsen von Metadaten soweit möglich, beispielsweise das automatische Parsen der Labels und Scores im obigen Beispieldatensatz:

Kangas kann Metadaten wie Labels automatisch parsen.

(Bild: Comet)

Wer bereits Tools wie Pandas oder TensorBoard nutzt, soll auch von Kangas profitieren können. Das Verwenden von Pandas DataFrames in Kangas soll sich etwa dann anbieten, wenn Datensätze zu groß sind, um sich für Pandas zu eignen oder wenn Multimedia-Elemente enthalten sind. Zu TensorBoard soll Kangas ebenfalls eine gute Ergänzung darstellen. TensorBoard ist speziell für die Analyse von Trainings-Workflows ausgelegt, wohingegen Kangas mit beliebigen Datensätzen umgehen kann. Daher könne Kangas beispielsweise vor dem Training für eine explorative Datenanalyse zum Einsatz kommen.

Standalone- oder Remote-Nutzung

Kangas soll sich laut dem Entwicklungsteam als Standalone-Anwendung auf neueren Versionen von Windows und macOS sowie auf den gängigsten Linux-Distributionen nutzen lassen. Daneben können Entwicklerinnen und Entwickler es remote mittels Google Colab oder innerhalb einer beliebigen Jupyter-Notebook-Umgebung verwenden.

Lesen Sie auch

Jupyter Notebook für Einsteiger: Python-Snippets testen und Grafiken erstellen

Da sich das noch junge Tool Kangas derzeit in einer öffentlichen Beta befindet, weist Comet darauf hin, dass Bugs auftreten können. Auch plant das Entwicklungsteam, neue Features schnell hinzuzufügen. Die Community ist daher dazu aufgerufen, sich zu beteiligen und gefundene Bugs zu melden.

Alle Details zum neuen Projekt finden sich im zugehörigen GitHub-Repository und in einem Blogeintrag.

(mai)