Datamining in eigenen Gendaten mit dem Python-Framework Pandas

Wer sein Genom sequenzieren lässt, bekommt die Rohdaten als CSV-Datei mit hunderttausenden Zeilen. Das Python-Framework Pandas kann damit umgehen.

Artikel verschenken

(Bild: Albert Hulm)

25.03.2020, 07:00 Uhr

Lesezeit: 8 Min.

c't Magazin

Von

Pina Merkert

Datamining in eigenen Gendaten mit dem Python-Framework Pandas
- Experimentierumgebung
CSVs einlesen
Gendaten zusammenführen

Artikel in c't 7/2020 lesen

Sequenzierungsdienste fürs eigene Genom können einem bei der Ahnenforschung unter die Arme greifen und möglicherweise sogar helfen, das Risiko für manche erbliche Krankheiten einzuschätzen. Neben hübsch aufbereiteten Zusammenfassungen liefern die Anbieter auch Rohdaten, die sie als CSV-Dateien von circa 20 Megabyte Größe verschicken. So große Dateien verarbeiten Excel, LibreOffice und Konsorten nicht mehr in erträglicher Geschwindigkeit. Das Python-Framework Pandas dagegen setzt unter der Haube auf die effizienten Datenmodelle von Numpy und analysiert Tabellen dieser Größe daher in Sekundenbruchteilen.

Zwecks Analyse ihrer DNA haben wir Proben an mehrere Ahnenforschungs-Plattformen geschickt und mir von jedem Anbieter einen Satz mit Rohdaten zur Auswertung ausgehändigt. Die Dateien nutzen leicht unterschiedliche Formate, mal kommasepariert, mal mit Tabs, mal mit getrennt gelisteten Allelen (eine Base von den Genen der Mutter, eine von denen des Vaters), mal mit beiden Basen als String aus zwei Großbuchstaben.

Die Daten enthalten kein vollständiges Genom, sondern Zeilen mit SNPs, also den Basen interessanter Mutationen. Die Anbieter ordnen jedem SNP eine Bedeutung beispielsweise für ein Krankheitsrisiko zu. Zu einem Identifier für das SNP wie "rs4475691" steht in den Daten jeweils die Position im Genom als Zahl (846808) und das Chromosom, in dem das Basenpaar vorkommt (Nummer 1). Damit Sie den in diesem Artikel erklärten Pandas-Code nachvollziehen können, ohne gleich Ihr Genom analysieren zu lassen, finden Sie auf GitHub CSV-Dateien im gleichen Format, aber mit künstlich erzeugten, zufälligen Angaben zu den Basen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Besser texten mit Office-Alternativen: LanguageTool in LibreOffice einrichten

Verbessern Sie die Textprüfung von LibreOffice mit LanguageTool als Online-Dienst oder lokale Installation.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.

Die Sicherheitsrisiken von KI-Assistenten wie OpenClaw

Das Projekt OpenClaw zeigt beeindruckend, was KI kann, wenn man sie lässt – und es zeigt, welch vielfältige Risiken damit einhergehen.

Collabora Office: LibreOffice light im Test

Die neue Offline-Variante des auf LibreOffice basierenden Pakets Collabora Online für Windows, Linux und macOS benötigt weder Cloudspeicher noch Server.

Grenzenlos andocken: DockThings für macOS im Test

Ein Dock auf dem Mac ist nicht genug: DockThings sammelt Apps, Links, Ordner und Dokumente in zusätzlichen Schubladen.

Drei KI-Coding-Assistenten für Visual Studio Code im Überblick

GitHub Copilot, Claude Code und Kilo Code haben Einfluss auf Nutzungsverhalten, Governance und Workflows. Eine Entscheidungshilfe für Teams und Unternehmen.