Python-Tool: Daten verwandeln mit MarkItDown

MarkItDown konvertiert verschiedenste Dateiformate in Markdown. Dadurch lassen sich unterschiedliche Inhalte in KI-Systemen verarbeiten.

Artikel verschenken
vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • Tam Hanna
Inhaltsverzeichnis

MarkItDown ist ein von Microsoft entwickeltes Python-Utility, das sich auf die Konversion verschiedener Inhalte in das für KI-Modelle leicht verarbeitbare Markdown-Format spezialisiert hat. Markdown, ursprünglich als System zum Schreiben von formatiertem Text entwickelt, hat sich im KI-Bereich als standardisiertes Eingabeformat etabliert. So gut wie alle Trainingspipelines nehmen Markdown entgegen. Probleme hat, wer Eingabedaten in anderen Formaten zu verarbeiten hat.

MarkItDown (Download via GitHub) ist ein Stand-alone-Konverter und eine in andere Python-Programme einbindbare Konversionshilfe, die Daten in Markdown konvertiert. Die Intention ist, ein leicht zu parsendes Format zu generieren und dabei alle wichtigen Informationen beizubehalten. Explizites Nichtziel ist ein formatierungsgetreuer Konverter, der etwa ein DOC-File in bequem anzeigbares Markup konvertiert.

Mehr zum Programmieren mit Python
Tam Hanna
Tam Hanna

(Bild: 

Tam Hanna

)

Tam Hanna beschäftigt sich mit kombinatorischen MSR-Systemen, die Handcomputer und Elektronik vereinen. Auf Instagram (tam.hanna) berichtet er Neues aus der Welt der Elektronik.

Im Repository des Python-Paketmanagers pip findet sich derzeit rund ein Dutzend Pakete, die neben dem Kommandozeilenutility verschiedene Dateiformatkonverter mitbringen. Der Befehl

Das war die Leseprobe unseres heise-Plus-Artikels "Python-Tool: Daten verwandeln mit MarkItDown". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.