Python-Tool: Daten verwandeln mit MarkItDown
MarkItDown konvertiert verschiedenste Dateiformate in Markdown. Dadurch lassen sich unterschiedliche Inhalte in KI-Systemen verarbeiten.
- Tam Hanna
MarkItDown ist ein von Microsoft entwickeltes Python-Utility, das sich auf die Konversion verschiedener Inhalte in das für KI-Modelle leicht verarbeitbare Markdown-Format spezialisiert hat. Markdown, ursprünglich als System zum Schreiben von formatiertem Text entwickelt, hat sich im KI-Bereich als standardisiertes Eingabeformat etabliert. So gut wie alle Trainingspipelines nehmen Markdown entgegen. Probleme hat, wer Eingabedaten in anderen Formaten zu verarbeiten hat.
MarkItDown (Download via GitHub) ist ein Stand-alone-Konverter und eine in andere Python-Programme einbindbare Konversionshilfe, die Daten in Markdown konvertiert. Die Intention ist, ein leicht zu parsendes Format zu generieren und dabei alle wichtigen Informationen beizubehalten. Explizites Nichtziel ist ein formatierungsgetreuer Konverter, der etwa ein DOC-File in bequem anzeigbares Markup konvertiert.
Im Repository des Python-Paketmanagers pip findet sich derzeit rund ein Dutzend Pakete, die neben dem Kommandozeilenutility verschiedene Dateiformatkonverter mitbringen. Der Befehl
Das war die Leseprobe unseres heise-Plus-Artikels "Python-Tool: Daten verwandeln mit MarkItDown". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.