LaTeX: Open-Source-Tool räumt Sourcecode für den Upload auf

Der arXiv LaTeX Cleaner beseitigt persönliche Informationen unter anderem in Kommentaren vor dem Upload auf arXiv.org.

In Pocket speichern vorlesen Druckansicht
LaTeX: Open-Source-Tool räumt Sourcecode für den Upload auf
Lesezeit: 2 Min.

Das Google-Research-Team hat ein Open-Source-Tool veröffentlicht, mit dem sich LaTeX-Sourcen vor dem Hochladen auf arXiv.org bereinigen lassen. Das Werkzeug mit dem sprechenden Namen arXiv LaTeX Cleaner soll verhindern, dass Autoren und Entwickler versehentlich persönliche Informationen preisgeben. Außerdem skaliert es Bilder herunter, damit die Archive nicht zu groß werden.

Bei arXiv.org handelt es sich um eine öffentliche Sammlung wissenschaftlicher Arbeiten. Derzeit finden sich dort gut 1,5 Millionen Abhandlungen unter anderem aus den Bereichen Physik, Mathematik, Informatik, Statistik und Wirtschaftswissenschaften. Neben den PDF-Dateien können Interessierte dort auch den zugehörigen Sourcecode herunterladen.

Nicht bereinigte Sourcen enthalten häufig Inhalte, die nicht für Außenstehende gedacht sind. Gerne nutzen Entwickler Kommentare vor allem als Gedankenstütze. Sätze wie "ob das wirklich stimmt???" oder "Hier muss ich mal Thomas fragen, ob das korrekt zitiert ist!!!" sind während des Verfassens sicher hilfreich, beim Veröffentlichen aber potenziell peinlich. Für entsprechende Kommentare existieren eigene Tweets.

Ein Funktion von arXiv LaTeX Cleaner ist daher schlicht das Entfernen sämtlicher Kommentare aus dem Sourcecode. Darüber hinaus löscht das Tool überflüssige Hilfsdateien, darunter solche mit den Endungen ".aux", ".log" und ".out". Benötigte Inhalte wie .bbl-Dateien behält es dagegen.

Da arXiv.org nur Archive mit einer maximalen Größe von 10 MByte zulässt, ist eine weitere Aufgabe von arXiv LaTeX Cleaner das Optimieren der Bilddateien. Zum einen entfernt das Tool die Bilder aus dem Archiv, die in der endgültigen Fassung in keiner .tex-Datei vorkommen, und zum anderen skaliert es große Bilder herunter. Entwickler beziehungsweise Autoren können über images_whitelist einzelne Bilder vom Umrechnen ausnehmen.

Weitere Details lassen sich dem Google-Open-Source-Blog entnehmen. Das in Python verfasste Tool ist auf GitHub unter der Apache-2-Lizenz zu finden.

Mehr dazu auf heise Developer:

(rme)