GitHub veröffentlicht die Daten von 2,8 Millionen Open-Source-Projekten auf Google Big Query

Mit der Freigabe der Daten möchte GitHub die Datenanalyse von Open-Source-Trends über die Möglichkeiten hinaus erweitern, die GitHub Archive bietet.

In Pocket speichern vorlesen Druckansicht
GitHub veröffentlicht die Daten über 2,8 Millionen Open-Source-Projekte auf Google Big Query
Lesezeit: 1 Min.

GitHub hat 2012 das GitHub Archive eröffnet, um Nutzern einen Einblick darin zu geben, wie Open-Source-Software entwickelt wird und welche Trends es gibt. Im selben Jahr hat Google mit BigQuery einen Dienst zum Durchsuchen großer Datenmengen der breiten Öffentlichkeit zugänglich. Nun veröffentlicht GitHub einen Snapshot von 2,8 Millionen Open-Source-Projekten auf BigQuery. Der Datensatz kommt auf eine ansehnliche Größe von über drei Terabyte.

Mit der Veröffentlichung will GitHub laut einem Blog-Beitrag diverse Untersuchungen der Open-Source-Szene ermöglichen, wie "welche Go-Pakete wurden am häufigsten genutzt?" oder "an welchen Bildungseinrichtungen gibt es die meisten Open-Source-Contributors?" Um Nutzern den Einstieg zu erleichtern, hat das Team diese und ähnliche Beispielabfragen veröffentlicht.

GitHub gehört gehört zu den wichtigen Repository-Verwaltungsdiensten für Open-Source-Projekte, sodass die Daten durchaus repräsentativ sein dürften. BigQuery ist ein kommerzielles Angebot, bei dem lediglich die Analyse von einem Terabyte monatlich kostenfrei ist. Die BigQuery-Seite zum GitHub-Datensatz enthält einen Hinweis, dass Suchen in dem großen Set die kostenlose Quota überschreiten können. Das Team stellt laut Googles Open-Source-Blog daher auch kleinere Teilsätze bereit. (rme)