Google veröffentlicht C-Bibliothek zum Parsen von HTML5

Das unter der Apache-Lizenz stehende Gumbo wird als eine einfache HTML-Parsing-Bibliothek bezeichnet, die sich bei der Webseiten-Validierung, statischen Code-Analyse und mit Template-Sprachen und Refactoring-Tools verwenden lässt.

In Pocket speichern vorlesen Druckansicht 32 Kommentare lesen
Lesezeit: 1 Min.
Von
  • Alexander Neumann

Google hat mit Gumbo eine in C geschriebene Programmierbibliothek zum Parsen von HTML quelloffen zur Verfügung gestellt. Gumbo setzt den mit HTML5 standardisierten Parsing-Algorithmus um, hat offenbar alle html5lib-0.95-Tests bestanden und wurde auf 2,5 Milliarden von Google indizierten Seiten getestet. Der Projektbeschreibung zufolge ist die Software eine einfach zu verwendende HTML-Parsing-Bibliothek ohne irgendwelche Abhängigkeiten, die sich von vielen Programmiersprachen aufrufen lassen soll.

Entwickler können die Bibliothek beispielsweise mit Webseiten-Validatoren, bei der statischen Code-Analyse und in Verbindung mit Template-Sprachen und Refactoring-Tools verwenden. Google schätzt Gumbo als "robust und widerstandsfähig" ein, geht aber davon aus, dass sich die ABI (Application Binary Interface) in der Zukunft noch ändern könnte. Aber die API (Application Programming Interface) wird als ziemlich stabil angesehen, das Entwickler-Team erhofft sich von der Open-Source-Legung Kommentare von Benutzern, sodass es in naher Zukunft mit einer Version 1.0 aufwarten kann.

Als weitere Features sind die Unterstützung des HTML5-Template-Tags und des Parsings von HTML-Fragmenten, sich über alle Features erstreckende Fehlerberichte und Bindings in anderen Programmiersprachen geplant. Google hat für Gumbo die Apache Licence 2.0 gewählt. (ane)