Diffbot versteht das Web

Ein US-Start-up hat einen semantischen Erkennungsroboter entwickelt, der Internet-Inhalte so erfassen soll, wie das auch Menschen tun.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 4 Min.
Von
  • Rachel Metz

Ein US-Start-up hat einen semantischen Erkennungsroboter entwickelt, der Internet-Inhalte so erfassen soll, wie das auch Menschen tun.

Egal, welche Sprache man spricht: Nach einem Blick auf ein Web-Angebot weiß man zumeist sofort, welchem grundlegenden Zweck es dient und welchen Sinn die verschiedenen Elemente haben – egal ob es nun Bilder, Videos, Texte, Musikelemente oder Werbeanzeigen sind.

Maschinen fällt das hingegen eher schwer. Das US-Start-up Diffbot will das ändern: Die Firma aus dem kalifornischen Palo Alto hat einen semantischen Erkennungsroboter für Websites entwickelt, der sich über eine eigene Programmierschnittstelle (API) in andere Anwendungen integrieren lässt. Das System kann die verschiedenen Objekte, die eine Internet-Seite ausmachen, "lesen". Das soll Inhalteanbietern dann erlauben, Bereiche von Websites beispielsweise für mobile Anwendungen aufzubereiten oder das Absuchen großer Web-Angebote erleichtern, um die wirklich relevanten Teile zu finden.

Diffbots Ideen kommen zur rechten Zeit – mittlerweile arbeiten auch Technikriesen daran, mehr Struktur in die riesigen Datenmengen, die im Web vorliegen, zu bringen. Google hat dazu vor kurzem den sogenannten Knowledge Graph präsentiert, einen Versuch, die Bedeutung von Suchanfragen besser zu verstehen und relevante Ergebnisse zurückzugeben, statt nur einfach hauptsächlich Texteingaben mit den Inhalten von Internet-Angeboten zu vergleichen. Damit das funktioniert, muss normalerweise der Mensch mithelfen – Website-Betreiber "taggen" dann ihre Inhalte mit ihrer jeweiligen Bedeutung.

Diffbot will dies automatisieren. Die Herkunft der verwendeten Verfahren ist dabei durchaus erstaunlich. "Wir nehmen Techniken aus dem Bereich des visuellen Lernens, die auch die Fortbewegung von Roboterautos steuern, und wenden diese auf das Web an", sagt Produktchef John Davi.

Diffbot-Gründer Mike Tung hat die Grundzüge seines Verfahrens vor einigen Jahre an der Stanford University entwickelt, als er dort seinen Masterstudiengang ablegte. Die Diffbot-API ist für einzelne Kunden bereits seit dem vergangenen Jahr verfügbar. Sie kann aktuell zwei Arten von Web-Seiten analysieren: Auf Artikelseiten identifiziert Diffbot Schlagzeilen, Haupttext, Bilder und Tags, auf regulären Homepages werden grundlegende Layout-Elemente wie Headerbilder, Links zu Artikeln und Werbung identifiziert. Aktuell nutzen mehrere Tausend Programmierer den Dienst und analysieren jeden Monat über 100 Millionen URLs, sagt Tung.

Es gibt allerdings noch diverse andere Arten von Web-Formaten. Die Firma hat insgesamt 18 Haupttypen identifiziert – von Produkt- über Job-Seiten bis hin zu Fotogalerien. Nachdem Diffbot sich vor kurzem ein Startkapital von zwei Millionen Dollar gesichert hat, will das Unternehmen nun die 16 noch fehlenden Angebotsarten erschließen. Dabei wird zunächst festgelegt, aus welchen Einzelteilen diese Seiten bestehen – Fotos, Preise und so weiter – und diese Informationen dann verwendet, um einen Algorithmus zu entwickeln, der dann auch unbekannte Seiten erkennen kann.

Die Diffbot-API ist für Kunden zunächst kostenlos, wer sie intensiv nutzt, muss allerdings zahlen. Brad Garlinghouse, Chef des Cloud-Dienstes YouSendIt und einer der ersten Investoren, meint, Diffbot sei zwar derzeit noch nicht profitabel, doch das sei nur eine Frage der Zeit. "Die Firma löst echte Kundenprobleme und die sind dafür bereit, etwas zu bezahlen."

Aktuell gehören zu den Diffbot-Kunden auch Medienunternehmen wie AOL, wo Garlinghouse früher arbeitete. Der Portalbetreiber nutzt die Technik, um sein Tablet-Magazin "Editions" zusammenzustellen. Content-Spezialisten und Verlage kauften oft Publikationen, deren Online-Inhalte mit einem anderen Content-Management-System generiert werden, sagt Diffbot-Produktchef Davi. Der Erkennungsroboter samt Programmierschnittstelle erlaube es ihnen nun, den Prozess der Konsolidierung zu vereinfachen.

Mit der verbesserten Erkennungsleistung für andere Typen von Web-Angeboten soll Diffbot aber auch anderen Kunden dienen – vom Preisvergleichsdienst bis zum Foto- oder Rezeptiaggregator. "Das wird wirklich spannend, was die Leute damit bauen werden", sagt Firmenchef Tung. (bsc)