Das Web in einer Tabelle

Ein neues Software-Werkzeug von IBM sammelt, analysiert und visualisiert große Datenbestände aus dem Internet.

vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 5 Min.
Von
  • Erica Naone

Ein neues Software-Werkzeug von IBM sammelt, analysiert und visualisiert große Datenbestände aus dem Internet.

Enorme Datenmengen stehen frei im Web zur Verfügung und könnten zur Schatztruhe für Forscher und Firmen werden – wenn sich ein Weg fände, sie effizient zu nutzen. So könnte ein Konzern etwa die Komplettbestände des US-Patent- und Markenamtes durchforsten, bevor ein anderes Unternehmen übernommen wird – um sicherzustellen, dass man sich keine rechtlichen Probleme einhandelt. In der Praxis ist es allerdings viel zu zeit- und organisationsaufwendig, derartige Informationsberge durchzugehen.

IBM hofft nun, dass ein neues Software-Werkzeug namens BigSheets seinen Kunden bald dabei helfen wird, Web-Daten einfacher zu analysieren. Eine erste Testversion wurde für die British Library entwickelt. "Wir stehen an der Schwelle zu einem Zeitalter, in dem jeder Nutzer seine eigenen Analysen hochinteressanter Daten vornehmen können wird", erläutert Rod Smith, Vizepräsident für den Bereich Emerging Internet Technologies bei dem IT-Riesen.

BigSheets nutzt die Software-Plattform Hadoop als Basis. Dieses Open-Source-Projekt wurde entwickelt, um große Informationsmengen zu bearbeiten und einzelne Aufgaben effizient auf Cluster verschiedener Rechner zu verteilen. Hadoop wird im Netz häufig eingesetzt, um große Mengen unstrukturierter Daten zu analysieren.

BigSheets nutzt die freie Software derzeit, um Web-Seiten zu crawlen und sie anschließend zur Ermittelung von Schlüsselbegriffen und anderer sinnvoller Daten durchzugehen. BigSheets organisiert diese Informationen dann in einer sehr großen Tabelle, die die Nutzer mit all jenen Funktionen und Makros bearbeiten können, die sie von Desktop-Tabellenkalkulationen kennen. Im Gegensatz zu regulären Programmen dieser Art gibt es bei BigSheets jedoch keine Größenlimits.

Um BigSheets zu nutzen, muss der Anwender der Software nur eine Anzahl von URLs durchgeben. Listen mit Begriffen können dann genutzt werden, um die gewonnenen Informationen in Zeilen und Zellen einzuordnen, die sich auch später noch anpassen lassen.

Smith zufolge nutzte IBM vor allem deshalb das Modell der Tabellenkalkulation zur Organisation der Daten, weil die meisten Nutzer den Umgang mit solchen Programmen gewöhnt sind. Komplexere Visualisierungen sind aber ebenfalls möglich – unter anderem mit dem ebenfalls von IBM stammenden Tool Many Eyes.

Ben Lorica, Analyst beim IT-Fachverlag O'Reilly Media, ist von BigSheets recht beeindruckt: "Ein derartiges Niveau an Integration habe ich bislang noch nicht gesehen." Normalerweise wĂĽrden die Funktionen, die das IBM-Produkt beherrscht, in Einzelschritten vorgenommen: Zuerst werde das Web gecrawlt, dann die Daten analysiert und schlieĂźlich visualisiert. Weil BigSheets auf Hadoop aufsetzt, das fĂĽr den Umgang mit groĂźen Datenmengen optimiert ist, sei Skalierung "kein Problem", so Lorica.

Noch steht BigSheets allerdings ganz am Anfang und muss beweisen, dass es mit mehr als nur der Demoanwendung umgehen kann. Da die Technik stets in Verbindung mit Partnerunternehmen aufgesetzt wird, ist laut Lorica unklar, wie einfach sie sich auf andere Geschäftsvorfälle übertragen lässt. Der Aufbau eines Hadoop-Clusters sei zudem nicht trivial. Ist BigSheet nicht entsprechend vorbereitet, muss eine Armee an Beratern helfen.

Bei der British Library, wo man seit 2004 versucht, ein Archiv der ungefähr acht Millionen wichtigsten Websites aus dem Vereinigten Königreich aufzubauen, lässt sich sehen, zu was BigSheets fähig ist. Die Crawler der Staatsbibliothek kommen regelmäßig auf den auserwählten Servern vorbei, nehmen einen Schnappschuss und konvertieren diesen zwecks Speicherung in ein Archivformat. Das Durchsuchen und Analysieren der Daten ist jedoch eine ganz andere Herausforderung, sagen die Bibliothekare.

Hier soll BigSheets helfen: In weniger als acht Stunden gelang es Smiths Team, 4,5 Terabyte an Archivdaten mit Hilfe eines Hadoop-Clusters aus vier Maschinen zu verarbeiten. Unter Anleitung der Bibliothekare wurden dabei SchlĂĽsselbegriffe, Autoreninformationen und andere Metadaten aus unstrukturierten Webseiten entnommen. AnschlieĂźend wurde mit Begriffsfrequenzanalysen, Tagclouds und anderen Visualisierungen experimentiert.

Es dauerte nur einen Tag, bis die Experten der British Library die Metadaten angepasst hatten. Dabei ergab sich eine stärkere Konzentration auf Autoreninformationen. Auch die Visualisierung brachte interessante Ergebnisse. So konnte man mittels einer Tagcloud erkennen, dass der Name des britischen Politikberaters Alastair Campbell enorm häufig falsch geschrieben wird – als "Alistair". Doch genau diese Dokumente wären vorher gar nicht gefunden worden.

Eytan Adar, Juniorprofessor für Informations- und Computerwissenschaften an der University of Michigan, der große Internet-Systeme, Datamining und Visualisierungen erforscht, meint, dass BigSheets möglicherweise eine große Bedeutung haben könnte. "Obwohl die Inhalte der British Library zunächst nur nach ein paar Schnappschüssen aus dem Web aussehen, sind das doch enorme Datenmengen. Damit nur rein Suchmaschinen-technisch umzugehen, ist nicht sinnvoll."

Adar hat sein eigenes Werkzeug namens Zoetrope entwickelt, um Veränderungen bei Websites zu analysieren. BigSheets bringe hier neue Einblicke, da man Daten aus vielen unterschiedlichen Seiten über eine Zeitleiste vergleichen könne. Der Experte ist sich sicher, dass nur gut funktionierende Visualisierungen den Umgang mit großen Datenmengen ermöglichen. IBM erwägt nun, BigSheets in bestehende Dienstleistungen und Produkte zu integrieren. (bsc)