ETech: Google bietet Einblicke in seine Such- und Übersetzungstechnik

In vielen Fällen setzt der Konzern nicht auf komplexe Modelle und Theorien, sondern auf große Mengen von Daten, erläuterte Google-Forscher Peter Norvig gestern auf der Emerging Technology in San Diego.

14

05.03.2008, 11:30 Uhr

Lesezeit: 2 Min.

Von

Janko Röttgers

Googles Director of Research Peter Norvig hat gestern dem Publikum der Konferenz Emerging Technology in San Diego einen Einblick in die Technik gewährt, mit der der Konzern seine Such- und Übersetzungsfunktionen betreibt. Norvig erklärte, dass Google in vielen Fällen nicht auf komplexe Modelle und Theorien setzt, sondern auf große Mengen von Daten.

Ein Beispiel dafür ist Googles Übersetzungsfunktion, die unter anderem das Übersetzen von chinesischen Texten ins Englische ermöglicht. In der chinesischen Sprache ist es möglich, dass mehrere Schriftzeichen ein Wort bilden, während jedes Zeichen für sich wiederum selbst ein anderes Wort darstellt. Google segmentiert chinesische Texte, indem es sich einer großen Sammlung von chinesischen und englischen Vergleichsdaten bedient und damit Wahrscheinlichkeiten für die Gruppierung und Übersetzung der jeweiligen Schriftzeichen bildet.

Derartige Sprachsegmentierungen spielen auch bei Rechtschreibprüfungen eine Rolle, wie sie beispielsweise in Google Documents zum Einsatz kommen. Wie schwer es selbst für Menschen ist, Wörter richtig zu segmentieren, zeigte Norvig anhand einiger unglücklich gewählter Domain-Namen: So waren sich die Besitzer von Whorepresents.com, Therapistfinder.com und der von einem Stiftverkäufer genutzten Domain Penisland.net sicher nicht bewusst, dass manch einer ihre Web-Adressen falsch verstehen könnte.

Google nutzt ähnliche vergleichsdatenbasierte Ansätze auch, um seine Bildersuche zu verbessern. Bisher setzt diese lediglich auf textbasierte Metadaten, die eine relativ hohe Fehlerquote besitzen. Googles Forscher arbeiten deshalb daran, diese Suchen durch eine Bildanalyse zu präzisieren. Dabei werden 1000 per Metadatensuche gefundene Bilder hinsichtlich ihrer Ähnlichkeit analysiert, um das relevanteste Bild zu ermitteln. Norvig berichtete, dass Google auch damit begonnen hat, ähnliche Methoden für Videodaten zu entwickeln. "Das wird jedoch schwieriger aufgrund der Kosten für Massenspeicher", so Norvig.

Ressourcen sind es denn nach Norvigs Auffassung auch, die Neueinsteigern das Analysieren massiver Datensammlungen erschweren. Firmen wie Google und Yahoo besäßen genug Datensätze für vergleichende Analysen. Startups hätten es dagegen schwer. Google habe deshalb versucht, Daten zur freien Nutzung zur Verfügung zu stellen. "Wir wollten einen Teil des Webs veröffentlichen, der für Vergleichsdaten genutzt werden kann", weiß Norvig zu berichten. Googles Anwälte hätten das Vorhaben jedoch aufgrund von Urheberrechtsbedenken gestoppt. "Scheinbar ist es okay, einzelne Webseiten als Cache auszuliefern, aber nicht, sie auf Silberscheibe zu brennen und zu verschicken."

Zur ETech 2008 siehe auch:

(Janko Röttgers) / (anw)