Yandex Suchmaschine: Repository mit 18.000 und mehr Suchfaktoren geleakt

Teile des Quellcodes von Yandex sind offengelegt worden. Der Leak beinhaltet etwa 18.000 Ranking-Faktoren für die Suche. Es soll Zehntausende geben.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Kyrillischer Schriftzug Yandex auf gläsernem Bürohaus

(Bild: WikiFido (Ausschnitt aus Yandex-Hauptquartier in Moskau) CC BY-SA 4.0)

Lesezeit: 4 Min.
Von
  • Eva-Maria Weiß

Teile des Quellcodes von Yandex sind geleakt worden und als Torrent frei verfügbar. Zunächst hieß es, sie stammten aus einem Hack. Das streitet Yandex jedoch ab und sagt, ein früherer Mitarbeiter sei verantwortlich. Im Leak enthalten sind unter anderem mehr als 18.000 Rankingfaktoren der Suche. Zwar fehlt wohl die Gewichtung dieser, dennoch ist der Einblick in die Auswahl einer Suchmaschine spannend. Mehrere Menschen haben bei Twitter und in Blogbeiträgen ihre Analysen geteilt. Alle Faktoren anzuschauen, ist freilich kaum möglich.

Dabei ist festzuhalten, dass nicht nur die Rankingfaktoren in dem Repository zu finden sind, sondern auch Informationen zum Kartendienst, dem Mailprogramm und anderen Bereichen, von denen teilweise Sinn und Zweck anscheinend unklar sind. Yandex hat zudem Scraper für Dienste wie Google samt Google News, Bing und Tiktok, die zu finden sind. In die Suchmaschine eingebaut ist offensichtlich auch reichlich Technik, die Google unter Open-Source-Lizenz freigegeben hat, beispielsweise das NLP-Modell BERT und das Machine-Learning-Framework TensorFlow. Menschen, die sich also für die Funktionsweise und den Aufbau einer Suchmaschine interessieren, können Einblicke bekommen, die es bisher nicht gab. Und auch wenn das russische Yandex hierzulande deutlich weniger Bedeutung hat als Google oder Bing, können die Informationen beispielsweise für SEO-Experten aufschlussreich sein. Ähnlichkeiten dürfte es bei allen Suchmaschinen geben.

Problematisch könnte für Yandex auch sein, dass Kriminelle die Informationen aus dem Repository nutzen, um Sicherheitslücken ausfindig zu machen. Yandex behauptet laut BleepingComputer, dass das aktuell genutzte Repository von den geleakten Ausschnitten deutlich abweiche.

Zu den Rankingfaktoren gehört etwa das Alter und die Aktualität des Inhalts. Es gibt auch die Kategorie "Text Relevanz", wie etwa Search Engine Land berichtet und sich auf die vielen Analysen bei Twitter bezieht. Relevanz selbst ist freilich eine schwer zu fassende Kategorie. Auch der Umgang von Nutzerinnen und Nutzern mit einer Seite fließt wieder in die Bewertung mit ein, also beispielsweise, ob man sie sofort wieder schließt oder lange dort verweilt. Manche Seiten wie etwa Wikipedia werden per se höher gerankt als andere. Das beispielsweise ist auch bei Google recht offensichtlich.

In vielen Berichten heißt es, es seien insgesamt 1922 Rankingfaktoren gefunden worden. Erst später haben SEO-Experten offensichtlich zusätzliche 16.000 Faktoren in weiteren Dokumenten gefunden – sie sind kategorisiert. Es gibt Hinweise auf weitere Zehntausende Faktoren. Search Engine Land schreibt: "Während wir potenzielle 18.000 Ranking-Faktoren zur Auswahl aufgedeckt haben, weist die Dokumentation zu MatrixNet (von Yandex entwickelter Algorithmus, Anm.d.Red.) darauf hin, dass die Bewertung aus Zehntausenden von Faktoren aufgebaut ist, und basierend auf der Suchanfrage angepasst wird."

Michael King hat bei Twitter eine Liste mit Faktoren und dazugehörigen Erklärungen veröffentlicht, darunter etwa "Seite ist ein Shop" oder "Werbung", die anscheinend anders bewertet wird, als "Werbung von Yandex". Auch ohne die Gewichtung der Faktoren zu kennen, ist klar, dass eine Seite mit Yandex-Werbung sicherlich besser bewertet wird, als eine Seite, auf der beispielsweise ein großes US-Unternehmen wirbt. Spannend wäre auch zu erfahren, wie das Ranking mit Programmatic Advertising zusammenarbeitet. Die Herkunft einer Webseite und der Standort der Suchabfrage entscheiden offenbar auch mit – insbesondere für Russland und die Ukraine.

Auch wenn die Rankingfaktoren zunächst wenig überraschend erscheinen, ist allein die schiere Anzahl spannend. Google beispielsweise gibt Webseitenbetreibern nur einige wenige Hinweise auf die Rankingfaktoren an die Hand, SEO-Experten müssen eher auf ihre Erfahrungen setzen. Neben den inhaltlichen Wertungen gibt es die Core Web Vitals, das sind Metriken der Webperformance – für diese stellt Google Informationen bereit.

(emw)