Calvin Seward: Search at Petabyte Scale – Approximate-Nearest-Neighbor-Suche

Dieser Vortrag der data2day 2017 bietet eine Einführung in Approximate-Nearest-Neighbor-Methoden (ANN) und demonstriert eine Bildersuche mittels einer Python-Open-Source-Toolbox.

In Pocket speichern vorlesen Druckansicht
Calvin Seward: Search at Petabyte Scale – Approximate-Nearest-Neighbor-Suche
Lesezeit: 1 Min.
Von
  • Matthias Parbel

In typischen Big-Data-Anwendungen müssen riesige Datensätze schnell durchsucht werden, um relevante Information wie Kundenprofile, Bilder oder Dokumente zu finden. Dabei wächst der Suchaufwand linear mit der Zahl der gespeicherten Daten: ein schwer wiegendes Problem für skalierbare Real-Time-Big-Data-Lösungen. Approximate-Nearest-Neighbor-Methoden (ANN) finden die gesuchten Ergebnisse mit hoher Wahrscheinlichkeit, bei zugleich drastisch reduziertem Aufwand. Erst diese innovative Technologie ermöglicht die Skalierung datenintensiver Anwendungen in den Petabyte-Bereich.

Das Ziel des Vortrags der data2day ist es, die theoretischen Grundlagen von Approximate Nearest Neighbors zu vermitteln und die praktische Anwendung der Methode mit Open-Source-Tools auf einem Image-Datensatz zu zeigen.

Calvin Seward: Search at Petabyte Scale – Approximate-Nearest-Neighbor-Suche

ist Research Scientist bei Zalando Research und zugleich Doktorand bei Professor Sepp Hochreiter an der Johannes-Kepler-Universität Linz. Er arbeitet hauptsächlich im Feld Bilderkennung, bemüht sich aber zugleich, die neuesten Entwicklungen im Bereich des maschinellen Lernens und des GPU-gestützten Hochleistungsrechnens in anderen Geschäftsfeldern von Zalando einzubringen. (map)