Calvin Seward: Search at Petabyte Scale – Approximate-Nearest-Neighbor-Suche
Dieser Vortrag der data2day 2017 bietet eine Einführung in Approximate-Nearest-Neighbor-Methoden (ANN) und demonstriert eine Bildersuche mittels einer Python-Open-Source-Toolbox.
- Matthias Parbel
In typischen Big-Data-Anwendungen müssen riesige Datensätze schnell durchsucht werden, um relevante Information wie Kundenprofile, Bilder oder Dokumente zu finden. Dabei wächst der Suchaufwand linear mit der Zahl der gespeicherten Daten: ein schwer wiegendes Problem für skalierbare Real-Time-Big-Data-Lösungen. Approximate-Nearest-Neighbor-Methoden (ANN) finden die gesuchten Ergebnisse mit hoher Wahrscheinlichkeit, bei zugleich drastisch reduziertem Aufwand. Erst diese innovative Technologie ermöglicht die Skalierung datenintensiver Anwendungen in den Petabyte-Bereich.
Das Ziel des Vortrags der data2day ist es, die theoretischen Grundlagen von Approximate Nearest Neighbors zu vermitteln und die praktische Anwendung der Methode mit Open-Source-Tools auf einem Image-Datensatz zu zeigen.
Calvin Seward
ist Research Scientist bei Zalando Research und zugleich Doktorand bei Professor Sepp Hochreiter an der Johannes-Kepler-Universität Linz. Er arbeitet hauptsächlich im Feld Bilderkennung, bemüht sich aber zugleich, die neuesten Entwicklungen im Bereich des maschinellen Lernens und des GPU-gestützten Hochleistungsrechnens in anderen Geschäftsfeldern von Zalando einzubringen. (map)