Multi-Modell-Datenbank: ArangoDB 3.9 führt weitere Analyzer für die Suche ein

Neben neuen Funktionen für die ArangoDB Query Language bietet das Update der quelloffenen Datenbank erweiterten Sprachen-Support bei der Suche.

In Pocket speichern vorlesen Druckansicht
Multi-Modell-Datenbank: ArangoDB 3.7 mit Fokus auf Graphenverarbeitung und Suche
Lesezeit: 2 Min.
Von
  • Matthias Parbel

Das Entwicklerteam hinter der quelloffenen Multi-Modell-Datenbank ArangoDB hat Version 3.9 vorgelegt. Das neue Release liefert laut Ankündigung im Blog eine Reihe von Verbesserungen und Fehlerbereinigungen, bietet aber auch einige neue Funktionen – insbesondere für die Suche mit ArangoSearch sowie für die ArangoDB Query Language (AQL).

In ArangoDB Search 3.9 finden Anwenderinnen und Anwender zwei neue Analyzer: Segmentation und Collation. Über die grundlegende Textmanipulation mit den String-Funktionen von AQL hinaus, erlauben die Analyzers gezieltere Datentransformationen für anspruchsvollere Suchaufgaben und Textverarbeitung. Der neue Segmentation Analyzer ermöglicht es, Text mit Tokens zu versehen. Diese Aufgabe erfüllt er auch unabhängig von der jeweiligen Sprache – so wie es gemäß Unicode Standard Annex #29 vorgesehen ist. Der Collation Analyzer wiederum konvertiert die jeweilige Eingabe in sprachspezifische Tokens.

Die ArangoDB Query Language hat das Entwicklerteam unter anderem mit je drei neuen Decay- und Vector-Funktionen erweitert. DECAY_EXP(), DECAY_LINEAR() und DECAY_GAUSS() lassen sich beispielsweise bei der Analyse von Zeitreihen nutzen. Mit diesen Funktionen lässt sich etwa ein Score berechnen, der in Abhängigkeit von der Entfernung eines numerischen Wertes von einem vorgegebenen Ursprungswert abnimmt. Zum Berechnen der Ähnlichkeit zweier Vektoren – beispielsweise um ähnliche Dokumente zu Gruppieren – stehen AnrangoDB-Nutzern nun die neuen Vektorfunktionen COSINE_SIMILARITY (Kosinus-Ähnlichkeit), L1_DISTANCE (Manhatten-Distanz) und L2_DISTANCE (euklidischer Abstand) zur Verfügung.

Weitere Neuerungen in ArangoDB 3.9 betreffen den UTF8-Support für Datenbanknamen und die Hybrid SmartGraphs. Letztere erlauben es erstmals, die Enterprise-Funktionen SmartGraph und SatelliteCollections zu kombinieren. Während SmartGraphs dabei helfen, extrem große Graphen intelligent aufzuteilen und performant verarbeiten zu können, dienen SatelliteCollections dazu, bestimmte Daten – beispielsweise Metadaten – auf allen Servern zu replizieren, um einen lokalen Zugriff darauf gewährleisten zu können. Durch das Zusammenführen beider Funktionen in den Hybrid SmartGraphs sollen noch mehr Abfrageszenarien von der Möglichkeit einer lokalen Ausführung profitieren, wie es auch in Verbindung mit den 2020 eingeführten Disjoint SmartGraphs möglich ist. Hybrid SmartGraphs bleiben allerdings Anwenderinnen und Anwendern der kostenpflichtigen Enterprise-Version von ArangoDB vorbehalten.

Dank Hybrid SmartGraphs lassen sich SatelliteCollections in SmartGraphs integrieren.

(Bild: arangodb.com)

Einen Überblick der wichtigsten Änderungen bietet der Blogbeitrag zum neuen Release, eine komplette Zusammenstellung findet sich in den Release Notes sowie im GitHub-Repo des Datenbankprojekts.

(map)