Apache Software Foundation befördert Rya-Datenbank zum Top-Level-Projekt

Die Cloud-basierte Triplestore-Datenbank Apache Rya verspricht die Verarbeitung von Milliarden Datensätzen binnen Millisekunden.

28

(Bild: sdecoret/Shutterstock.com)

24.09.2019, 19:14 Uhr

Lesezeit: 2 Min.

Developer

Von

Matthias Parbel

Nach vierjähriger Bewährungsprobe im Apache Incubator hat die Cloud-basierte Triplestore-Datenbank Apache Rya nun offiziell den Status eines Top-Level-Projekts (TLP) der Apache Software Foundation (ASF) erreicht. Rya geht ursprünglich auf eine Entwicklung des Laboratory for Telecommunication Sciences der NSA (National Security Agency) zurück und ist als sogenannter RDF Store angelegt (Resource Description Framework). Als spezielle Form der Graphendatenbanken speichern RDF Stores Informationen als Triple-Datensätze, die sich besonders für semantische Abfragen eignen.

Subjekt-Prädikat-Objekt-Datenbank

Vernetzte Daten speichert Rya als Triple, die eine logische Aussage in der Form "Subjekt-Prädikat-Objekt" als zwei durch eine Kante verbundene Knoten repräsentieren – beispielsweise eine Aussage wie "Anna kennt Paul". Das RDF-Format ist darauf ausgelegt, die Verarbeitung und Analyse verschiedener Datensätze zu vereinfachen, die unter anderen Aussagen über Verbindungen zwischen Nutzern auf Social-Media-Netzwerken, Finanzdaten und Transaktionen oder auch medizinischen Daten erlauben. Diese typischerweise riesigen Datensätze soll ein RDF Store nicht nur skalierbar und performant speichern, sondern möglichst auch in Sekundenbruchteilen für Abfragen zugänglich machen.

Nach Aussagen der Projektverantwortlichen nutzt Apache Rya dazu neuartige Speichermethoden, Indexierungsschemata und Abfrageverarbeitungstechniken, die eine Skalierung auf Milliarden von Trippeln über mehrere Knoten ermöglichen. Außerdem bietet die RDF-Datenbank ein MongoDB-Backend und setzt auf Apache Accumulo auf, um Abfragen per SPARQL – eine graphenbasierte Abfragesprache für RDF – verarbeiten zu können. Mit Apache Rya steht somit eine Plattform für die Speicherung und Abfrage sehr großer semantischer Datensätze zur Verfügung, die typischerweise Antwortzeiten von weniger als einer Sekunde liefern soll.

In Forschung und Praxis im Einsatz

Rya kommt nicht nur in Forschungsprojekten zum Einsatz, die von effizienteren Techniken zur Verarbeitung von Abfragen über geografisch verteilte RDF-Daten bis hin zur situationsabhängigen Zugriffskontrolle in föderierten Systemen reichen, sondern bewährt sich auch bereits in der Praxis. Das US-Verteidigungsministerium setzt Rya beispielsweise bei der taktischen Kommunikation zwischen bemannten und unbemannten Systemen sowie bei der Steuerung von Drohnen ein. Weitergehende Informationen zu der RDF-Datenbank finden sich in der Ankündigung der ASF sowie auf der Rya-Projektwebsite. Dort stehen auch Source-Artefakte der unter Apache-2.0-Lizenz veröffentlichten Datenbank zum Download parat. (map)