Apache Atlas 2.1 bietet verbesserte Entity-Verwaltung dank Labels
Das Governance- und Metadaten-Framework für Hadoop liegt in Version 2.1 vor, mit Verbesserungen bei der Suche und Performance.
Die Apache Software Foundation hat Version 2.1.0 von Apache Atlas vorgelegt. Das Open-Source-Framework soll Hadoop-Anwender in Unternehmen dabei unterstützen, durch geeignetes Metadatenmanagement Compliance-Anforderungen zu erfüllen. Dafür stellt Atlas unter anderen eine Reihe von skalier- und erweiterbaren Governance-Diensten zur Verfügung. Über die Fehlerbereinigung hinaus hat sich das Entwicklerteam beim neuen Release auf Verbesserungen der Leistung sowie bei der Suche fokussiert.
Besser klassifizieren, schneller suchen
Neu in Atlas 2.1 sind beispielsweise Labels für die sogenannten Entities (Metadatentypen). Anwender haben die Möglichkeit, Entitäten mit passenden Beschreibungen zu versehen – und diese bei Bedarf auch wieder zu entfernen. Beim Suchen nach Entitäten stehen nicht nur die neuen Labels zur Verfügung, sondern Atlas bietet auch die Option, sie anhand von mehr als einer Klassifikation zu finden. Zum Klassifizieren bietet das Framework einerseits das neue Feature Business Metadata, das vorsieht, Entitäten-Typen über zusätzliche Attribute näher zu beschreiben und in der Suche zu filtern. Darüber hinaus stehen Atlas-Anwendern mit den Custom Attributes noch weitergehende individuelle Beschreibungsoptionen für Entity-Instanzen zur Verfügung, die bisher noch nicht in entity-def
oder business metadata
definiert sind.
Dank der Funktion Quick Search liefert die Suche im Framework nun bereits bei der Eingabe von Suchbegriffen erste Vorschläge. Mehr Performance versprechen unterdessen Verbesserungen bei der Weitergabe von Klassifizierungen sowie beim Nachverfolgen der Herkunft von Daten (Lineage Retrieval).
Die über Hooks geregelte Anbindung externer Datenquellen und Systeme umfasst unter anderen Neuerungen für Hive, Spark, AWS S3 und ADLS-Gen2. Für Hive wurden neue Entitäten ergänzt: hive_process_execution
erlaubt es, process-executions
nachzuverfolgen und über hive_db_ddl
sowie hive_table_ddl
lassen sich DDL-Operationen erfassen. Neue Modelle für Spark, AWS S3 und ADLS-Gen2 ermöglichen in Atlas 2.1 Entitäten und Beziehungen aus diesen Quellen zu erfassen – im Fall von Spark lassen sich zudem Prozesse erfassen.
Eine Übersicht aller Verbesserungen und Neuerungen in Apache Atlas 2.1.0 findet sich in den Release Notes. Das Governance- und Metadaten-Framework steht über die Projekt-Website der Apache Software Foundation zum Download parat.
(map)