Apache Atlas So integrieren Sie Data Governance für Hadoop
Anbieter zum Thema
Mit Apache Atlas können Unternehmen in Hadoop ein zentrales Auditing, eine Datenklassifizierung und Abstammungsfunktionen mit einer eigenen Richtlinien-Engine integrieren. Metadaten und die Speicherung von Audits spielen zusammen mit entsprechenden Richtlinien eine wichtige Rolle im Projekt, Data Governance steht also im Zentrum.

Unternehmen, die auf Hadoop setzen und auf der Suche nach einer effizienten Möglichkeit sind, Compliance-Anforderungen umzusetzen, sollten sich Apache Atlas ansehen. Das Produkt wird in Hadoop integriert und bietet die Anbindung an das komplette Daten-Öko-System eines Unternehmens.
Atlas bietet ein sehr skalierbares Metadaten-System für Hadoop. Die Lösung wird derzeit von Aetna, Hortonworks, Merck, SAS, Schlumberger und Target entwickelt.
Eine Hadoop-Umgebung kann aus verschiedenen Produkten bestehen, die miteinander zusammenarbeiten. Zusätzlich zu Hadoop werden zumeist noch Storm, Spark, Solr, HBAse, Hive und weitere Produkte eingesetzt. Apache Atlas hat die Aufgabe, alle Daten, die diese Systeme durchlaufen, zu klassifizieren und das Auditing dabei zu berücksichtigen. Metadaten werden erstellt, Sicherheitseinstellungen berücksichtigt und die Daten gebündelt.
Atlas grundsätzlich verstehen
Atlas kann in Hadoop-Umgebungen für die Sicherheit, das Speichern und das Erstellen von Audits, der Policy-Engine und das Data Lifecycle Management zuständig sein. Alle Daten, Quellen und Ziele lassen sich mit dem Projekt effizient bündeln. Zusätzlich werden noch Datenklassifizierung, der Austausch von Metadaten und eine kontextbezogene Suche integriert. Bezüglich der Sicherheit berücksichtigt Atlas nicht nur Berechtigungen auf Basis eines Rollenmodells (RBAC), sondern auf Basis von Attributen (ABAC). Das alles gibt nur einen Überblick zu den Möglichkeiten, die zur Verfügung stehen.
Apache Atlas bietet Governance-Funktionen für Hadoop. Die Funktionen bieten forensische Modelle von Metadaten mit Taxonomie an. Atlas kann Metadaten mit anderen Tools und Prozessen in einer Big-Data-Umgebung mit Hadoop austauschen. Unternehmen erhalten dadurch plattformunabhängige Governance-Steuerelemente, um Compliance-Anforderungen optimal umsetzen zu können.
Im Fokus steht das Erfassen und Überprüfen von Daten und Metadaten und die Überprüfung, wie die Daten überhaupt erst generiert wurden. Alle Metadaten unterliegen einer Zugriffskontrolle, die auf den Sicherheitskriterien der Quelle aufbauen. Atlas bietet also auch eine Art Revision von Metadaten und erleichtert dadurch auch die Interoperabilität von Metadaten zwischen den verschiedenen Systemen der Hadoop-Umgebung. Alle Clients und Anwendungen verwenden dabei den gleichen Metadatenspeicher.
Datenklassifizierung und zentrales Auditing
Eine der wichtigsten Aufgaben von Apache Atlas ist es, Daten zu importieren oder zu definieren und dabei Metadaten zu berücksichtigen, zu erstellen und zu klassifizieren. Atlas erkennt Zusammenhänge zwischen importierten Daten und Datensätzen und kann automatisiert Beziehungen zur Weiterverarbeitung herstellen. Die Metadaten und die Beziehung der Datensätze und Daten untereinander, können in Atlas auch exportiert werden, damit Dritt-Anbieter-Systeme diese nutzen können.
Die zentrale Überwachung der Daten steht auch im Fokus von Atlas. Für jede Anwendung, jeden Prozess und alle Daten erkennt Atlas auch Berechtigungen und kann diese in Hadoop umsetzen, damit keine Sicherheitslücken entstehen. Administratoren können Navigationspfade für Daten angeben, um Datenklassifikationen und Audit-Informationen anzuzeigen und zu überprüfen.
Apache Atlas kann aber auch textbasierte Suchen auf verschiedenen Ebenen durchführen, auch innerhalb von Data Lakes. Dabei lassen sich ebenfalls die Audit-Events berücksichtigen und relevante Daten anzeigen.
Metadaten-Austausch mit Apache Atlas
Atlas bietet eine flexible Taxonomie, zusammen mit dem Austausch von Metadaten mit anderen Produkten in der Big-Data-Umgebung. Dabei werden Datensätze und -Objekte berücksichtigt, Tabellen und Columns sowie der logische Kontext. Auch die Quelle und das Ziel der Daten lassen sich berücksichtigen. Dadurch lässt sich mit Atlas auch ein Data Lifecycle Management umsetzen. Wichtig dabei ist, dass der Audit-Speicher indexiert und auch durchsucht werden kann.
Zukunftsaussichten von Atlas
Derzeit befindet sich Atlas noch im Inkubator-Status, ist also noch nicht unbedingt für den produktiven Betrieb geeignet. In Zukunft wollen die Entwickler aber zahlreiche weitere Funktionen integrieren, bis Atlas in den finalen Status gehen soll. Geplant sind vor allem eine Rest API, eine grafische Oberfläche, eine zentralisierte Taxonomy, eine umfangreiche Dokumentation sowie die Möglichkeit, umfassend Metadaten zu importieren und zu exportieren. Wer sich tiefgehender mit Atlas auseinandersetzen will, kann sich auf YouTube den Film vom Hadoop Summit 2015 zum Thema Atlas ansehen:
Apache Atlas testen
Die Lösung steht derzeit in Version 0.5 zur Verfügung. Um Atlas zu testen, können Entwickler auch die Testdefinitionen verwenden. Auf Basis dieser Beispiele lassen sich schnell eigene Strukturen erstellen. Die Testtypen und Instanzen stehen über bin/quick-start.sh in den Projektdateien zur Verfügung. Nach der Integration steht über http://localhost:21000/dashboard eine kleine Verwaltungsoberfläche zur Verfügung.
Um Atlas zu testen, werden die notwendigen Dateien heruntergeladen und danach die installiert. Die Befehle dazu sind:
git clone https://git-wip-us.apache.org/repos/asf/incubator-atlas.git atlas
cd atlas
export MAVEN_OPTS="-Xmx1024m -XX:MaxPermSize=256m" && mvn clean install
Nachdem der Vorgang abgeschlossen ist, lässt sich ein Paket erstellen:
mvn clean verify assembly:assembly -DskipTests
Danach wird Atlas installiert:
tar -xzvf apache-atlas-${project.version}-bin.tar.gz
* cd atlas-${project.version}
Tar finden Administratoren im Verzeichnis atlas/target/apache-atlas-${project.version}-bin.tar.gz
Fazit
Unternehmen, die Metadaten in der Big-Data-Umgebung benötigen, die Datenklassifizierung nutzen, und bei denen die Sicherheit der Daten von der Quelle zum Ziel übernommen werden soll, können mit Atlas durchaus einen Mehrwert erreichen. Sollen auch noch Metadaten in verschiedenen Systemen genutzt werden, die durch Hadoop laufen, kann Apache Atlas ebenfalls wertvolle Dienste leisten. Atlas bietet bei Data Governance wichtige Funktionen, die in keiner Big-Data-Infrastruktur fehlen sollten.
(ID:43701455)