Suchen

Definition Was ist ein Data Catalog?

| Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Ein Data Catalog ist ein Service oder ein Tool, das verschiedene Daten-Assets in einem zentralen Metadatenverzeichnis verwaltet. Der Datenkatalog vereinfacht den Zugang zu den Daten. Häufiger Anwendungsbereich sind das Big-Data-Umfeld und Data Warehouses. Der Data Catalog kann auch als Cloud-Service bei verschiedenen Cloud-Providern genutzt werden.

Firma zum Thema

(Bild: © aga7ta - stock.adobe.com)

Das deutsche Wort für Data Catalog lautet Datenkatalog. Es handelt sich um ein Metadatenverzeichnis, das als Tool oder Service nutzbar ist und die Metadaten verschiedener Daten-Assets, wie Datenbanken, zentral verwaltet. In einem Data Catalog sind beispielsweise Informationen gespeichert wie die Zugangsdaten und Zugangsmöglichkeiten zu den Datenquellen, Beschreibungen der Datenquellen, Tabellennamen, Attribute, Wertebereiche, Datentypen oder Indizes.

Häufig stellt ein Data Catalog eine benutzerfreundliche Oberfläche zur Verfügung, die es auch Anwendern ohne spezifischen Datenbank-Know-how erlaubt, auf die Informationen der verschiedenen Datenquellen zuzugreifen. Der Data Catalog erleichtert das Auffinden von Daten und deren Verwendung für Anwendungen wie Business-Intelligence-Analysen. Er kann als Software on-premises betrieben werden oder ist als Service aus der Cloud verfügbar. Cloud-Provider wie Microsoft oder Google bieten entsprechende Services.

Ziele eines Datenkatalogs

Anwender, die auf die in verschiedenen Datenquellen gespeicherten Informationen zugreifen möchten, benötigen Informationen, wie sie sich mit den Datenquellen verbinden, welche Daten dort zu finden sind und in welcher Form die Daten gespeichert sind. Je mehr Daten in einem Unternehmen anfallen und verarbeitet werden, desto wichtiger ist es, die Separierung in einzelne Datensilos zu vermeiden. Ziel eines Data Catalogs ist es, eine zentrale Informationsquelle zu schaffen, in der sich alle Daten-Assets verwalten lassen und die alle für den Zugriff und die Nutzung der Daten benötigten Informationen bereitstellt.

Funktionen eines Datenkatalogs

Je nach Realisierung und Typ eines Datenkatalogs werden verschiedene Funktionen bereitgestellt. Die wesentlichen Funktionen sind aber in allen Lösungen ähnlich. Ein Data Catalog benötigt zunächst Funktionen, für die initiale Bestückung mit den Metadaten und den Informationen aus den verschiedenen Datenquellen. Informationen wie die Namen und Orte der Datenquellen und Zugangsdaten müssen gespeichert werden. Für jede einzelne Datenquelle sind anschließend Metadaten wie Feldnamen, Feldinformtionen, Indizes, Attribute, Wertebereiche, Datentypen, Tabellennamen und andere abzulegen.

Um den Data Catalog Anwendern oder Anwendungen zur Verfügung zu stellen, sind Benutzeroberflächen und Zugangsschnittstellen notwendig. Die Metadaten sind so zu organisieren und darzustellen, dass ein schneller zielgerichteter Zugriff auf die Daten möglich ist. Für den sicheren und geschützten Zugang zu den Daten bieten Datenkataloge Funktionen wie rollenbasierte Zugriffsrechte, Verschlüsselung und Protokollierung der Datenzugriffe.

Realisierung eines Data Catalogs

Technisch lässt sich ein Data Catalog auf unterschiedliche Art realisieren. Grundsätzlich ist eine Unterscheidung in Datenkataloge, die auf On-premises-Equipment betrieben werden, und Datenkatalogen, die sich als Service aus der Cloud nutzen lassen, möglich. Im Fall eines On-premises-Datenkatalogs wird eine Software auf einer Serverumgebung installiert, die das Metadatenverzeichnis abbildet und über entsprechende Verbindungen zu den Datenquellen verfügt.

Sehr flexibel sind Datenkatalog als Service aus der Cloud. Cloud-Provider wie Google oder Microsoft und weitere bieten entsprechende Lösungen. Es handelt sich um vollständig verwaltete Metadatenverzeichnisse. Sie sind über eine grafische Benutzeroberfläche und APIs per Internet erreichbar. Es handelt sich in Anlehnung an Software-as-a-Service (SaaS) um Metadata-as-a-Service. Nutzer der cloudbasierten Datenkataloge müssen keine eigene Infrastruktur installieren und betreiben.

Anwendungen für einen Data Catalog

Der Data Catalog kommt in vielen verschiedenen Anwendungsbereichen zum Einsatz. Häufig dient er in einem Data Warehouse als zentrales Verzeichnis für die nutzbaren Datenquellen. Das Data Warehouse mit seinem Datenkatalog lässt sich für Anwendungen und Analysen der Business Intelligence einsetzen. Je mehr Daten zu managen und zu analysieren sind, desto wichtiger ist die Bereitstellung eines Data Catalogs.

Im Big-Data- und BI-Umfeld ist der Datenkatalog eine wichtige Voraussetzung für effektive Self-Service-Analysen. Datenkataloge lassen sich auch als Basis für Portale zum einfacheren Auffinden von Daten nutzen. Die Portale ermöglichen es Nicht-Datenwissenschaftlern, auf die für ihre Anwendungen benötigten Informationen zuzugreifen.

Vorteile eines Data Catalogs

Ein Data Catalog bietet eine Vielfalt an Vorteilen. Im Folgenden eine stichpunktartige Auflistung wichtiger Vorteile:

  • erleichtert die Verwaltung der Daten-Assets
  • verbessert die Konsistenz und Qualität der Daten eine Unternehmens
  • erleichtert das Auffinden von Daten und den Zugriff auf die Informationen
  • ermöglicht Anwendern ohne tiefes technisches Datenbank-Know-how den Zugang zu den Daten
  • zentrale Bereitstellung der Daten erhöht die Transparenz im Unternehmen
  • verhindert die Separierung von Informationen in einzelnen Datensilos
  • ermöglicht eine einfache Dokumentation der Daten-Assets
  • schützt und sichert den Zugriff auf Datenbestände
  • dient als Basis für effiziente Business-Intelligence-Analysen
  • bietet Schnittstellen für verschiedene Anwendungen und Tools
  • ermöglicht den Zugang zu den Informationen über benutzerfreundliche Anwenderoberflächen

(ID:46603137)

Über den Autor