Damit die enormen Datenmengen in Big-Data-Umgebungen optimal und vor allem verlässlich verarbeitet werden können, muss sichergestellt sein, dass die Daten belastbar, verlässlich und vor allem auch aussagekräftig sind.
Je mehr Daten aus unterschiedlichen Quellen zum Einsatz kommen, umso mehr müssen Verantwortliche mithilfe von Metadaten Informationen über die Daten selbst erfassen und kennen.
Die zu verarbeitenden Daten in Big-Data-Umgebungen kommen zumeist aus verschiedenen Quellen. Neben Informationen aus sozialen Netzwerken, externen Informationen oder Sensoren fließen häufig auch Daten von internen Datenbanken in die Berechnungen mit ein. Dabei gilt: Je mehr verschiedene Daten zum Einsatz kommen, umso mehr müssen Verantwortliche Informationen über die Daten selbst erfassen und kennen.
In Big-Data-Umgebungen haben einzelne Informationen oft nur wenig Aussagekraft. Erst im Verbund und bei der gemeinsamen Verarbeitung spielen Gruppen von Daten eine gewichtige Rolle. Außerdem muss klar sein, woher die Daten kommen, welche Informationen sie enthalten, wie zuverlässig sie sind und welcher Datenschutz gelten soll. Neben dieser Art von Daten müssen zahlreiche weitere Informationen zu den Daten erfasst werden.
In Big-Data-Umgebungen spielt die Aggregation von Daten eine wichtige Rolle. Ohne Metadaten lassen sich Daten allerdings nicht effizient und leistungsstark aggregieren. In vielen Fällen lassen sich Daten erst analysieren und korrekte Erkenntnisse gewinnen, wenn die eigentlichen Daten in Metadaten erfasst werden. Denn Metadaten können Muster offenlegen, die durch normale Datenerfassung oft nur sehr schwer nachvollziehbar sind.
Was sind Metadaten?
Metadaten sind, einfach ausgedrückt, Daten, die Informationen zu anderen Daten enthalten und zusammenfassen. Noch einfacher ausgedrückt: Metadaten sind Daten über andere Daten. Metadaten strukturieren andere Daten und bieten dabei den Vorteil, effizienter automatisiert verarbeitet werden zu können.
Vielen sind bereits Metadaten bei Digitalfotos begegnet: Neben dem eigentlichen Bild werden in der Datei noch weitere Informationen gespeichert. Das können Angaben zum Kamerahersteller und zum -modell, zur Bildauflösung und zur ISO-Filmempfindlichkeit sein. Daneben sind häufig auch Informationen zum Aufnahmeort, zur Blendenzahl und zur Belichtungszeit hinterlegt.
Je größer die Datenmenge ist, umso wichtiger sind verlässliche Metadaten. Aber auch für Metadaten gibt es verschiedene Standards und Konventionen, die eingehalten werden müssen. Metadaten sind für das Management großer Datenmengen entscheidend, denn nach Metadaten kann gefiltert werden. Am Beispiel der oben erwähnten Fotos könnten in einer Big-Data-Umgebung zum Beispiel alle Fotos eines Kameratyps erfasst werden. Sind in den Fotos auch noch weitere Metadaten hinterlegt, zum Beispiel Angaben zum Motiv und zum Fotograf, lässt sich in Sekundenbruchteilen eine relevante Datenmenge erfassen, auch aus riesigen Archiven.
Darum sind Metadaten sinnvoll
Metadaten lassen sich getrennt von den Daten erfassen, verwalten und analysieren. Durch die Analyse der Metadaten lassen sich auch die zugrunde liegenden Daten schneller erfassen und mit geringeren Zugriffszeiten analysieren. Außerdem lassen sich die Metadaten schneller und effizienter aufrufen. In vielen Big-Data-Umgebungen werden bereits Data Lakes zur Analyse verwendet.
Sinnvoll ist es zum Beispiel, die Metadaten auf Datenträgern zu speichern, auf die sehr schnell zugegriffen werden kann. Die eigentlichen Daten, die in wesentlich größerer Menge vorliegen, können auch auf etwas langsameren Speichermedien gespeichert werden. Da die Metadaten direkt die Daten adressieren können, steigt durch die Verwendung dieser Struktur die Leistung eines Big-Data-Systems deutlich an. Wichtig ist allerdings eine einheitliche Struktur der Metadaten, quer durch alle verwendeten Daten.
Metadaten können vor allem dabei helfen, dass Daten schneller verarbeitet und analysiert werden, im Idealfall sogar in Echtzeit. In allen Systemen in denen Daten in Echtzeit verarbeitet werden müssen, sollte ein Metadaten-System zum Einsatz kommen. Schon alleine durch die Reduzierung der zu durchsuchenden Daten wird eine Beschleunigung von Abfragen erreicht.
Metadaten im Big-Data-Umfeld und in Industrie 4.0
Ab einer gewissen Datenmenge sind Daten in Big-Data-Umgebungen ohne Metadaten überhaupt nicht mehr nutzbar, da die Verarbeitungszeit zu stark ansteigt. Erst mit Metadaten lassen sich große Datenmengen effizient verarbeiten und Big Data sinnvoll nutzen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Metadaten kommen aber auch im Bereich von Maschinendaten und Messwerten zum Einsatz. Auch beim Erfassen von Produkten, Aufträgen oder Arbeitsabläufen kann es sinnvoll sein, weitere Unterteilungen vorzunehmen. Auch hier muss dabei auf den Datenschutz geachtet werden. Planen Unternehmen also den Einsatz von Industrie-4.0-Infrastrukturen, sollte die Erfassung von Metadaten von Anfang an mit einbezogen werden, schon bevor mit der Planung von Big-Data-Analysen begonnen wird.
Auch für die Verarbeitung von Webseiten – beziehungsweise dem Content auf Webseiten – über Content-Management-Systeme, spielen Metadaten eine wichtige Rolle. Denn Clouddienste, Webdienste, oder auch Webseiten enthalten bereits eine so große Datenmenge, dass diese durch Metadaten klassifiziert und unterteilt werden sollte.
Das müssen Unternehmen beachten
Auch Metadaten können juristisch relevant sein. Unternehmen sollten also auch hier auf den Datenschutz und die Datensicherheit achten. Vor allem wenn es um die Analyse von Daten aus sozialen Netzwerken geht sowie die Verarbeitung dieser Daten in Metadaten, muss von vorneherein der Datenschutz mit einbezogen werden. Auch die Speicherung der Daten und die Speichermedien müssen hier mit einbezogen werden.
In vielen Big Data-Umgebungen lassen sich die Metadaten in relationalen Datenbanken speichern, also außerhalb des Big-Data-Systems. Speichern Unternehmen zum Beispiel die Metadaten in einer Datenbank auf Oracle-Datenbank-Servern, dann müssen auch diese Daten optimal geschützt werden. Der Datenschutz der Big-Data-Umgebung muss dann auf diese externen Datenbanken ausgeweitet werden.
Hadoop mit SQL und Metadaten nutzen
Speichern Unternehmen ihre Metadaten in SQL-Datenbanken, also relationalen Datenspeichern, lassen sich diese Daten auch in Hadoop einbinden und zur Big-Data-Analyse heranziehen. Hier kann zum Beispiel Hive zum Einsatz kommen.
Mit dem Azure SDK und den Azure Tools können Unternehmen HDInsight-Cluster mit HDInsight-Tools für Visual Studio steuern und Abfragen erstellen. Damit können Verantwortliche nicht nur den Speicher verwalten, sondern auch Hive-Abfragen erstellen und Hive-Jobs überwachen. Wichtig ist in diesem Zusammenhang, dass die Daten strukturiert vorliegen. Der Datenaustausch zwischen Hadoop und Oracle kann in diesem Beispiel mit Sqoop erfolgen. Sollen Daten zwischen SQL-Datenbanken und NoSQL-Infrastrukturen/Hadoop-Umgebungen ausgetauscht werden, kommen Entwickler kaum um Apache Sqoop herum. Bei Sqoop handelt es sich um ein Apache-Top-Level-Produkt, das heißt das Produkt ist für den Einsatz in produktiven Umgebungen geeignet.
Unternehmen, die auf Hadoop setzen und auf der Suche nach einer effizienten Möglichkeit sind, Compliance-Anforderungen umzusetzen, sollten sich Apache Atlas ansehen. Das Produkt wird in Hadoop integriert und bietet die Anbindung an das komplette Daten-Öko-System eines Unternehmens. Atlas bietet ein sehr skalierbares Metadaten-System für Hadoop. Die Lösung wird derzeit von Aetna, Hortonworks, Merck, SAS, Schlumberger und Target entwickelt.
Metadaten in Datenspeichern
Die meisten Datenspeicher für Big-Data-Umgebungen bieten auch eine Verwaltung für Metadaten an. Beispiel dafür ist Microsoft Azure Storage. Auch hier lassen sich Metadaten festlegen sowie auf Wunsch abrufen. Auch für ganze Container lassen sich in Microsoft Azure Metadaten festlegen. Dazu können Entwickler zum Beispiel auch C#-Konventionen verwenden, zum Beispiel:
public static void AddContainerMetadata(CloudBlobContainer container){ //Add some metadata to the container. container.Metadata.Add("docType", "textDocuments"); container.Metadata["category"] = "guidance"; //Set the container's metadata. container.SetMetadata();
Um die Daten wiederum auszulesen, stellt Microsoft in Microsoft Azure ebenfalls Möglichkeiten zur Verfügung:
public static void ListContainerMetadata(CloudBlobContainer container){ //Fetch container attributes in order to populate the container's properties and metadata. container.FetchAttributes(); //Enumerate the container's metadata. Console.WriteLine("Container metadata:"); foreach (var metadataItem in container.Metadata) { Console.WriteLine("\tKey: {0}", metadataItem.Key); Console.WriteLine("\tValue: {0}", metadataItem.Value); }}