Big Data Analytics So helfen Metadaten bei der Datenanalyse
Anbieter zum Thema
Damit die enormen Datenmengen in Big-Data-Umgebungen optimal und vor allem verlässlich verarbeitet werden können, muss sichergestellt sein, dass die Daten belastbar, verlässlich und vor allem auch aussagekräftig sind.

Die zu verarbeitenden Daten in Big-Data-Umgebungen kommen zumeist aus verschiedenen Quellen. Neben Informationen aus sozialen Netzwerken, externen Informationen oder Sensoren fließen häufig auch Daten von internen Datenbanken in die Berechnungen mit ein. Dabei gilt: Je mehr verschiedene Daten zum Einsatz kommen, umso mehr müssen Verantwortliche Informationen über die Daten selbst erfassen und kennen.
In Big-Data-Umgebungen haben einzelne Informationen oft nur wenig Aussagekraft. Erst im Verbund und bei der gemeinsamen Verarbeitung spielen Gruppen von Daten eine gewichtige Rolle. Außerdem muss klar sein, woher die Daten kommen, welche Informationen sie enthalten, wie zuverlässig sie sind und welcher Datenschutz gelten soll. Neben dieser Art von Daten müssen zahlreiche weitere Informationen zu den Daten erfasst werden.
In Big-Data-Umgebungen spielt die Aggregation von Daten eine wichtige Rolle. Ohne Metadaten lassen sich Daten allerdings nicht effizient und leistungsstark aggregieren. In vielen Fällen lassen sich Daten erst analysieren und korrekte Erkenntnisse gewinnen, wenn die eigentlichen Daten in Metadaten erfasst werden. Denn Metadaten können Muster offenlegen, die durch normale Datenerfassung oft nur sehr schwer nachvollziehbar sind.
Was sind Metadaten?
Metadaten sind, einfach ausgedrückt, Daten, die Informationen zu anderen Daten enthalten und zusammenfassen. Noch einfacher ausgedrückt: Metadaten sind Daten über andere Daten. Metadaten strukturieren andere Daten und bieten dabei den Vorteil, effizienter automatisiert verarbeitet werden zu können.
Vielen sind bereits Metadaten bei Digitalfotos begegnet: Neben dem eigentlichen Bild werden in der Datei noch weitere Informationen gespeichert. Das können Angaben zum Kamerahersteller und zum -modell, zur Bildauflösung und zur ISO-Filmempfindlichkeit sein. Daneben sind häufig auch Informationen zum Aufnahmeort, zur Blendenzahl und zur Belichtungszeit hinterlegt.
Je größer die Datenmenge ist, umso wichtiger sind verlässliche Metadaten. Aber auch für Metadaten gibt es verschiedene Standards und Konventionen, die eingehalten werden müssen. Metadaten sind für das Management großer Datenmengen entscheidend, denn nach Metadaten kann gefiltert werden. Am Beispiel der oben erwähnten Fotos könnten in einer Big-Data-Umgebung zum Beispiel alle Fotos eines Kameratyps erfasst werden. Sind in den Fotos auch noch weitere Metadaten hinterlegt, zum Beispiel Angaben zum Motiv und zum Fotograf, lässt sich in Sekundenbruchteilen eine relevante Datenmenge erfassen, auch aus riesigen Archiven.
Darum sind Metadaten sinnvoll
Metadaten lassen sich getrennt von den Daten erfassen, verwalten und analysieren. Durch die Analyse der Metadaten lassen sich auch die zugrunde liegenden Daten schneller erfassen und mit geringeren Zugriffszeiten analysieren. Außerdem lassen sich die Metadaten schneller und effizienter aufrufen. In vielen Big-Data-Umgebungen werden bereits Data Lakes zur Analyse verwendet.
Sinnvoll ist es zum Beispiel, die Metadaten auf Datenträgern zu speichern, auf die sehr schnell zugegriffen werden kann. Die eigentlichen Daten, die in wesentlich größerer Menge vorliegen, können auch auf etwas langsameren Speichermedien gespeichert werden. Da die Metadaten direkt die Daten adressieren können, steigt durch die Verwendung dieser Struktur die Leistung eines Big-Data-Systems deutlich an. Wichtig ist allerdings eine einheitliche Struktur der Metadaten, quer durch alle verwendeten Daten.
Metadaten können vor allem dabei helfen, dass Daten schneller verarbeitet und analysiert werden, im Idealfall sogar in Echtzeit. In allen Systemen in denen Daten in Echtzeit verarbeitet werden müssen, sollte ein Metadaten-System zum Einsatz kommen. Schon alleine durch die Reduzierung der zu durchsuchenden Daten wird eine Beschleunigung von Abfragen erreicht.
Metadaten im Big-Data-Umfeld und in Industrie 4.0
Ab einer gewissen Datenmenge sind Daten in Big-Data-Umgebungen ohne Metadaten überhaupt nicht mehr nutzbar, da die Verarbeitungszeit zu stark ansteigt. Erst mit Metadaten lassen sich große Datenmengen effizient verarbeiten und Big Data sinnvoll nutzen.
Metadaten kommen aber auch im Bereich von Maschinendaten und Messwerten zum Einsatz. Auch beim Erfassen von Produkten, Aufträgen oder Arbeitsabläufen kann es sinnvoll sein, weitere Unterteilungen vorzunehmen. Auch hier muss dabei auf den Datenschutz geachtet werden. Planen Unternehmen also den Einsatz von Industrie-4.0-Infrastrukturen, sollte die Erfassung von Metadaten von Anfang an mit einbezogen werden, schon bevor mit der Planung von Big-Data-Analysen begonnen wird.
Auch für die Verarbeitung von Webseiten – beziehungsweise dem Content auf Webseiten – über Content-Management-Systeme, spielen Metadaten eine wichtige Rolle. Denn Clouddienste, Webdienste, oder auch Webseiten enthalten bereits eine so große Datenmenge, dass diese durch Metadaten klassifiziert und unterteilt werden sollte.
Das müssen Unternehmen beachten
Auch Metadaten können juristisch relevant sein. Unternehmen sollten also auch hier auf den Datenschutz und die Datensicherheit achten. Vor allem wenn es um die Analyse von Daten aus sozialen Netzwerken geht sowie die Verarbeitung dieser Daten in Metadaten, muss von vorneherein der Datenschutz mit einbezogen werden. Auch die Speicherung der Daten und die Speichermedien müssen hier mit einbezogen werden.
In vielen Big Data-Umgebungen lassen sich die Metadaten in relationalen Datenbanken speichern, also außerhalb des Big-Data-Systems. Speichern Unternehmen zum Beispiel die Metadaten in einer Datenbank auf Oracle-Datenbank-Servern, dann müssen auch diese Daten optimal geschützt werden. Der Datenschutz der Big-Data-Umgebung muss dann auf diese externen Datenbanken ausgeweitet werden.
Hadoop mit SQL und Metadaten nutzen
Speichern Unternehmen ihre Metadaten in SQL-Datenbanken, also relationalen Datenspeichern, lassen sich diese Daten auch in Hadoop einbinden und zur Big-Data-Analyse heranziehen. Hier kann zum Beispiel Hive zum Einsatz kommen.
Mit dem Azure SDK und den Azure Tools können Unternehmen HDInsight-Cluster mit HDInsight-Tools für Visual Studio steuern und Abfragen erstellen. Damit können Verantwortliche nicht nur den Speicher verwalten, sondern auch Hive-Abfragen erstellen und Hive-Jobs überwachen. Wichtig ist in diesem Zusammenhang, dass die Daten strukturiert vorliegen. Der Datenaustausch zwischen Hadoop und Oracle kann in diesem Beispiel mit Sqoop erfolgen. Sollen Daten zwischen SQL-Datenbanken und NoSQL-Infrastrukturen/Hadoop-Umgebungen ausgetauscht werden, kommen Entwickler kaum um Apache Sqoop herum. Bei Sqoop handelt es sich um ein Apache-Top-Level-Produkt, das heißt das Produkt ist für den Einsatz in produktiven Umgebungen geeignet.
Unternehmen, die auf Hadoop setzen und auf der Suche nach einer effizienten Möglichkeit sind, Compliance-Anforderungen umzusetzen, sollten sich Apache Atlas ansehen. Das Produkt wird in Hadoop integriert und bietet die Anbindung an das komplette Daten-Öko-System eines Unternehmens. Atlas bietet ein sehr skalierbares Metadaten-System für Hadoop. Die Lösung wird derzeit von Aetna, Hortonworks, Merck, SAS, Schlumberger und Target entwickelt.
Metadaten in Datenspeichern
Die meisten Datenspeicher für Big-Data-Umgebungen bieten auch eine Verwaltung für Metadaten an. Beispiel dafür ist Microsoft Azure Storage. Auch hier lassen sich Metadaten festlegen sowie auf Wunsch abrufen. Auch für ganze Container lassen sich in Microsoft Azure Metadaten festlegen. Dazu können Entwickler zum Beispiel auch C#-Konventionen verwenden, zum Beispiel:
public static void AddContainerMetadata(CloudBlobContainer container)
{
//Add some metadata to the container.
container.Metadata.Add("docType", "textDocuments");
container.Metadata["category"] = "guidance";
//Set the container's metadata.
container.SetMetadata();
Um die Daten wiederum auszulesen, stellt Microsoft in Microsoft Azure ebenfalls Möglichkeiten zur Verfügung:
public static void ListContainerMetadata(CloudBlobContainer container)
{
//Fetch container attributes in order to populate the container's properties and metadata.
container.FetchAttributes();
//Enumerate the container's metadata.
Console.WriteLine("Container metadata:");
foreach (var metadataItem in container.Metadata)
{
Console.WriteLine("\tKey: {0}", metadataItem.Key);
Console.WriteLine("\tValue: {0}", metadataItem.Value);
}
}
(ID:43816138)