Definition Was sind unstrukturierte Daten?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Unstrukturierte Daten sind Informationen, die in einer nicht identifizierbaren und nicht normalisierten Datenstruktur vorliegen. Es kann sich beispielsweise um Texte, Bilder oder Audio- und Videodateien handeln. Im Big-Data-Umfeld haben unstrukturierte Daten eine große Bedeutung.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Digitale Daten lassen sich in unstrukturierte und strukturierte Daten unterscheiden. Während strukturierte Daten eine normalisierte Form haben und in einer zeilen- und spaltenorientierten Datenbank gespeichert werden können, besitzen unstrukturierte Daten eine nicht identifizierbare Datenstruktur. Sie lassen sich in herkömmlichen, SQL-basierten Datenbanken nicht ohne weiteres ablegen. Beispiele für unstrukturierte Daten sind Textdateien, Präsentationen, Videos, Audiodaten, aufgezeichnete Sprache oder Bilder und andere Datentypen.

Für Computerprogramme ist es sehr schwer, unstrukturierte Daten zu verarbeiten oder zu analysieren. Die Nutzbarkeit der unstrukturierten Daten durch Software und automatisierte Prozesse ist dadurch stark eingeschränkt. Um sie dennoch zu verarbeiten, muss zunächst eine Art Struktur aus den Daten gewonnen werden. Die heute in Unternehmen anfallenden Daten sind größtenteils unstrukturiert. Im Big-Data-Umfeld haben sie eine große Bedeutung, da viele relevante Informationen darin enthalten sind. Big-Data-Anwendungen stellen Funktionen bereit, die eine Verarbeitung, Speicherung und Analyse von unstrukturierten Daten ermöglichen.

Abgrenzung: unstrukturierte, semistrukturierte und strukturierte Daten

Grundsätzlich ist ein Unterscheidung der Daten abhängig vom Strukturierungsgrad nach folgenden Typen möglich:

  • unstrukturierte Daten
  • semistrukturierte Daten
  • strukturierte Daten

Während bei den unstrukturierten Daten nur der Dateityp bekannt ist, der Inhalt aber nicht in Form voneinander abhängigen Datenfeldern vorliegt, haben semistrukturierte Daten eine gewisse Grundstruktur. Als Beispiel für semistrukturierte Daten wird oft die E-Mail angeführt. Sie besitzt eine Grundstruktur mit Absender, Empfänger und Betreff sowie weiteren Informationen des Nachrichtenkopfes, der eigentliche Inhalt der Mail besteht jedoch aus Text, der strukturlos ist.

Strukturierte Daten haben ein vorgegebenes Format, in das sich alle Informationen einordnen lassen. Innerhalb einer relationalen Datenbank haben die strukturierten Daten eine Zeilen- und Spaltenposition. Sie sind leicht zu finden und zu bearbeiten. Oft kommt SQL (Structured Query Language) zum Einsatz, um bestimmte Daten einer Datenbank auszulesen.

Bedeutung im Big-Data-Umfeld

Die in einem Unternehmen während der normalen Geschäftstätigkeit anfallenden Daten sind in der Regel unstrukturiert. Es handelt sich dabei um große Datenmengen, von denen sich ein Teil in eine strukturierte Form bringen lässt. Ein Großteil bleibt jedoch nach wie vor unstrukturiert. Die Verwaltung, Speicherung und Verarbeitung der unstrukturierten Daten stellt viele Unternehmen vor große Herausforderungen, da die herkömmlichen Verarbeitungsprogramme und Datenbanken hierfür nicht nutzbar sind.

Die Speicherung der Daten kann jedoch aus vielerlei Hinsicht wie beispielsweise aufgrund von Compliance-Vorgaben erforderlich sein. Um die Daten nicht einfach nur in digitaler Form zu speichern, sondern sie analysierbar zu machen, kommen Verfahren wie die Text- und Spracherkennung zum Einsatz. Die Daten sind anschließend zumindest nach bestimmten Schlüsselbegriffen durchsuchbar.

Herausforderungen und Lösungen

Unstrukturierte Daten stellen Unternehmen und Softwarelösungen vor folgende Herausforderungen:

  • riesige Datenmengen sind in nicht relationaler Form zu speichern und für die weitere Verarbeitung bereitzustellen
  • Daten aus den unterschiedlichsten Quellen und in verschiedenster Form sind für die Informationsgewinnung so zu verarbeiten und zu speichern, dass Anwendungen auf die Daten performant zugreifen können
  • die Speicherung und Verarbeitung der Daten muss in hoher Geschwindigkeit, teilweise in Echtzeit erfolgen

Sollen die Herausforderungen gemeistert werden, muss die Technik für die riesigen unstrukturierten Datenmengen entsprechende Lösungen bieten, da herkömmliche Datenverwaltungsprozesse nicht für die Verarbeitung von heterogenen Daten in diesem Mengen ausgelegt sind. Es kommen verteilte Infrastrukturen zum Einsatz, die Aufgaben parallelisieren und auf verschiedene Servercluster verteilen. Die Datenspeicher sind in der Lage, große Datenmengen aufzunehmen und beherrschen Techniken oder intelligente Funktionen diese zu reduzieren. Das kann zum Beispiel durch Kompression oder das automatische Erkennen von Datendubletten erfolgen.

Im Hintergrund arbeitet eine performante Netzwerkinfrastruktur, die große Datensätze schnell an andere Knoten weiterreichen kann. Implementierte Sicherheitsfunktionen schützen die Daten in der verteilten Infrastruktur. Durch die Nutzung verteilter Datenspeicher, parallelisierte Prozesse und über das Netzwerk ansprechbare Ressourcen skaliert die komplette Architektur sehr gut und ist für große Datenmengen in unstrukturierter Form geeignet. Eine etablierte Lösung in diesem Umfeld ist Apache Hadoop. Es handelt sich um ein Open Source Framework, das die Verarbeitung umfangreicher Datensätze auf einer Cluster-basierten Struktur ermöglicht. Im Vergleich zu herkömmlichen Ansätzen bietet Hadoop eine bessere Kosteneffizienz und mehr Leistung im Umgang mit vielen unstrukturierten Datensätzen.

(ID:45027999)