Definition

Was sind unstrukturierte Daten?

| Autor / Redakteur: Tutanch / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Unstrukturierte Daten sind Informationen, die in einer nicht identifizierbaren und nicht normalisierten Datenstruktur vorliegen. Es kann sich beispielsweise um Texte, Bilder oder Audio- und Videodateien handeln. Im Big-Data-Umfeld haben unstrukturierte Daten eine große Bedeutung.

Digitale Daten lassen sich in unstrukturierte und strukturierte Daten unterscheiden. Während strukturierte Daten eine normalisierte Form haben und in einer zeilen- und spaltenorientierten Datenbank gespeichert werden können, besitzen unstrukturierte Daten eine nicht identifizierbare Datenstruktur. Sie lassen sich in herkömmlichen, SQL-basierten Datenbanken nicht ohne weiteres ablegen. Beispiele für unstrukturierte Daten sind Textdateien, Präsentationen, Videos, Audiodaten, aufgezeichnete Sprache oder Bilder und andere Datentypen.

Für Computerprogramme ist es sehr schwer, unstrukturierte Daten zu verarbeiten oder zu analysieren. Die Nutzbarkeit der unstrukturierten Daten durch Software und automatisierte Prozesse ist dadurch stark eingeschränkt. Um sie dennoch zu verarbeiten, muss zunächst eine Art Struktur aus den Daten gewonnen werden. Die heute in Unternehmen anfallenden Daten sind größtenteils unstrukturiert. Im Big-Data-Umfeld haben sie eine große Bedeutung, da viele relevante Informationen darin enthalten sind. Big-Data-Anwendungen stellen Funktionen bereit, die eine Verarbeitung, Speicherung und Analyse von unstrukturierten Daten ermöglichen.

Abgrenzung: unstrukturierte, semistrukturierte und strukturierte Daten

Grundsätzlich ist ein Unterscheidung der Daten abhängig vom Strukturierungsgrad nach folgenden Typen möglich:

  • unstrukturierte Daten
  • semistrukturierte Daten
  • strukturierte Daten

Während bei den unstrukturierten Daten nur der Dateityp bekannt ist, der Inhalt aber nicht in Form voneinander abhängigen Datenfeldern vorliegt, haben semistrukturierte Daten eine gewisse Grundstruktur. Als Beispiel für semistrukturierte Daten wird oft die E-Mail angeführt. Sie besitzt eine Grundstruktur mit Absender, Empfänger und Betreff sowie weiteren Informationen des Nachrichtenkopfes, der eigentliche Inhalt der Mail besteht jedoch aus Text, der strukturlos ist.

Strukturierte Daten haben ein vorgegebenes Format, in das sich alle Informationen einordnen lassen. Innerhalb einer relationalen Datenbank haben die strukturierten Daten eine Zeilen- und Spaltenposition. Sie sind leicht zu finden und zu bearbeiten. Oft kommt SQL (Structured Query Language) zum Einsatz, um bestimmte Daten einer Datenbank auszulesen.

Bedeutung im Big-Data-Umfeld

Die in einem Unternehmen während der normalen Geschäftstätigkeit anfallenden Daten sind in der Regel unstrukturiert. Es handelt sich dabei um große Datenmengen, von denen sich ein Teil in eine strukturierte Form bringen lässt. Ein Großteil bleibt jedoch nach wie vor unstrukturiert. Die Verwaltung, Speicherung und Verarbeitung der unstrukturierten Daten stellt viele Unternehmen vor große Herausforderungen, da die herkömmlichen Verarbeitungsprogramme und Datenbanken hierfür nicht nutzbar sind.

Die Speicherung der Daten kann jedoch aus vielerlei Hinsicht wie beispielsweise aufgrund von Compliance-Vorgaben erforderlich sein. Um die Daten nicht einfach nur in digitaler Form zu speichern, sondern sie analysierbar zu machen, kommen Verfahren wie die Text- und Spracherkennung zum Einsatz. Die Daten sind anschließend zumindest nach bestimmten Schlüsselbegriffen durchsuchbar.

Herausforderungen und Lösungen

Unstrukturierte Daten stellen Unternehmen und Softwarelösungen vor folgende Herausforderungen:

  • riesige Datenmengen sind in nicht relationaler Form zu speichern und für die weitere Verarbeitung bereitzustellen
  • Daten aus den unterschiedlichsten Quellen und in verschiedenster Form sind für die Informationsgewinnung so zu verarbeiten und zu speichern, dass Anwendungen auf die Daten performant zugreifen können
  • die Speicherung und Verarbeitung der Daten muss in hoher Geschwindigkeit, teilweise in Echtzeit erfolgen

Sollen die Herausforderungen gemeistert werden, muss die Technik für die riesigen unstrukturierten Datenmengen entsprechende Lösungen bieten, da herkömmliche Datenverwaltungsprozesse nicht für die Verarbeitung von heterogenen Daten in diesem Mengen ausgelegt sind. Es kommen verteilte Infrastrukturen zum Einsatz, die Aufgaben parallelisieren und auf verschiedene Servercluster verteilen. Die Datenspeicher sind in der Lage, große Datenmengen aufzunehmen und beherrschen Techniken oder intelligente Funktionen diese zu reduzieren. Das kann zum Beispiel durch Kompression oder das automatische Erkennen von Datendubletten erfolgen.

Im Hintergrund arbeitet eine performante Netzwerkinfrastruktur, die große Datensätze schnell an andere Knoten weiterreichen kann. Implementierte Sicherheitsfunktionen schützen die Daten in der verteilten Infrastruktur. Durch die Nutzung verteilter Datenspeicher, parallelisierte Prozesse und über das Netzwerk ansprechbare Ressourcen skaliert die komplette Architektur sehr gut und ist für große Datenmengen in unstrukturierter Form geeignet. Eine etablierte Lösung in diesem Umfeld ist Apache Hadoop. Es handelt sich um ein Open Source Framework, das die Verarbeitung umfangreicher Datensätze auf einer Cluster-basierten Struktur ermöglicht. Im Vergleich zu herkömmlichen Ansätzen bietet Hadoop eine bessere Kosteneffizienz und mehr Leistung im Umgang mit vielen unstrukturierten Datensätzen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Viele Machine-Learning-Projekte scheitern am falschen Framework

Kommentar von Dr. David James, IT-Novum

Viele Machine-Learning-Projekte scheitern am falschen Framework

Welches Machine Learning Framework passt zu meinem Use Case? Die Antwort auf diese Frage beschäftigt viele Unternehmen, die bei der Auswahl häufig an einen Punkt gelangen, an dem sie nicht mehr weiterkommen. Unterstützung hierbei bietet eine Machine-Learning-Framework-Entscheidungsmatrix, die verschiedene miteinander Frameworks vergleicht. lesen

2019 wird ein „kognitives Jahr“

Kommentar von Stefan Welcker, Expert System DACH

2019 wird ein „kognitives Jahr“

Die Traumkombination „Künstliche Intelligenz“ und „Cognitive Computing“ wird dieses Jahr ihren endgültigen Durchbruch feiern. Beflügelt wird diese Entwicklung vor allem durch die Automatisierung beider Technologien. lesen

Dynamisches Machine Learning mit Squirro

Service gestartet

Dynamisches Machine Learning mit Squirro

Augmented-Intelligence-Spezialist Squirro hat einen neuen Machine-Learning-Service gestartet. Er enthält auch Module zur Erzeugung von Trainingsdaten und ist in erster Linie für den Einsatz durch Unternehmensinvestoren konzipiert. lesen

Die wichtigsten Big-Data-Technologien

Überblick

Die wichtigsten Big-Data-Technologien

Big-Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Dafür reichen jedoch herkömmliche Technologien wie zum Beispiel klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen bei weitem nicht aus. lesen

Information Builders ist AWS-Partner

BI-Anwendungen in der Cloud

Information Builders ist AWS-Partner

Ab sofort sind die Business-Intelligence- (BI), Analytics- und Datenmanagement-Lösungen von Information Builders auch Cloud-basiert über die Amazon Web Services (AWS) verfügbar. lesen

Sechs Erfolgsfaktoren für KI in Fachabteilungen

Squirro nennt Kriterien

Sechs Erfolgsfaktoren für KI in Fachabteilungen

Der Augmented-Intelligence-Spezialist Squirro hat sechs Faktoren identifiziert, die über den Erfolg von Künstlicher Intelligenz (KI) in Fachabteilungen entscheiden. lesen

Studie – neue Herausforderungen für Datenbankadministratoren

Kommentar von Ales Zeman, Quest Software

Studie – neue Herausforderungen für Datenbankadministratoren

Neue Endgeräte, neue Arten der Datenentstehung – auf Datenbankadministratoren kommt im Zeichen des technischen Wandels und der veränderten Erwartungshaltung der Nutzer einiges zu. Das Forschungsinstitut Unisphere Research hat dazu im Auftrag von Quest eine Studie mit dem Titel „Neue Herausforderungen für DBAS: Trends in der Datenbankverwaltung“ erstellt. lesen

Die fünf größten BI-Irrtümer – und wie es wirklich aussieht

Kommentar von Robert Schmitz, Qlik

Die fünf größten BI-Irrtümer – und wie es wirklich aussieht

Daten: das „Gold des 21. Jahrhunderts“ – wirklich? Kommt darauf, denkt vielleicht mancher CEO oder CIO und stellt sich mit gemischten Gefühlen die Datensilos, die jahrelang eingefahrenen Reporting-Prozesse oder die großen Unterschiede zwischen den Fachabteilungen in seiner Organisation vor. Wo anfangen mit einer echten Datenstrategie, die auch Mehrwert generiert und nicht nur Ressourcen frisst? Wer soll den Data Lake überhaupt noch durchdringen, der in immer kürzeren Intervallen immer größer wird? lesen

So verbindet Intelligent Process Automation RPA und Machine Learning

Kommentar von H. Martens, Another Monday

So verbindet Intelligent Process Automation RPA und Machine Learning

Egal, ob es um maßgeschneiderte Kaufempfehlungen, persönliche Suchergebnisse oder individuelle Diagnosen geht: Es gibt bereits so manchen Bereich, in denen Algorithmen und Ansätze zum Tragen kommen, die auf Künstlicher Intelligenz beruhen. Zudem ist KI wichtiger Pfeiler des vielfach diskutierten digitalen Wandels. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45027999 / Definitionen)