Definition

Was sind unstrukturierte Daten?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Unstrukturierte Daten sind Informationen, die in einer nicht identifizierbaren und nicht normalisierten Datenstruktur vorliegen. Es kann sich beispielsweise um Texte, Bilder oder Audio- und Videodateien handeln. Im Big-Data-Umfeld haben unstrukturierte Daten eine große Bedeutung.

Digitale Daten lassen sich in unstrukturierte und strukturierte Daten unterscheiden. Während strukturierte Daten eine normalisierte Form haben und in einer zeilen- und spaltenorientierten Datenbank gespeichert werden können, besitzen unstrukturierte Daten eine nicht identifizierbare Datenstruktur. Sie lassen sich in herkömmlichen, SQL-basierten Datenbanken nicht ohne weiteres ablegen. Beispiele für unstrukturierte Daten sind Textdateien, Präsentationen, Videos, Audiodaten, aufgezeichnete Sprache oder Bilder und andere Datentypen.

Für Computerprogramme ist es sehr schwer, unstrukturierte Daten zu verarbeiten oder zu analysieren. Die Nutzbarkeit der unstrukturierten Daten durch Software und automatisierte Prozesse ist dadurch stark eingeschränkt. Um sie dennoch zu verarbeiten, muss zunächst eine Art Struktur aus den Daten gewonnen werden. Die heute in Unternehmen anfallenden Daten sind größtenteils unstrukturiert. Im Big-Data-Umfeld haben sie eine große Bedeutung, da viele relevante Informationen darin enthalten sind. Big-Data-Anwendungen stellen Funktionen bereit, die eine Verarbeitung, Speicherung und Analyse von unstrukturierten Daten ermöglichen.

Abgrenzung: unstrukturierte, semistrukturierte und strukturierte Daten

Grundsätzlich ist ein Unterscheidung der Daten abhängig vom Strukturierungsgrad nach folgenden Typen möglich:

  • unstrukturierte Daten
  • semistrukturierte Daten
  • strukturierte Daten

Während bei den unstrukturierten Daten nur der Dateityp bekannt ist, der Inhalt aber nicht in Form voneinander abhängigen Datenfeldern vorliegt, haben semistrukturierte Daten eine gewisse Grundstruktur. Als Beispiel für semistrukturierte Daten wird oft die E-Mail angeführt. Sie besitzt eine Grundstruktur mit Absender, Empfänger und Betreff sowie weiteren Informationen des Nachrichtenkopfes, der eigentliche Inhalt der Mail besteht jedoch aus Text, der strukturlos ist.

Strukturierte Daten haben ein vorgegebenes Format, in das sich alle Informationen einordnen lassen. Innerhalb einer relationalen Datenbank haben die strukturierten Daten eine Zeilen- und Spaltenposition. Sie sind leicht zu finden und zu bearbeiten. Oft kommt SQL (Structured Query Language) zum Einsatz, um bestimmte Daten einer Datenbank auszulesen.

Bedeutung im Big-Data-Umfeld

Die in einem Unternehmen während der normalen Geschäftstätigkeit anfallenden Daten sind in der Regel unstrukturiert. Es handelt sich dabei um große Datenmengen, von denen sich ein Teil in eine strukturierte Form bringen lässt. Ein Großteil bleibt jedoch nach wie vor unstrukturiert. Die Verwaltung, Speicherung und Verarbeitung der unstrukturierten Daten stellt viele Unternehmen vor große Herausforderungen, da die herkömmlichen Verarbeitungsprogramme und Datenbanken hierfür nicht nutzbar sind.

Die Speicherung der Daten kann jedoch aus vielerlei Hinsicht wie beispielsweise aufgrund von Compliance-Vorgaben erforderlich sein. Um die Daten nicht einfach nur in digitaler Form zu speichern, sondern sie analysierbar zu machen, kommen Verfahren wie die Text- und Spracherkennung zum Einsatz. Die Daten sind anschließend zumindest nach bestimmten Schlüsselbegriffen durchsuchbar.

Herausforderungen und Lösungen

Unstrukturierte Daten stellen Unternehmen und Softwarelösungen vor folgende Herausforderungen:

  • riesige Datenmengen sind in nicht relationaler Form zu speichern und für die weitere Verarbeitung bereitzustellen
  • Daten aus den unterschiedlichsten Quellen und in verschiedenster Form sind für die Informationsgewinnung so zu verarbeiten und zu speichern, dass Anwendungen auf die Daten performant zugreifen können
  • die Speicherung und Verarbeitung der Daten muss in hoher Geschwindigkeit, teilweise in Echtzeit erfolgen

Sollen die Herausforderungen gemeistert werden, muss die Technik für die riesigen unstrukturierten Datenmengen entsprechende Lösungen bieten, da herkömmliche Datenverwaltungsprozesse nicht für die Verarbeitung von heterogenen Daten in diesem Mengen ausgelegt sind. Es kommen verteilte Infrastrukturen zum Einsatz, die Aufgaben parallelisieren und auf verschiedene Servercluster verteilen. Die Datenspeicher sind in der Lage, große Datenmengen aufzunehmen und beherrschen Techniken oder intelligente Funktionen diese zu reduzieren. Das kann zum Beispiel durch Kompression oder das automatische Erkennen von Datendubletten erfolgen.

Im Hintergrund arbeitet eine performante Netzwerkinfrastruktur, die große Datensätze schnell an andere Knoten weiterreichen kann. Implementierte Sicherheitsfunktionen schützen die Daten in der verteilten Infrastruktur. Durch die Nutzung verteilter Datenspeicher, parallelisierte Prozesse und über das Netzwerk ansprechbare Ressourcen skaliert die komplette Architektur sehr gut und ist für große Datenmengen in unstrukturierter Form geeignet. Eine etablierte Lösung in diesem Umfeld ist Apache Hadoop. Es handelt sich um ein Open Source Framework, das die Verarbeitung umfangreicher Datensätze auf einer Cluster-basierten Struktur ermöglicht. Im Vergleich zu herkömmlichen Ansätzen bietet Hadoop eine bessere Kosteneffizienz und mehr Leistung im Umgang mit vielen unstrukturierten Datensätzen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Cloudera und Hortonworks vereinigen ihre Datenplattformen

Nachbericht DataWorks Summit Barcelona

Cloudera und Hortonworks vereinigen ihre Datenplattformen

Auf der diesjährigen DataWorks-Konferenz in Barcelona traten Cloudera und Hortonworks erstmals gemeinsam auf. Im Januar 2019 hatten beide auf Data Science und Big Data spezialisierten Anbieter ihren Zusammenschluss vollzogen. Als ein Ergebnis wird demnächst die neue Enterprise Data Cloud eingeführt, die vollständig auf Open Source basiert. lesen

Automation Anywhere erweitert IQ Bot 6.5

Robotic Process Automation (RPA) mit KI

Automation Anywhere erweitert IQ Bot 6.5

Der RPA-Spezialist Automation Anywhere ergänzt seine KI-Lösung IQ Bot 6.5 um zusätzliche Funktionen. Sie sollen Anwender von der alltäglichen Datenerfassung in Unternehmensanwendungen entlasten. lesen

Mit Augmented Intelligence zu höherer Kundenzufriedenheit

Kommentar von Dr. Dorian Selz, Squirro

Mit Augmented Intelligence zu höherer Kundenzufriedenheit

Banken und Versicherungen verfügen über mehr Daten über Kunden denn je. Die Kunst besteht darin, diesen Datenschatz zu heben und handlungsrelevante Einblicke in das Verhalten sowie die Wünsche der Kunden zu gewinnen. Das gelingt mithilfe von Augmented Intelligence, zu deutsch „erweiterte Intelligenz“. Sie kombiniert menschliche Intelligenz mit KI und verwandelt Banken und Versicherungen in zukunftssichere, datengesteuerte Unternehmen. lesen

Viele Machine-Learning-Projekte scheitern am falschen Framework

Kommentar von Dr. David James, IT-Novum

Viele Machine-Learning-Projekte scheitern am falschen Framework

Welches Machine Learning Framework passt zu meinem Use Case? Die Antwort auf diese Frage beschäftigt viele Unternehmen, die bei der Auswahl häufig an einen Punkt gelangen, an dem sie nicht mehr weiterkommen. Unterstützung hierbei bietet eine Machine-Learning-Framework-Entscheidungsmatrix, die verschiedene miteinander Frameworks vergleicht. lesen

2019 wird ein „kognitives Jahr“

Kommentar von Stefan Welcker, Expert System DACH

2019 wird ein „kognitives Jahr“

Die Traumkombination „Künstliche Intelligenz“ und „Cognitive Computing“ wird dieses Jahr ihren endgültigen Durchbruch feiern. Beflügelt wird diese Entwicklung vor allem durch die Automatisierung beider Technologien. lesen

Dynamisches Machine Learning mit Squirro

Service gestartet

Dynamisches Machine Learning mit Squirro

Augmented-Intelligence-Spezialist Squirro hat einen neuen Machine-Learning-Service gestartet. Er enthält auch Module zur Erzeugung von Trainingsdaten und ist in erster Linie für den Einsatz durch Unternehmensinvestoren konzipiert. lesen

Die wichtigsten Big-Data-Technologien

Überblick

Die wichtigsten Big-Data-Technologien

Big-Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Dafür reichen jedoch herkömmliche Technologien wie zum Beispiel klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen bei weitem nicht aus. lesen

Information Builders ist AWS-Partner

BI-Anwendungen in der Cloud

Information Builders ist AWS-Partner

Ab sofort sind die Business-Intelligence- (BI), Analytics- und Datenmanagement-Lösungen von Information Builders auch Cloud-basiert über die Amazon Web Services (AWS) verfügbar. lesen

Sechs Erfolgsfaktoren für KI in Fachabteilungen

Squirro nennt Kriterien

Sechs Erfolgsfaktoren für KI in Fachabteilungen

Der Augmented-Intelligence-Spezialist Squirro hat sechs Faktoren identifiziert, die über den Erfolg von Künstlicher Intelligenz (KI) in Fachabteilungen entscheiden. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45027999 / Definitionen)