Definition

Was sind unstrukturierte Daten?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Unstrukturierte Daten sind Informationen, die in einer nicht identifizierbaren und nicht normalisierten Datenstruktur vorliegen. Es kann sich beispielsweise um Texte, Bilder oder Audio- und Videodateien handeln. Im Big-Data-Umfeld haben unstrukturierte Daten eine große Bedeutung.

Digitale Daten lassen sich in unstrukturierte und strukturierte Daten unterscheiden. Während strukturierte Daten eine normalisierte Form haben und in einer zeilen- und spaltenorientierten Datenbank gespeichert werden können, besitzen unstrukturierte Daten eine nicht identifizierbare Datenstruktur. Sie lassen sich in herkömmlichen, SQL-basierten Datenbanken nicht ohne weiteres ablegen. Beispiele für unstrukturierte Daten sind Textdateien, Präsentationen, Videos, Audiodaten, aufgezeichnete Sprache oder Bilder und andere Datentypen.

Für Computerprogramme ist es sehr schwer, unstrukturierte Daten zu verarbeiten oder zu analysieren. Die Nutzbarkeit der unstrukturierten Daten durch Software und automatisierte Prozesse ist dadurch stark eingeschränkt. Um sie dennoch zu verarbeiten, muss zunächst eine Art Struktur aus den Daten gewonnen werden. Die heute in Unternehmen anfallenden Daten sind größtenteils unstrukturiert. Im Big-Data-Umfeld haben sie eine große Bedeutung, da viele relevante Informationen darin enthalten sind. Big-Data-Anwendungen stellen Funktionen bereit, die eine Verarbeitung, Speicherung und Analyse von unstrukturierten Daten ermöglichen.

Abgrenzung: unstrukturierte, semistrukturierte und strukturierte Daten

Grundsätzlich ist ein Unterscheidung der Daten abhängig vom Strukturierungsgrad nach folgenden Typen möglich:

  • unstrukturierte Daten
  • semistrukturierte Daten
  • strukturierte Daten

Während bei den unstrukturierten Daten nur der Dateityp bekannt ist, der Inhalt aber nicht in Form voneinander abhängigen Datenfeldern vorliegt, haben semistrukturierte Daten eine gewisse Grundstruktur. Als Beispiel für semistrukturierte Daten wird oft die E-Mail angeführt. Sie besitzt eine Grundstruktur mit Absender, Empfänger und Betreff sowie weiteren Informationen des Nachrichtenkopfes, der eigentliche Inhalt der Mail besteht jedoch aus Text, der strukturlos ist.

Strukturierte Daten haben ein vorgegebenes Format, in das sich alle Informationen einordnen lassen. Innerhalb einer relationalen Datenbank haben die strukturierten Daten eine Zeilen- und Spaltenposition. Sie sind leicht zu finden und zu bearbeiten. Oft kommt SQL (Structured Query Language) zum Einsatz, um bestimmte Daten einer Datenbank auszulesen.

Bedeutung im Big-Data-Umfeld

Die in einem Unternehmen während der normalen Geschäftstätigkeit anfallenden Daten sind in der Regel unstrukturiert. Es handelt sich dabei um große Datenmengen, von denen sich ein Teil in eine strukturierte Form bringen lässt. Ein Großteil bleibt jedoch nach wie vor unstrukturiert. Die Verwaltung, Speicherung und Verarbeitung der unstrukturierten Daten stellt viele Unternehmen vor große Herausforderungen, da die herkömmlichen Verarbeitungsprogramme und Datenbanken hierfür nicht nutzbar sind.

Die Speicherung der Daten kann jedoch aus vielerlei Hinsicht wie beispielsweise aufgrund von Compliance-Vorgaben erforderlich sein. Um die Daten nicht einfach nur in digitaler Form zu speichern, sondern sie analysierbar zu machen, kommen Verfahren wie die Text- und Spracherkennung zum Einsatz. Die Daten sind anschließend zumindest nach bestimmten Schlüsselbegriffen durchsuchbar.

Herausforderungen und Lösungen

Unstrukturierte Daten stellen Unternehmen und Softwarelösungen vor folgende Herausforderungen:

  • riesige Datenmengen sind in nicht relationaler Form zu speichern und für die weitere Verarbeitung bereitzustellen
  • Daten aus den unterschiedlichsten Quellen und in verschiedenster Form sind für die Informationsgewinnung so zu verarbeiten und zu speichern, dass Anwendungen auf die Daten performant zugreifen können
  • die Speicherung und Verarbeitung der Daten muss in hoher Geschwindigkeit, teilweise in Echtzeit erfolgen

Sollen die Herausforderungen gemeistert werden, muss die Technik für die riesigen unstrukturierten Datenmengen entsprechende Lösungen bieten, da herkömmliche Datenverwaltungsprozesse nicht für die Verarbeitung von heterogenen Daten in diesem Mengen ausgelegt sind. Es kommen verteilte Infrastrukturen zum Einsatz, die Aufgaben parallelisieren und auf verschiedene Servercluster verteilen. Die Datenspeicher sind in der Lage, große Datenmengen aufzunehmen und beherrschen Techniken oder intelligente Funktionen diese zu reduzieren. Das kann zum Beispiel durch Kompression oder das automatische Erkennen von Datendubletten erfolgen.

Im Hintergrund arbeitet eine performante Netzwerkinfrastruktur, die große Datensätze schnell an andere Knoten weiterreichen kann. Implementierte Sicherheitsfunktionen schützen die Daten in der verteilten Infrastruktur. Durch die Nutzung verteilter Datenspeicher, parallelisierte Prozesse und über das Netzwerk ansprechbare Ressourcen skaliert die komplette Architektur sehr gut und ist für große Datenmengen in unstrukturierter Form geeignet. Eine etablierte Lösung in diesem Umfeld ist Apache Hadoop. Es handelt sich um ein Open Source Framework, das die Verarbeitung umfangreicher Datensätze auf einer Cluster-basierten Struktur ermöglicht. Im Vergleich zu herkömmlichen Ansätzen bietet Hadoop eine bessere Kosteneffizienz und mehr Leistung im Umgang mit vielen unstrukturierten Datensätzen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

5 Hürden bei der Datenintegration und bewährte Lösungen

Kommentar von Stefan Müller, IT-Novum

5 Hürden bei der Datenintegration und bewährte Lösungen

Unternehmen, die ihre Daten nicht für die Geschäftsausrichtung nutzen können, werden dem Wettbewerbsdruck nicht standhalten können. Doch Daten liegen in unterschiedlichen Formaten vor und an verschiedensten Stellen im und außerhalb des Unternehmens. Zudem sind oft nur zu einem geringen Grad miteinander verknüpft. Dabei ist eine tiefgehende Datenintegration die zwingende Voraussetzung, um Daten sinnvoll zu nutzen lesen

6 typische Fehlannahmen bei der Robotic Process Automation

Kommentar von Chris Huff, Kofax

6 typische Fehlannahmen bei der Robotic Process Automation

Obwohl der Vorteil von Robotic Process Automation (RPA) darin besteht, wiederkehrende, wertschöpfungsarme Aufgaben zu automatisieren, glauben viele Unternehmen, dass sich mit dieser Technologie selbst komplexeste Business Process Management (BPM)-Tätigkeiten automatisieren lassen. Dafür gibt es allerdings deutlich geeignetere Lösungen. Welche weiteren Irrtümer Unternehmen hinsichtlich RPA-Lösungen unterliegen, verdeutlicht folgende Übersicht. lesen

Robotic Process Automation erledigt Routinearbeit

UiPath Together Munich

Robotic Process Automation erledigt Routinearbeit

UiPath ist eigenen Angaben zufolge laut Forrester Wave zum Thema RPA aus dem 2. Quartal 2018 weltweit führend auf dem Markt der Robotic Process Automation. In Deutschland ist das Unternehmen seit zwei Jahren mit inzwischen fünf Niederlassungen und derzeit ungefähr hundert Mitarbeitern vertreten. Zur Region Zentraleuropa gehört neben Deutschland, Österreich und der Schweiz auch noch Polen. lesen

„Jedes Unternehmen hat erfolgreiche KI-Projekte“

Interview mit Volker Tresp, Siemens

„Jedes Unternehmen hat erfolgreiche KI-Projekte“

BigData-Insider sprach mit Volker Tresp, Distinguished Research Scientist bei Siemens, über seine Erfahrungen mit praktischen Anwendungsfällen und in welchen Bereichen er die vielversprechendsten Entwicklungen der Künstlichen Intelligenz sieht. lesen

Warum NoSQL-Datenbanken unverzichtbar sind

Couchbase nennt fünf Trends

Warum NoSQL-Datenbanken unverzichtbar sind

Klassische relationale Datenbanken werden den Anforderungen am Markt nicht mehr gerecht, meint Couchbase. Der NoSQL-Spezialist nennt fünf Trends, die den Einsatz moderner Datenbanktechnologien erfordern. lesen

Welche Rolle spielt BI in der modernen Datenanalyse?

Kommentar von Thomas Strehlow, Oraylis

Welche Rolle spielt BI in der modernen Datenanalyse?

Im Zuge der rasanten technischen Entwicklung werden konventionelle Ansätze der Datenanalyse zunehmend in Frage gestellt. Anlass hierzu geben unter anderem diverse Business-Intelligence-„Mythen“, die sich inzwischen als gültige Wahrheiten verbreiten. Demnach hat beispielsweise das Data Warehouse ausgedient. Auch die Datenqualität scheint durch einen angedachten Verzicht auf Datenmodellierung und Single Point of Truth an Relevanz zu verlieren. Der konkrete Blick in den Projektalltag führt indes ein anderes Bild zu Tage. lesen

Cloudera und Hortonworks vereinigen ihre Datenplattformen

Nachbericht DataWorks Summit Barcelona

Cloudera und Hortonworks vereinigen ihre Datenplattformen

Auf der diesjährigen DataWorks-Konferenz in Barcelona traten Cloudera und Hortonworks erstmals gemeinsam auf. Im Januar 2019 hatten beide auf Data Science und Big Data spezialisierten Anbieter ihren Zusammenschluss vollzogen. Als ein Ergebnis wird demnächst die neue Enterprise Data Cloud eingeführt, die vollständig auf Open Source basiert. lesen

Automation Anywhere erweitert IQ Bot 6.5

Robotic Process Automation (RPA) mit KI

Automation Anywhere erweitert IQ Bot 6.5

Der RPA-Spezialist Automation Anywhere ergänzt seine KI-Lösung IQ Bot 6.5 um zusätzliche Funktionen. Sie sollen Anwender von der alltäglichen Datenerfassung in Unternehmensanwendungen entlasten. lesen

Mit Augmented Intelligence zu höherer Kundenzufriedenheit

Kommentar von Dr. Dorian Selz, Squirro

Mit Augmented Intelligence zu höherer Kundenzufriedenheit

Banken und Versicherungen verfügen über mehr Daten über Kunden denn je. Die Kunst besteht darin, diesen Datenschatz zu heben und handlungsrelevante Einblicke in das Verhalten sowie die Wünsche der Kunden zu gewinnen. Das gelingt mithilfe von Augmented Intelligence, zu deutsch „erweiterte Intelligenz“. Sie kombiniert menschliche Intelligenz mit KI und verwandelt Banken und Versicherungen in zukunftssichere, datengesteuerte Unternehmen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45027999 / Definitionen)