Definition Was sind Rohdaten?
Rohdaten sind ungeprüfte und unbearbeitete Daten, wie sie von einer Datenquelle geliefert werden. Sie liegen in dem Format vor, wie es von der jeweiligen Datenquelle bereitgestellt wird. Für gewöhnlich werden die Rohdaten zur Nutzung in weiteren Anwendungen oder Prozessen mithilfe verschiedener Techniken und Methoden aufbereitet.
Anbieter zum Thema

Alternative Begriffe für Rohdaten sind Primärdaten oder Urdaten. Es handelt sich um Daten, die noch ungeprüft und unbearbeitet sind. Sie besitzen das Format, das die jeweilige Datenquelle bereitstellt. Rohdaten sind in der Regel unkomprimiert und können fehlerhaft sein. Für die Nutzung in den weiteren Prozessen oder Anwendungen findet meist eine Aufbereitung der Rohdaten statt. Es kommen verschiedene Techniken und Methoden zum Einsatz wie die Validierung, Fehlerkorrektur, Formatierung, Komprimierung, Transformation, Gewichtung, Anreicherung mit Metadaten oder Anonymisierung.
Werden Rohdaten ohne Aufbereitung verwendet, sind die Ergebnisse unter Umständen fehlerhaft oder unspezifisch. Das Speichern der Rohdaten kann je nach Format strukturiert oder unstrukturiert in einer relationalen Datenbank, einer NoSQL-Datenbank oder in einem Data Lake erfolgen. Datenquellen, die Rohdaten liefern, sind beispielsweise Messgeräte, Online-Erhebungen, Umfragen oder digitale Fotoapparate.
Rohdaten und die digitale Fotografie
In der digitalen Fotografie ist ebenfalls oft von Rohdaten beziehungsweise vom Rohdatenformat (RAW-Format) die Rede. Im RAW-Format liegen die digitalen Bilddaten so vor, wie sie der digitale Sensor der Kamera liefert. Die Daten sind weder komprimiert noch wurde eine Anpassung des Farbraums oder der Dynamik vorgenommen. Ein Bild im RAW-Format benötigt wesentlich mehr Speicherplatz als ein Bild in einem verarbeiteten Format wie beispielsweise im JPG-Format. Professionelle Fotografen arbeiten gerne mit dem RAW-Format, da noch keine Interpretation des Bildmaterials durch die Kamerasoftware stattgefunden hat und sich wesentlich mehr Möglichkeiten zur Bildbearbeitung bieten. Die Bilder lassen sich quasi digital entwickeln. Die weiteren Abschnitte diese Textes beziehen sich nicht auf das RAW-Format digitaler Fotoapparate, sondern auf die Rohdaten im Sinne von Primärdaten oder Urdaten.
Rohdaten sind ungeprüft und können fehlerhaft oder noch nicht bereinigt sein. Nutzen Anwendungen oder Prozesse die Rohdaten und fehlen entsprechende Aufbereitungs- und Validierungsmaßnahmen, kann dies zu verfälschten Ergebnissen und Aussagen führen. Zwar sind in den Rohdaten alle benötigten Informationen prinzipiell vorhanden, doch müssen vor der Weiterverarbeitung der Daten in der Regel Techniken zur Aufbereitung, Organisation und Formatierung angewandt werden. Häufig angewandte Aufbereitungstechniken und -verfahren sind:
- Anonymisierung der Daten
- Beseitigung von Datendubletten
- Beseitigung von Daten außerhalb des gültigen Wertebereichs
- Plausibilitätsprüfung der Daten
- Prüfung auf fehlende Daten
- Transformation der Daten
- Formatierung der Daten
- Normalisierung der Daten
- Gewichtung der Daten
- Anreicherung der Daten mit Meta-Informationen
Bei der Anonymisierung der Daten werden alle Merkmale beseitigt, durch deren Auswertung Rückverfolgungsmöglichkeiten bestehen und ein Bezug zu bestimmten Personen herstellbar ist. Durch die Anonymisierung lassen sich beispielsweise der Persönlichkeitsschutz und die Einhaltung einiger Vorgaben der Datenschutzgrundverordnung sicherstellen.
Die Gewichtung wertet die Rohdaten einer bestimmten Datenquelle oder eines definierten Geltungsbereichs auf, um unterschiedliche Ausgangsbedingungen beispielsweise für statistische Auswertungen anzugleichen.
Die Anreicherung der Daten mit Meta-Informationen stattet die Rohdaten, die beispielsweise aus einfachen Messwerten bestehen, mit Zusatzinformationen wie der Angabe der Einheit oder mit beschreibenden Informationen an. Die Rohdaten erhalten dadurch erst ihre eigentliche Bedeutung.
Rohdaten im Big-Data-Umfeld
Heutige Anwendungen aus dem Big-Data-Umfeld erheben, speichern und analysieren riesige Datenmengen. Speicherkonzepte wie das Data Warehouse oder der Data Lake erlauben nahezu beliebige Datenmengen zu speichern. Ein Data Lake kann im Gegensatz zum Data Warehouse die Rohdaten, so wie sie von den Datenquellen geliefert werden, aufnehmen und für Analysen bereithalten. Eine Speicherung der Daten im Rohformat, ohne dass vorher eine Formatierung und Strukturierung stattfindet, ermöglicht ein sehr schnelles ressourcenschonendes Speichern. Selbst für das Speichern großer Datenmengen sind die Anforderungen an die Rechenleistung niedrig.
Da der Data Lake die Daten im ursprünglichen Format bereithält, ist er im Vergleich zum Data Warehouse wesentlich flexibler und bietet mehr Auswertungsmöglichkeiten. Verändern sich Anforderungen, lassen sich die Rohdaten dementsprechend anpassen. Es spielt für die Speicherung der Daten keine Rolle, ob sie zum Zeitpunkt der Speicherung für spätere Analysen relevant sind. Findet zu einem späteren Zeitpunkt eine Analyse statt, werden die benötigten Rohdaten so aufbereitet, dass sie die Analyseanforderungen erfüllen. Die Rohdaten sind in neue Formate überführbar und mit aktuellen Methoden analysierbar.
(ID:46493949)