Zukunft von Labordaten

Big Data? Clean Data!

| Autor / Redakteur: Florian Hauer* / Nico Litzel

Abb.1: Der optimale Nutzen von Labordaten lässt sich nur dann erschließen, wenn diese „sauber“ sind.
Bildergalerie: 3 Bilder
Abb.1: Der optimale Nutzen von Labordaten lässt sich nur dann erschließen, wenn diese „sauber“ sind. (Bild: Labfolder)

Jeden Tag generieren Anwender im Labor Terabyte-große Datenmengen. Doch nicht nur diese können für die Entwicklung eingesetzt werden. Was geschieht mit den Alt-Daten, die auf Festplatten schlummern? Welche Voraussetzungen müssen sie erfüllen, um optimal eingesetzt werden zu können?

Es ist das ultimative Ziel der Wissenschaft: Daten so intelligent zu verknüpfen und zu nutzen, dass aus alten Daten neue Werte geschaffen werden können. So könnten solche alten Daten zur Optimierung von Forschungs- und Produktionsprozessen genutzt werden. Sogar neue Forschungsergebnisse und Anwendungen könnten so aus Bestandsdaten generiert werden. Trotz aller Versprechungen müssen wir allerdings ehrlich sein: In den meisten Laboren sind Big-Data-Anwendungen mit allen ihren Vorteilen noch weit von der Anwendungsrealität entfernt.

In den meisten Laboren ist das Datenmanagement vor allem darauf ausgerichtet, Compliance gegenüber Richtlinien und internationalen Qualitätsmanagementsystemen zu erreichen oder Auftragsarbeiten nach Kundenwunsch zu dokumentieren. Eine gezielte Standardisierung oder Aufbereitung der Daten für eine spätere Anwendung für Big-Data-Metaanalysen findet nur in den seltensten Fällen statt. Dadurch sammeln sich über Jahrzehnte zwar beträchtliche Datenberge an. Gewinnbringend nutzbar sind diese jedoch nur in den wenigsten Fällen.

Künstliche Intelligenz auf dem Vormarsch

Dass große Datenmengen ungeheuer wertvoll sein können, zeigt sich insbesondere im aktuellen Trend der künstlichen Intelligenz: Neue Deep-Learning-Methoden haben in letzter Zeit bahnbrechende Erfolge in der Klassifizierung von Daten und im Machine Learning erzielt. So werden Aufgaben wie die Klassifizierung von komplexen Datensätzen, Bild- und Spracherkennung sowie -bearbeitung und Übersetzung teilweise mit einer Genauigkeit gelöst, die menschliche Experten deutlich übertrifft. Auch in der Bioinformatik werden mit Deep-Learning-Algorithmen immer neue Erfolge erzielt: Von der Voraussage von Strukturen, Interaktions- und Bindungsmustern von Biomolekülen aller Gattungen, Gensequenzanalysen, Toxizitätsvoraussagen und komplexen Bildanalysen von Mikroskopiebildern und medizinischen Bilddaten sind die Anwendungsmöglichkeiten scheinbar unbegrenzt.

So haben neuronale Netze und Deep Learning nach einem langen Winter einen neuen Frühling der Künstlichen-Intelligenz-Forschung (KI) eingeleitet.

Doch warum sind sie so erfolgreich? Neuronale Netzwerke sind einem vereinfachten Modell des Gehirns nachempfunden: Informationen werden durch ein mehrschichtiges Neuronenmodell geführt, dieses „lernt“, welche Verbindungen auf welcher Ebene – und damit welche Abstraktionsmodelle – zur Repräsentation der Klassen oder der Bedeutung eines Datensatzes besonders hilfreich sind. So können in einem selbstlernenden System Zusammenhänge herausgearbeitet werden, die konventionellen Analysen unter Umständen verborgen bleiben.

Allerdings funktionieren diese Algorithmen in der Regel nur mit einer großen Menge von preklassifizierten („gelabelten“) Daten. Allein mit großen Datenmengen lassen sich auch in den klassischen Data Sciences, die Zusammenhänge nicht mit Deep Learning, sondern mit Korrelationsanalysen und Heuristiken ausfindig machen, keine Erfolge erzielen. Datenmengen müssen nicht nur groß, sondern auch „sauber“ sein – ohne Clean Data kein Big Data.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44981176 / Analytics)