Definition Was ist garbage in, garbage out?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

Anbieter zum Thema

„Garbage in, garbage out“ ist ein altbekannter Grundsatz der Datenverarbeitung. Er besagt, dass qualitativ minderwertige Eingabedaten bei einem Datenverarbeitungsvorgang zu schlechten Ergebnissen führen. Der Grundsatz hat auch im Bereich der Künstlichen Intelligenz und des Trainings von KI-Modellen Gültigkeit.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Der Begriff garbage in, garbage out lässt sich mit „Müll rein, Müll raus“ ins Deutsche übersetzen. Die Abkürzung lautet GIGO. Bei garbage in, garbage out handelt es sich um einen Grundsatz der Informatik und Datenverarbeitung. Die Entstehung des Begriffs reicht bis in die 1950er-Jahre zurück. Der US-Programmierer und Ausbilder George Fuechsel soll den GIGO-Grundsatz erstmals formuliert haben. GIGO besagt, dass die Qualität des Ergebnisses eines Datenverarbeitungsvorgangs direkt von der Qualität der Eingabedaten abhängt. Sind die Eingabedaten qualitativ minderwertig, hat das zur Folge, dass mit hoher Wahrscheinlichkeit falsche, ungenaue oder nicht verwendbare Ergebnisse generiert werden.

Der Begriff garbage in, garbage out wird verwendet, um auf die Bedeutung der Datenqualität für die Informationsverarbeitung hinzuweisen. Egal, wie gut eine Anwendung, ein Modell oder ein Algorithmus ist, sind die Eingabedaten schlecht, ist auch das Ergebnis schlecht, denn ein Computer kann nur das verarbeiten, was er als Eingabe erhält. Der GIGO-Grundsatz ist heute nicht mehr nur im IT-Bereich gebräuchlich. Er wird auch verwendet, wenn beispielsweise Menschen aufgrund falscher Informationen falsche Entscheidungen treffen.

Datenqualitätskriterien als entscheidende Faktoren für die Ergebnisqualität

Die Ergebnisqualität eines Datenverarbeitungsvorgangs hängt von verschiedenen Qualitätskriterien der Eingabedaten ab. Bei garbage in, garbage out werden häufig folgende Qualitätskriterien genannt:

  • Vollständigkeit: Die für den Datenverarbeitungsvorgang erforderlichen Daten müssen vorhanden sein und die notwendigen Attribute enthalten.
  • Nachvollziehbarkeit: Es muss nachvollziehbar sein, aus welchen Quellen die Daten stammen und wie sie entstanden sind.
  • Relevanz: Die Daten müssen für den jeweiligen Verwendungszweck relevant sein.
  • Aktualität: Die Daten sollen möglichst aktuell sein.
  • Repräsentativität: Die Daten sollen repräsentativ sein und die Wirklichkeit abbilden.
  • Korrektheit: Die Daten dürfen nicht falsch sein.
  • Genauigkeit: Die Daten sollen einen Sachverhalt so genau wie möglich abbilden.
  • Konsistenz: Die Daten müssen logisch konsistent sein und dürfen keine Widersprüche aufweisen.
  • Einzigartigkeit: Die Daten sollen keine Duplikate enthalten und einzigartig sein.

Anwendungsbereiche des Begriffs garbage in, garbage

Garbage in, garbage out ist ein in der Informatik gebräuchlicher Grundsatz, der in verschiedenen Datenverarbeitungsbereichen Anwendung findet. Typische und häufig genannte Anwendungsbereiche des GIGO-Grundsatzes sind die Datenanalyse, die datengestützte Entscheidungsfindung, die Künstliche Intelligenz (KI), das Maschinelle Lernen (ML), die Statistik und einige mehr. Neben der Informatik und der Datenverarbeitung wird garbage in, garbage out aber auch im nicht technischen Umfeld verwendet, beispielsweise wenn Menschen aufgrund falscher Informationen falsche Schlüsse ziehen oder falsche Entscheidungen treffen.

Strategien zur Vermeidung von garbage in, garbage out

Um garbage in, garbage out zu vermeiden, muss die Qualität der Eingabedaten stimmen. Es sind Data-Governance- und Data-Management-Strategien zu implementieren und entsprechende Maßnahmen zu ergreifen. Optimale Ergebnisse lassen sich erzielen, wenn die Datenqualität von Anfang an berücksichtigt wird. Das umfasst beispielsweise die Auswahl geeigneter und ausreichend diverser Datenquellen. Schon bei der Datenerfassung sollte auf die im vorigen Abschnitt genannten Datenqualitätskriterien wie Vollständigkeit, Aktualität, Korrektheit, Genauigkeit und andere geachtet werden. Lässt sich das nur begrenzt umsetzen und werden qualitativ minderwertige Daten erfasst, ist zur Vermeidung von GIGO vor ihrer weiteren Verarbeitung eine Bereinigung erforderlich.

Die Daten müssen geprüft werden, um existierende Qualitätsprobleme zu identifizieren. Aufgrund der riesigen Mengen an Daten, die heutzutage verarbeitet werden, lässt sich die Qualitätssicherung und Bereinigung der Daten kaum noch manuell durchführen, sondern erfolgt größtenteils automatisiert. Automatische Prozesse finden und entfernen beispielsweise Duplikate, Fehler oder veraltete Daten. Mehr und mehr setzen sich auch KI-gestützte Lösungen zur Identifizierung von Datenanomalien und zur Datenbereinigung durch. Als sinnvoll hat sich die Schulung und Sensibilisierung der Mitarbeiter hinsichtlich der Bedeutung der Datenqualität für korrekte Datenverarbeitungsergebnisse erwiesen. Mitarbeiter sollten die zu verarbeitenden Daten und die zustande gekommenen Ergebnisse immer kritisch hinterfragen.

Die Bedeutung von garbage in, garbage out für die Künstliche Intelligenz

Der Grundsatz garbage in, garbage out ist für die Künstliche Intelligenz und für moderne Deep-Learning-basierte KI-Modelle wie Sprach- oder Bildmodelle von großer Bedeutung. Die Qualität der Trainingsdaten solcher Modelle hat entscheidenden Einfluss auf die Effizienz, Genauigkeit und Zuverlässigkeit der von der KI generierten Ergebnisse und Vorhersagen. Mit minderwertigen Daten trainierte Modelle können unabhängig von der eigentlichen Leistungsfähigkeit und Qualität des KI-Modells und seiner Algorithmen nur schlechte oder unzuverlässige Ergebnisse oder Vorhersagen liefern.

Stimmt die Datenbasis der Modelle nicht, fangen sie unter Umständen an zu halluzinieren und Ergebnisse oder Vorhersagen zu erfinden. Doch die Qualität der Daten ist nicht nur für das Training von KI-Modellen von Bedeutung. In der Inferenz- und Nutzungsphase von KI-Modellen ist garbage in, garbage out ebenfalls zu beachten. Sind die Anweisungen (Prompts) an ein Modell ungenau oder enthalten sie qualitativ minderwertige Beispieldaten, beispielsweise bei der Prompting-Technik des Few-Shot-Promptings, liefert ein mit qualitativ hochwertigen Daten trainiertes Modell unter Umständen ebenfalls ungenaue oder falsche Ergebnisse. Der GIGO-Grundsatz gilt also sowohl für das Training als auch für das Prompting.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:50194205)