Suchen

Definition Was ist CRISP-DM?

| Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

(Bild: © aga7ta - stock.adobe.com)

Die Abkürzung CRISP-DM steht für die englische Bezeichnung „Cross Industry Standard Process for Data Mining“. Es handelt sich um ein standardisiertes Prozessmodell, das für das Data Mining anwendbar ist, um Datenbestände nach Mustern, Trends und Zusammenhängen zu durchsuchen. Hierfür definiert der Standard sechs verschiedene Phasen, die ein- oder mehrfach zu durchlaufen sind.

Das Modell ist branchenübergreifend nutzbar und steht allgemein zur Verfügung. Entstanden ist es 1996 auf Basis eines von der EU geförderten Projekts. Ziel war es, eine einheitliche Methode für das zu dieser Zeit nicht eindeutig definierte Data Mining bereitzustellen und zu dokumentieren. An der Entwicklung von CRISP-DM waren namhafte Unternehmen und Institutionen wie NCR Dänemark, die Daimler-Benz AG, Integral Solutions Ltd (ISL), Teradata und OHRA beteiligt. Die EU-Förderung fand im Rahmen von ESPRIT (European Strategic Programme on Research in Information Technology) statt. Die erste Version des Modells wurde 1999 beim CRISP-DM SIG Workshop in Brüssel vorgestellt. Noch im selben Jahr erschien eine Schritt-für-Schritt-Anleitung für das Data Mining.

CRISP-DM hat sich weltweit etabliert und gehört zu den am häufigsten in diesem Umfeld eingesetzten Modellen. Zum Erfolg von CRISP-DM trägt bei, dass es sich um ein anerkanntes, hersteller- und applikationsneutrales Tool für die industrielle Verwendung handelt. In den Jahren 2006 bis 2008 formierte sich die CRISP-DM 2.0 SIG mit dem Ziel, das Prozessmodell zu überarbeiten. 2018 veröffentlichte IBM ein neues Standardmodell für Data Mining mit dem Namen ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics). Es kann als eine Art Erweiterung und Überarbeitung von CRISP-DM betrachtet werden. Nach wie vor findet jedoch CRISP-DM in vielen Bereichen Verwendung.

Die Ziele von CRISP-DM

Die Ziele von CRISP-DM sind, kurz zusammengefasst, folgende:

  • Bereitstellung eines einheitlichen Prozessmodells für das Data Mining
  • Anwendungs- und Herstellerneutralität
  • branchenübergreifende Nutzung
  • Bereitstellung einer Schritt-für-Schritt Anleitung für das Data Mining

Die wesentlichen Merkmale des CRISP-DM-Standards

Wesentliche Merkmale des CRISP-DM-Standards sind:

  • von der EU gefördert
  • von namhaften Unternehmen erarbeitet (über 200 Mitglieder in der CRISP-DM Special Interest Group)
  • als Industriestandard konzipiert
  • offener weltweit nutzbarer Standard

Die sechs Phasen in einem Data-Mining-Projekt

Cross Industry Standard Process for Data Mining definiert insgesamt sechs einzelne Phasen, die es in einem Data-Mining-Projekt zu durchlaufen gilt. Es handelt sich allerdings nicht um einen einmaligen, linearen Durchlauf, denn die einzelnen Phasen können sich mehrfach wiederholen oder es ist ein mehrfaches Wechseln zwischen verschiedenen Phasen notwendig. Je nach den von einzelnen Phasen gelieferten Ergebnissen kann es erforderlich sein, in eine frühere Phase zurückzuspringen oder die gleiche Phase erneut zu durchlaufen. Die sechs Prozessphasen sind:

  • 1. das Geschäftsverständnis (Englisch: Business Understanding)
  • 2. das Datenverständnis (Englisch: Data Understanding)
  • 3. die Datenvorbereitung (Englisch: Data Preparation)
  • 4. die Modellierung (Englisch: Modeling)
  • 5. die Evaluierung (Englisch: Evaluation)
  • 6. die Bereitstellung (Englisch: Deployment)

Im Folgenden eine kurze Beschreibung der einzelnen Phasen des CRISP-DM-Standardmodells:

Business Understanding: In der Phase des Geschäftsverständnisses geht es darum, die konkreten Ziele und Anforderungen für das Data Mining festzulegen. Ergebnis dieser Phase ist die Formulierung der Aufgabenstellung und die Beschreibung der geplanten groben Vorgehensweise.

Data Understanding: Im Rahmen des Datenverständnisses wird versucht, sich einen ersten Überblick über die zur Verfügung stehenden Daten und deren Qualität zu verschaffen. Es erfolgt eine Analyse und Bewertung der Datenqualität. Probleme mit der Qualität der vorhandenen Daten in Bezug auf die in der vorherigen Phase festgelegten Aufgabenstellung sind zu benennen.

Data Preparation: Die Datenvorbereitung dient dazu, einen finalen Datensatz zu erstellen, der die Basis für die nächste Phase der Modellierung bildet.

Modeling: Im Rahmen der Modellierung werden die für die Aufgabenstellung geeigneten Methoden des Data Minings auf den in der Datenvorbereitung erstellten Datensatz angewandt. Typisch für diese Phase sind die Optimierung der Parameter und die Erstellung mehrerer Modelle.

Evaluation: Die Evaluierung sorgt für einen exakten Abgleich der erstellten Datenmodelle mit der Aufgabenstellung und wählt das am besten passende Modell aus.

Deployment: Die letzte Phase des Cross Industry Standard Process for Data Mining ist die Evaluierung. In dieser Phase werden die gewonnenen Ergebnisse aufbereitet, um sie zu präsentieren und dem Entscheidungsprozess des Auftraggebers zuzuführen.

(ID:45834403)

Über den Autor