Definition

Was ist CRISP-DM?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

CRISP-DM (Cross Industry Standard Process for Data Mining) ist ein von der EU gefördertes, branchenübergreifendes Standardmodell für das Data Mining. Es wurde 1996 unter Mitarbeit zahlreicher namhafter Konzerne entwickelt und definiert insgesamt sechs verschiedene Prozessphasen. CRISP-DM ist anwendungsneutral und in beliebigen Bereichen einsetzbar.

Die Abkürzung CRISP-DM steht für die englische Bezeichnung „Cross Industry Standard Process for Data Mining“. Es handelt sich um ein standardisiertes Prozessmodell, das für das Data Mining anwendbar ist, um Datenbestände nach Mustern, Trends und Zusammenhängen zu durchsuchen. Hierfür definiert der Standard sechs verschiedene Phasen, die ein- oder mehrfach zu durchlaufen sind.

Das Modell ist branchenübergreifend nutzbar und steht allgemein zur Verfügung. Entstanden ist es 1996 auf Basis eines von der EU geförderten Projekts. Ziel war es, eine einheitliche Methode für das zu dieser Zeit nicht eindeutig definierte Data Mining bereitzustellen und zu dokumentieren. An der Entwicklung von CRISP-DM waren namhafte Unternehmen und Institutionen wie NCR Dänemark, die Daimler-Benz AG, Integral Solutions Ltd (ISL), Teradata und OHRA beteiligt. Die EU-Förderung fand im Rahmen von ESPRIT (European Strategic Programme on Research in Information Technology) statt. Die erste Version des Modells wurde 1999 beim CRISP-DM SIG Workshop in Brüssel vorgestellt. Noch im selben Jahr erschien eine Schritt-für-Schritt-Anleitung für das Data Mining.

CRISP-DM hat sich weltweit etabliert und gehört zu den am häufigsten in diesem Umfeld eingesetzten Modellen. Zum Erfolg von CRISP-DM trägt bei, dass es sich um ein anerkanntes, hersteller- und applikationsneutrales Tool für die industrielle Verwendung handelt. In den Jahren 2006 bis 2008 formierte sich die CRISP-DM 2.0 SIG mit dem Ziel, das Prozessmodell zu überarbeiten. 2018 veröffentlichte IBM ein neues Standardmodell für Data Mining mit dem Namen ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics). Es kann als eine Art Erweiterung und Überarbeitung von CRISP-DM betrachtet werden. Nach wie vor findet jedoch CRISP-DM in vielen Bereichen Verwendung.

Die Ziele von CRISP-DM

Die Ziele von CRISP-DM sind, kurz zusammengefasst, folgende:

  • Bereitstellung eines einheitlichen Prozessmodells für das Data Mining
  • Anwendungs- und Herstellerneutralität
  • branchenübergreifende Nutzung
  • Bereitstellung einer Schritt-für-Schritt Anleitung für das Data Mining

Die wesentlichen Merkmale des CRISP-DM-Standards

Wesentliche Merkmale des CRISP-DM-Standards sind:

  • von der EU gefördert
  • von namhaften Unternehmen erarbeitet (über 200 Mitglieder in der CRISP-DM Special Interest Group)
  • als Industriestandard konzipiert
  • offener weltweit nutzbarer Standard

Die sechs Phasen in einem Data-Mining-Projekt

Cross Industry Standard Process for Data Mining definiert insgesamt sechs einzelne Phasen, die es in einem Data-Mining-Projekt zu durchlaufen gilt. Es handelt sich allerdings nicht um einen einmaligen, linearen Durchlauf, denn die einzelnen Phasen können sich mehrfach wiederholen oder es ist ein mehrfaches Wechseln zwischen verschiedenen Phasen notwendig. Je nach den von einzelnen Phasen gelieferten Ergebnissen kann es erforderlich sein, in eine frühere Phase zurückzuspringen oder die gleiche Phase erneut zu durchlaufen. Die sechs Prozessphasen sind:

  • 1. das Geschäftsverständnis (Englisch: Business Understanding)
  • 2. das Datenverständnis (Englisch: Data Understanding)
  • 3. die Datenvorbereitung (Englisch: Data Preparation)
  • 4. die Modellierung (Englisch: Modeling)
  • 5. die Evaluierung (Englisch: Evaluation)
  • 6. die Bereitstellung (Englisch: Deployment)

Im Folgenden eine kurze Beschreibung der einzelnen Phasen des CRISP-DM-Standardmodells:

Business Understanding: In der Phase des Geschäftsverständnisses geht es darum, die konkreten Ziele und Anforderungen für das Data Mining festzulegen. Ergebnis dieser Phase ist die Formulierung der Aufgabenstellung und die Beschreibung der geplanten groben Vorgehensweise.

Data Understanding: Im Rahmen des Datenverständnisses wird versucht, sich einen ersten Überblick über die zur Verfügung stehenden Daten und deren Qualität zu verschaffen. Es erfolgt eine Analyse und Bewertung der Datenqualität. Probleme mit der Qualität der vorhandenen Daten in Bezug auf die in der vorherigen Phase festgelegten Aufgabenstellung sind zu benennen.

Data Preparation: Die Datenvorbereitung dient dazu, einen finalen Datensatz zu erstellen, der die Basis für die nächste Phase der Modellierung bildet.

Modeling: Im Rahmen der Modellierung werden die für die Aufgabenstellung geeigneten Methoden des Data Minings auf den in der Datenvorbereitung erstellten Datensatz angewandt. Typisch für diese Phase sind die Optimierung der Parameter und die Erstellung mehrerer Modelle.

Evaluation: Die Evaluierung sorgt für einen exakten Abgleich der erstellten Datenmodelle mit der Aufgabenstellung und wählt das am besten passende Modell aus.

Deployment: Die letzte Phase des Cross Industry Standard Process for Data Mining ist die Evaluierung. In dieser Phase werden die gewonnenen Ergebnisse aufbereitet, um sie zu präsentieren und dem Entscheidungsprozess des Auftraggebers zuzuführen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Preventive Maintenance – Fehlerprognose mit Machine Learning

Kommentar von Dr. Olaf Nimz, Trivadis

Preventive Maintenance – Fehlerprognose mit Machine Learning

Die Entscheidung, Maschinenteile vorsorglich auszutauschen oder Maschinen erst nach einem Schaden zu reparieren, erfordert von Betreibern von Industrieanlagen und Prozessverantwortlichen eine sorgfältige Kosten-Nutzen-Abwägung. Ist genauer vorhersehbar, wann ein Teil ausfällt, könnten Wartung und Instandhaltung im Hinblick auf planbare und kürzere Stillstandszeiten optimiert werden. lesen

So orchestrieren Sie den Machine Learning Workflow

Kommentar von Dominik Claßen, Pentaho

So orchestrieren Sie den Machine Learning Workflow

Machine Learning boomt und dieser Boom ist mitnichten ein Silicon-Valley Marketing Hype, sondern für viele deutschen Unternehmen bereits Realität. Laut CRISP Research wird Machine Learning von einem Gros der Unternehmen hierzulande produktiv eingesetzt, was auch unsere Erfahrung widerspiegelt. lesen

So wird der Data Lake eine sprudelnde Informationsquelle

Big-Data-Strategie

So wird der Data Lake eine sprudelnde Informationsquelle

Das Trendthema Big Data steht auf der Prioritätenliste vieler IT-Entscheider mittlerweile weit oben – und das zu Recht. Kein Unternehmen kann es sich langfristig leisten, auf Erkenntnisse durch intelligente Datenauswertung zu verzichten. Gehört haben die Verantwortlichen über Big Data schon viel, jetzt wollen sie endlich etwas davon haben. Aus dem Alltag eines Kunden-Beraters. lesen

Predictive Maintenance wird erwachsen

Kommentar von Dr.-Ing. Falko Guderian, T-Systems MMS

Predictive Maintenance wird erwachsen

Mit IoT können Unternehmen die Steuerungs- und Prozessdaten ihrer Produktionsanlagen immer kostengünstiger und flexibler in der Cloud speichern. Der Artikel betrachtet einen wichtigen Anwendungsfall mit diesen Produktionsdaten, die Störungsfrüherkennung und Störungsvermeidung. Repräsentativ für andere produktionsintensive Branchen wird hier die pharmazeutische Produktion als Anwendungsbereich betrachtet. lesen

Seminarreihe „Data Scientist“ vermittelt Fraunhofer-Know-how

Fachkräftemangel im Daten-Bergbau

Seminarreihe „Data Scientist“ vermittelt Fraunhofer-Know-how

Die meisten Unternehmen sind in Bezug auf Data Mining und Big Data nicht optimal aufgestellt. Grund hierfür sind unklare personelle Verantwortlichkeiten und fehlendes Know-how. Die Fraunhofer Academy bietet daher mit Partnern aus der Fraunhofer-Allianz Big Data eine umfangreiche Seminarreihe zum Thema Data Scientist an. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45834403 / Definitionen)