Definition

Was ist Data Mining?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Data Mining ist die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Zur Wissensentdeckung eingesetzte Algorithmen basieren unter anderem auf statistischen Methoden.

Data Mining ist interdisziplinär und nutzt Erkenntnisse aus den Bereichen der Informatik, Mathematik und Statistik zur rechnergestützten Analyse von Datenbeständen. Es kommen unter anderem Verfahren der künstlichen Intelligenz zum Einsatz, um große Datenbestände hinsichtlich neuer Querverbindungen, Trends oder Muster zu untersuchen. Oft wird der Begriff Data Mining synonym zu „Knowledge Discovery in Databases“ (im Deutschen „Wissensentdeckung in Datenbanken“) verwendet, obwohl es sich im eigentlichen Sinn nur um einen Teilbereich der Knowledge Discovery in Databases handelt. Data Mining extrahiert die Zusammenhänge automatisch und stellt sie übergeordneten Zielen zur Verfügung. Die erkannten Muster können dazu beitragen, die Entscheidungsfindung bei bestimmten Problemen zu erleichtern.

Aufgaben des Data Minings

Die für das Data Mining angewandten Methoden haben jeweils definierte Ziele und werden einzelnen Aufgaben zugeordnet. Diese Aufgaben lassen sich beispielsweise in folgende Einzelbereiche aufteilen:

  • Klassifikation
  • Segmentierung
  • Prognose
  • Abhängigkeitsanalyse
  • Abweichungsanalyse

Die Klassifikation ordnet bestimmte Klassen einzelnen Datenobjekten zu. Bei der Segmentierung werden Objekte mit gemeinsamen Merkmalen zu Gruppen zusammengefasst. Alle Objekte einer Gruppe sollen dadurch möglichst homogen sein. Als Prognose bezeichnet man die Vorhersage von bisher unbekannten Merkmalen auf Basis von anderen Merkmalen oder zuvor gewonnener Erkenntnisse. Mit der Abhängigkeitsanalyse lassen sich Beziehungen zwischen einzelnen Merkmalen eines Objekts oder zwischen verschiedenen Objekten finden. Die Abweichungsanalyse schließlich identifiziert Objekte, die den Regeln der Abhängigkeiten anderer Objekte nicht entsprechen. Dadurch lassen sich die Ursachen für die Abweichungen finden.

Data Mining und Big Data

Oft werden die Begriffe Big Data und Data Mining im gleichen Kontext verwendet. Es ist jedoch wichtig, die beiden Begriffe sauber voneinander zu trennen. Big Data befasst sich mit besonders großen Datenmengen, die sich mit den herkömmlichen Methoden und Tools nicht effizient und in vertretbarem zeitlichem Rahmen verarbeiten lassen. Data Mining kommt zwar häufig bei großen Datenmengen zum Einsatz, ist aber nicht auf Big Data beschränkt. Das Data Mining beschreibt den eigentlichen Vorgang der Analyse von Daten in Bezug auf relevante Zusammenhänge und Erkenntnisse und kann auch auf kleiner Datenbasis zur Anwendung kommen. Während Big Data große Datenmengen liefert und die geeignete technische Plattform für eine effiziente Verarbeitung zur Verfügung stellt, kümmert sich das Data Mining um den eigentlichen Vorgang der Gewinnung von Erkenntnissen aus den vorliegenden Daten. Data Mining verwendet hierfür Algorithmen aus der Statistik und Verfahren der künstlichen Intelligenz. Durch die enormen Fortschritte im Bereich der Big-Data-Technologien sowie günstigerer und leistungsfähigerer Hardware für die Nutzung von umfangreichen strukturierten und unstrukturierten Datenmengen können Data Mining und Big Data immer bessere Ergebnisse mit höherer Relevanz liefern.

Anwendungsbeispiele für das Data Mining

Data Mining kommt schon heute in vielen Bereichen zum Einsatz und bietet enorme Anwendungspotenziale für die Zukunft. Anwendungen sind beispielsweise im Marketing, im Finanz- und Versicherungswesen, im Onlinehandel, in der Verbrechensbekämpfung oder in der Medizin zu finden. Branchenübergreifend sind die Anwendungen im Marketing und im Customer Relationship Management (CRM). Banken und Versicherungen nutzen Data Mining, um Risikoanalysen durchzuführen. Im Handel ermöglicht das Data Mining, das Kaufverhalten von Kunden zu analysieren und zwischen zahlungsfähigen und zahlungsunfähigen Kunden zu unterscheiden.

Text Mining als Sonderform des Data Mining

Das sogenannte Text Mining stellt eine Sonderform des Data Minings dar. Es teilt die grundsätzlichen Verfahren des Data Minings zur Informationsgewinnung, wird aber nicht auf strukturierte Daten, sondern auf hauptsächlich unstrukturierte Textdaten angewandt. Mithilfe des Text Minings lässt sich Wissen aus Textdaten extrahieren. Dem Anwender werden automatisch die Kernaussagen von großen Textmengen geliefert, ohne dass ein detailliertes Befassen mit den einzelnen Texten notwendig ist. Beispielsweise können große Mengen von Fachartikeln mit dem Text Mining nach Informationen untersucht werden, die für eigene Projekte von Relevanz sind. Da ein hoher Prozentsatz aller Informationen in einem Unternehmen in Textform vorliegt, stellt das Text Mining eine wichtige und nicht zu unterschätzende Sonderform des Data Minings dar.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Die Sportwelt profitiert von intelligenter Analytik

Big-Data-Analysen im Sport

Die Sportwelt profitiert von intelligenter Analytik

Die drei Analytik-Anbieter SAS, Exasol und Amazon Web Services haben den Sport als Wachstumsmarkt entdeckt. Zudem sind Organisationen wie die Deutsche Bundesliga auf Innovationen bei ihren Zuschauerangeboten angewiesen, um konkurrenzfähig zu bleiben. Mit den Lösungen der drei Anbieter reicht das Angebot von der einfachen Sportgrafik bis hin zu KI-basierten Angaben und Vorhersagen, die in Echtzeit angezeigt werden. lesen

Data-Mining-Projekt lädt zum „Tag der digitalen Wertschöpfung“

Veranstaltung in Leipzig

Data-Mining-Projekt lädt zum „Tag der digitalen Wertschöpfung“

Das Projekt Data Mining und Wertschöpfung lädt am 17. März nach Leipzig ein. Dort findet der „Tag der digitalen Wertschöpfung“ statt, der verschiedene Fachvorträge und Workshops umfasst. lesen

„Artifical Intelligence and Microlearning“

ETIM-Kongress 2020

„Artifical Intelligence and Microlearning“

Die Universitätsmedizin Essen (UME) und die Medizinische Fakultät der Universität Duisburg-Essen laden am 28. und 29. Februar 2020 Ärzte, Informatiker, Ingenieure, Wissenschaftler und andere Experten ein, um über den technologischen Fortschritt im Gesundheitswesen zu sprechen. Die Topthemen sind: Welche Aufgabe übernehmen Künstliche Intelligenz (KI), Microlearning, Big Data und Robotik im interdisziplinär agierenden Krankenhaus? Wo wird heute schon was wie eingesetzt? lesen

Process Mining erkennt Schwachstellen in Prozessen

Kommentar von Gerrit de Veer, Signavio

Process Mining erkennt Schwachstellen in Prozessen

Geschäftsprozesse bestehen aus sorgfältig zusammengestellten Elementen, Ressourcen und Werkzeugen. Mit Process Mining lässt sich herausfinden, warum bei manch einem Unternehmensprozess anscheinend ein Haar in der Suppe ist. lesen

Process Mining – optimale Transparenz für komplexe Geschäftsprozesse

Kommentar von Sandro Pedretti, Adesso

Process Mining – optimale Transparenz für komplexe Geschäftsprozesse

Process Mining analysiert, rekonstruiert und visualisiert sämtliche in IT-Systemen gespeicherten Prozessspuren und bringt größtmögliche Transparenz in Unternehmensprozesse. lesen

Großes Interesse an Künstlicher Intelligenz und Data Science

Nachbericht EGG-Konferenz in Stuttgart

Großes Interesse an Künstlicher Intelligenz und Data Science

In Stuttgart haben sich auf der EGG-Konferenz Interessenten für Künstliche Intelligenz (KI) und Data Science zum Meinungsaustausch getroffen. Dataiku der französische Anbieter einer kollaborativen Data-Science-Plattform, war der Veranstalter und enthüllte seine Produktplanung bis 2020. lesen

So funktioniert Process Mining mit Microsoft Power BI

Kommentar von Nils Reger, AppSphere

So funktioniert Process Mining mit Microsoft Power BI

Die Analyse von Daten und insbesondere Prozessdaten wird zunehmend wichtiger. Der Begriff des sogenannten „Process Minings“ wurde unter anderem von Wil van der Aalst als Brücke zwischen der traditionellen, modellbasierten Prozessanalyse und datenzentrierten Analyseverfahren wie Machine Learning und Data-Mining-Techniken definiert. Das Ziel: prozessrelevante Informationen zu extrahieren, zu visualisieren und so Optimierungspotenziale in Prozessen aufzudecken. lesen

So wird Künstliche Intelligenz vertrauenswürdig

Trusted AI

So wird Künstliche Intelligenz vertrauenswürdig

Mit der Ausbreitung von KI-Anwendungen stellen sich Schöpfern wie Benutzern zwei zentrale Fragen: Was befindet sich in der Black Box, die den Algorithmus und das Deep-Learning-Modell verbirgt? Und zweitens: Wie lässt sich sicherstellen, dass kein Unbefugter diese Software für seine Zwecke manipuliert hat? Manche KI-Hersteller und -Berater haben darauf bereits eine Antwort. lesen

Die größten Herausforderungen beim Outsourcen von Big-Data-Projekten

Kommentar von Dr. Robert Grünwald, Novustat

Die größten Herausforderungen beim Outsourcen von Big-Data-Projekten

Die Notwendigkeit von Data Science für Unternehmen ist unumstritten. Gleichwohl können Auswertungen oft nicht vom Anwender durchgeführt werden: Sei es aufgrund fehlender zeitlicher oder personeller Ressourcen, ungenügender Ausstattung oder dem Fehlen tiefergreifender Kenntnisse von Data Analytics. Viele Anwender suchen daher professionelle Unterstützung bei einer Data-Science-Beratung lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44596623 / Definitionen)