Kommentar von Robert Grünwald, Novustat

So hilft SPSS bei der Erforschung von Big Data

| Autor / Redakteur: Robert Grünwald / Nico Litzel

Der Autor: Robert Grünwald ist Inhaber und Geschäftsführer der Novustat Statistik-Beratung Grünwald
Der Autor: Robert Grünwald ist Inhaber und Geschäftsführer der Novustat Statistik-Beratung Grünwald (Bild: Novustat)

An vielen Stellen werden heute Daten erhoben und gesammelt, um aus ihnen weiter führende Erkenntnisse zu gewinnen. In diesem Kontext taucht in jüngerer Zeit immer wieder der Begriff „Big Data“ auf. Dabei geht es weniger um die Datenanalyse als solches, sondern um das Problem bzw. Phänomen, eine enorme Menge von Daten effizient und effektiv analysieren zu können. Im Folgenden wird beschrieben, wie die Software SPSS bei dieser Aufgabe hilft.

Beginnen wir mit einem klassischen Beispiel, den Online-Shops: Sie halten nach, welche Seiten oder Produkte sich Kunden angeschaut oder schließlich gekauft haben, um daraus ein Profil zu erstellen, mit dessen Hilfe bei späteren Besuchen oder im Rahmen von Newslettern individuelle Werbung platziert werden kann.

Die Art, Menge und Verfügbarkeit von Daten hat sich jedoch maßgeblich verändert. Technischer Fortschritt sowie die Nutzung von „smarten“ Geräten und sozialen Medien haben zu einem exponentiellen Datenwachstum geführt. Unternehmen und Kunden gleichermaßen sind nicht mehr nur Daten-Konsumenten, sondern insbesondere auch Daten-Produzenten. Die Vernetzung von Daten im Internet of Things erlaubt es, nicht mehr nur originär unternehmenseigene Daten als Basis für Analysen heranzuziehen, sondern diese mit externem Datenmaterial zu verknüpfen und anzureichern.

Das Ziel beziehungsweise der Wunsch, aus den eigenen Daten zu lernen, ist längst nicht mehr nur für Konzerne, Banken und Versicherungen von Bedeutung, sondern auch bei kleinen und mittelständischen Unternehmen angekommen bzw. vorhanden.

Software

Zur Auswertung empirischer Daten steht eine Reihe von Software-Paketen zur Auswahl. Aufgrund ihrer weiten Verbreitung findet häufig die Software SPSS Anwendung. Ursprünglich für die Fachbereiche der Sozial- und Wirtschaftswissenschaften konzipiert (SPSS = Statistical Package for the Social Sciences), wird die inzwischen von IBM vermarktete Analyse-Software heute in den verschiedensten Bereichen eingesetzt, etwa in den Bereichen Marketing, Kundenmanagement, Psychologie oder auch Medizin.

Speziell für den Bereich Data Mining, welcher sich mit dem Aufdecken verdeckter Strukturen beschäftigt, bietet IBM den „IBM SPSS Modeler“ als Toolbox an. Jedoch besitzt bereits das handlichere Paket „IBM SPSS Statistics“ (im Folgenden kurz SPSS genannt) ein umfangreiches Spektrum verschiedenster Analysemöglichkeiten, welche für Big Data eingesetzt werden können.

SPSS-Auswertung: Bekanntes nutzen

Die im Rahmen der Analyse von Big Data eingesetzten Verfahren sind in den meisten Fällen nicht neu, sondern im Gegenteil schon lange bekannt und etabliert. Neu ist, dass man dank Cloud Computing heutzutage in der Lage ist, die enormen Datenmengen überhaupt verarbeiten zu können.

Unter den Schlagworten Business Analytics oder Predictive Modelling werden eine Reihe statistischer Auswertungsmethoden subsumiert, angefangen bei einfachen deskriptiven Kennzahlenberechnungen über verschiedene Regressionsmodelle bis hin zu Faktorenanalyse und Clustering. Diese gängigen Verfahren (und noch einige mehr) sind allesamt innerhalb der Software SPSS verfügbar und bieten somit vielfältige Auswertungsmöglichkeiten.

Datenaufbereitung und Informationsgewinnung

Getreu dem Motto „garbage in – garbage out“ ist für sämtliche Auswertungen eine hohe Datenqualität grundlegend. Die Erfassung, Zusammenführung und Aufbereitung von Rohdaten ist der erste, wichtigste und in den meisten Fällen auch aufwendigste Arbeitsschritt auf dem Weg hin zu Analyseergebnissen.

SPSS arbeitet auf der Basis von Datensätzen und jeder einzelne Datensatz enthält beziehungsweise besteht aus verschiedenen Variablen. Datendateien aus verschiedenen Quellen können über Schlüsselvariablen zu einer Gesamtdatei zusammengeführt werden, sodass beispielsweise unternehmensinterne und -externe Angaben miteinander verknüpft werden können.

Um eine SPSS-Auswertung durchzuführen, bedient man sich der grafischen Benutzeroberfläche mit Drop-down-Menüs und eingängigen Auswahlfenstern.

Einfache Verfahren wie die Betrachtung von Häufigkeitsverteilungen oder die Berechnung deskriptiver Kennzahlen (über Lage, Streuung und Form der Häufigkeitsverteilung) unterstützen bei der Plausibilisierung der Daten sowie bei der Erkennung von Datenfehlern (oder von fehlenden Werten) und tragen auf diese Weise zur Qualitätssicherung der Daten bei. Zur optischen Beurteilung können unterschiedlichste Grafiken herangezogen werden.

Zur Ableitung neuer Informationen, etwa zur Konstruktion eines Index, der auf auf mehreren einzelnen Variablen basiert, lassen sich mit SPSS schnell neue Variablen erzeugen. Entweder werden diese berechnet oder sie entstehen durch Umcodierung einer bestehenden Variablen.

Bei der Berechnung neuer Variablen stellt SPSS einerseits gängige mathematische und logische Operationen bereit, andererseits verfügt SPSS auch über eigene, spezifische Funktionen. Die Umcodierung erlaubt es, die bisherigen Ausprägungen einer Variablen auf andere Werte abzubilden oder verschiedene Werte zu Gruppen oder Klassen zusammenzufassen. Letzteres bietet sich insbesondere dann an, wenn eine Variable viele verschiedene, nah beieinander liegende Werte angenommen haben, zum Beispiel monetäre Größen, bei denen der Übergang auf eine Klassenbildung sinnvoll erscheint.

Wie SPSS Hilfe bei Big Data bietet

Um Anhängigkeiten oder kausale Zusammenhänge aufzuspüren oder nachzuweisen, können zunächst Korrelationsmaße ausgerechnet werden. Die Modellierung eines gerichteten Zusammenhangs geschieht dann für gewöhnlich mithilfe von Regressionsanalysen. Hier ist insbesondere die logistische Regression hervorzuheben, da sie ein klassisches Beispiel für ein Vorhersagemodell darstellt: Nach Anpassung und Validierung eines solchen Modells auf Basis der vorliegenden Daten kann mithilfe der logistischen Regression beispielsweise prognostiziert werden, ob ein Kunde kündigt, etwas kauft etc. – also ob ein bestimmtes, interessierende Ereignis wahrscheinlich eintritt oder nicht.

Weitere Analyseverfahren in SPSS umfassen Klassifikationsmodelle wie Clustering oder Entscheidungsbäume. Solche Methoden dienen etwa dazu, Kunden nach bestimmten Kriterien in möglichst gleichartige Gruppen aufzuteilen.

Schließlich kann zur Reduktion der Datendimension zum Beispiel eine Faktorenanalyse durchgeführt werden, welche die wesentlichen Einflussgrößen auf eine andere, interessierende Variable „herausfindet“.

Man sieht: Es bieten sich viele Möglichkeiten, zielgerichtet in SPSS Auswertungen durchzuführen.

Screenshot Entscheidungsbaum (fiktive Daten)
Screenshot Entscheidungsbaum (fiktive Daten) (Bild: Novustat)

Output, Signifikanz und Syntax

Der Output einer SPSS-Auswertung besteht aus Tabellen und Grafiken und erlaubt somit einen zahlengetriebenen und gleichzeitig auch optischen Eindruck der Ergebnisse.

Im Rahmen des generierten Outputs werden in der Regel auch direkt Tests durchgeführt und mithilfe dieser überprüft, ob das erhaltene Stichprobenergebnis statistisch signifikant ist oder nicht.

Die Auswertungen in SPSS können durch Auswahl der entsprechenden Prozeduren auf der GUI durchgeführt werden. Will man jedoch bestimmte Auswertungen öfter durchführen, zum Beispiel in gewissen Zeitabständen mit aktualisierten Daten regelmäßig wiederholen, und/oder die Nachvollziehbarkeit der Analysen gewährleisten, empfiehlt es sich, die Syntax der einzelnen Auswertungsschritte abzuspeichern.

Diese Funktionalität ermöglicht es unter anderem, die gesamte Analyse oder Teile davon wie ein Programm ablaufen zu lassen und auf diese Weise regelmäßige Berichte oder auch Management Reports zu erstellen.

Fazit

Die Software SPSS stellt zahlreiche bekannte statistische Analyseverfahren bereit und ist aufgrund der grafischen Oberfläche gut zu bedienen. Somit bietet SPSS Hilfe bei der Erforschung von Big Data und erlaubt es dem Anwender, bislang unbekannte Informationen aus der Datenmenge zu extrahieren und die gewonnenen Erkenntnisse für die gewünschten Zwecke zielgerichtet einzusetzen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44069161 / Analytics)