Dateien und Datenbanken mit einer Abfragesprache durchforsten R – Auf dem Weg zur Lingua Franca in der Datenanalyse

Autor / Redakteur: Heiko Miertzsch / Rainer Graefen |

Auf der Suche nach den Stecknadeln in den Heuhaufen dieser Welt, stellt sich die Frage nach dem geeigneten Werkzeug, das nicht nur Daten analysieren kann, sondern auch beliebige Datenquellen. Aktuell gehört die Aufmerksamkeit der Analysesoftware "R".

Anbieter zum Thema

R als Analyseschicht in einem Enterprise Wiki.
R als Analyseschicht in einem Enterprise Wiki.
( bronzsoft + eoda)

Die Begriffe Big Data, Data Mining oder Predictive Analytics erfahren seit geraumer Zeit eine wachsende Aufmerksamkeit. Diese Entwicklung ist ein Ausdruck des Trends, Daten als Produktionsfaktor zu begreifen. IT-Systeme in Unternehmen produzieren jeden Tag riesige Datenmengen.

Praktisch alle Unternehmensteile wie Einkauf, Produktion, Administration und Verkauf werden nahezu vollständig in IT-Systemen abgebildet. Auch im privaten oder im wissenschaftlichen Umfeld wie auch in der öffentlichen Verwaltung wachsen die Datenbestände. Welche Potenziale lassen sich durch die Analyse der Daten heben und wie lassen sich die Analyseprozesse effizient gestalten?

Riesiges Interesse

Datenanalyse ist untrennbar mit Software verbunden und eine besondere Rolle kommt in diesem Zusammenhang der freien Statistiksoftware R zu. R ist nach Norman Nie, dem Gründer und langjährigen CEO von SPSS, die zur Zeit mächtigste Programmiersprache zur Analyse und Visualisierung von Daten – und sie gewinnt deutlich an Zuspruch.

In den USA ist der Absatz mit Fachbüchern zu R in Q4 2012 um 127% gestiegen und O’Reilly Media führt R als „Major Programming language“. Nahezu alle IT-Anbieter im Umfeld von Big Data wie IBM, Oracle oder SAP öffnen Ihre Systeme für R. Die „Linux-Geschichte“ wiederholt sich aktuell im Markt für Analysesoftware.

Die Bedeutung des Produktionsfaktors Daten nimmt zu

Die Qualität und den Innovationsgrad, den die zumeist wissenschaftliche R-Community heute an den Tag legt, ist unvergleichlich in der jüngeren IT-Geschichte. Profitieren werden davon nicht nur Wissenschaft oder die großen Unternehmen. Selbst mit geringem Budget lässt sich mit R der Schatz heben, der in den Datenbergen steckt.

Kürzere Produktlebenszyklen, Individualisierung, Gesetzgebung sowie die fortschreitende Digitalisierung in allen Bereichen erhöhen stetig die Menge der vorhandenen Daten. Gleichzeitig versprechen die großen Datenmengen und statistische Analysen valide Ergebnisse und hohen Nutzen für unternehmerische Entscheidungen.

Je mehr diese Datenmenge als Nutzenfaktor in den Fokus von Entscheidern rückt, desto dringender stellt sich die Frage, wie aus dem Produktionsfaktor Daten intelligente Entscheidungen abgeleitet werden können.

Komplexes Anforderungsset an statistische Software

Mit einem Blick auf die Vielzahl der statistischen Methoden, Kennwerte und Analyseprozesse, der gleichzeitigen Vielfalt an Datenstrukturen und den Branchen- und abteilungsspezifischen Fragestellungen sind die Bedürfnisse an die eingesetzte Software immens.

Beispielhafte und typische Anwendungen statistischer Mustererkennung sind das Aufsuchen homogener Kundengruppen im Handel, Ursachen für den Ausfall von Maschinen oder das Optimieren von Produktionsprozessen.

Wie wird das Wetter, wie entwickeln sich Börsenkurse oder wie entwickelt sich der Umsatz sind typische Fragestellungen aus dem Bereich Vorhersage. Datamining ist das Schlagwort für ein Verfahrensset, das umfangreiche Möglichkeiten bietet, Erkenntnisse aus der großen Datenmenge zu gewinnen.

(ID:35227410)