Definition

Was ist R?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

R ist eine freie Programmiersprache, die speziell für statistische Berechnungen und Visualisierungen von Daten konzipiert ist. Sie ist eine der führenden Lösungen für die statistische Datenanalyse und kann für das Data Mining oder Predictive Analytics eingesetzt werden.

Die Programmiersprache R wurde 1992 an der Universität Auckland von Ross Ihaka und Robert Gentleman entwickelt. Sie ist speziell für statistische Berechnungen und die Visualisierung von Daten konzipiert. R orientiert sich an der Programmiersprache S und ist ihr sehr ähnlich. Es handelt sich bei R jedoch um eine freie Implementierung. Viele unter S geschriebene Programme laufen auch unter R. Der Name der Sprache geht auf die Anfangsbuchstaben der Vornamen der Entwickler zurück.

In der Standarddistribution wird R mit Interpreter und Kommandozeilenumgebung mit einfachen grafischen Elementen geliefert. R steht für die wichtigsten Plattformen zur Verfügung. Im Vergleich zu kommerziellen Softwarepaketen zeichnet sich R vor allem durch die Flexibilität aus. In Sachen Qualität, Funktionen und Aktualität erreicht die Programmiersprache einen hohen Level. Im Umfeld der Analyse und Visualisierung von Daten, wie sie für das Data Mining und Predictive Analytics zum Einsatz kommen, ist R eine weltweit etablierte und sehr beliebte Lösung. Die Sprache hat sich zu einer Art Standardsprache für statistische Problemstellungen in der Wissenschaft und Wirtschaft entwickelt.

2018 erschien die derzeit aktuellste Version 3.4.4. In der Standardbibliothek von R sind 29 Pakete enthalten. Die wichtigsten Pakete werden bei jedem Programmstart geladen. Mit einer Vielzahl an zusätzlichen Paketen lässt sich der Funktionsumfang der Programmiersprache erweitern.

Wichtigste Merkmale und Syntax der Programmiersprache R

Bei R handelt es sich um eine Interpretersprache, die nicht kompiliert werden muss. Eingaben werden in der Kommandozeilenoberfläche direkt ausgeführt. Programme können in Skripten ausgeführt werden. Die Sprache R umfasst unter anderem folgende Funktionen:

  • Verwaltung von Dateien
  • Erstellen von Datenstrukturen
  • Prüfen und Anpassen von Datenstrukturen
  • Management von Daten
  • Bearbeitung und Formatierung von Zeichenketten
  • bedingte Anweisungen, Schleifen und Verzweigungen
  • Funktionen der deskriptiven Statistik
  • Analysefunktionen
  • Funktionen höherer Ordnungen wie die MapReduce-Familien
  • statistische Tests
  • mathematische Optionen, Mengenoperationen, Matrixoperationen

Die Programmiersprache besitzt Eigenschaften, die für dynamische Sprachen typisch sind. Text lässt sich dynamisch als Code auswerten und Variablen können flexibel die Struktur verändern. Die in S enthaltenen Klassen und Multimethoden für Ad-hoc-Polymorphie sind ebenfalls in R implementiert.

R speichert Daten spaltenorientiert. Eingelesene Daten sind direkt im Hauptspeicher abgelegt. Zur Verringerung des Speicherbedarfs kommen Techniken wie Garbage Collection oder Lazy Loading zum Einsatz. Die Syntax ist case sensitive und unterscheidet Klein- und Großschreibung. Objektnamen können aus Punkten, Zeichen und Unterstrichen bestehen. Beim Funktionsaufruf steht nach dem Funktionsnamen eine öffnende runde Klammer. Abgeschlossen wird die Funktion durch die schließende runde Klammer. Innerhalb der Klammern lassen sich der Funktion die Argumente übergeben. Die Trennung erfolgt durch Kommas. Über geschweifte Klammern werden die Programmierblöcke festgelegt. Nach einem Doppelkreuz (#) folgt ein Kommentartext. Leerraum oder Einrückungen sind für die Ausführung des Codes unter R ohne Einfluss. Für die Kontrollstrukturen stehen bedingte Anweisungen wie if oder else und Schleifen wie for oder while zur Verfügung. Sprunganweisungen mit goto existieren in R nicht.

Einfache Datenstrukturen in R sind durch Vektoren spezifiziert. Ein Vektor besitzt mit Typ, Länge und Attribut drei Eigenschaften. Darüber hinaus existieren ein- oder zweidimensionale Matrizen und beliebig-dimensionale Arrays.

Die Einsatzmöglichkeiten und Vorteile der Programmiersprache R

R ist eine der führenden Lösungen für die statistische Datenanalyse. Daten lassen sich mit der Sprache sehr flexibel auswerten und visualisieren. Dadurch ist R ideal geeignet für Aufgaben wie Predictive Analytics oder Data Mining. Sowohl wissenschaftliche Organisationen als auch große Unternehmen wie Oracle oder Microsoft verwenden die freie Programmiersprache. R kann problemlos in alle Ebenen der Analyse und Präsentation von Daten integriert werden. Viele namhafte Hersteller bieten geeignete Schnittstellen und Integrationsmöglichkeiten. Dank der Flexibilität von R ist der gleiche Code sowohl für kleinere Datenanalysen als auch für umfangreiches Data Mining im Big-Data-Umfeld auf Hadoop-Clustern geeignet.

Die Plattformunabhängigkeit sorgt dafür, dass R in verschiedenste IT-Strukturen leicht integrierbar und universell nutzbar ist. Im Gegensatz zu anderen Lösungen für die Analyse und Visualisierung von Daten ist R Open Source. Es fallen keine Lizenzkosten an, auch nicht für den Großteil der verfügbaren Erweiterungspakete. An vielen Universitäten weltweit wird mit R gearbeitet. Aufgrund des Open-Source-Modells von R ist die Sprache sehr beliebt. Daher stehen viele gut ausgebildete Analyse-Experten zur Verfügung. Die wichtigen Weiterentwicklungen finden im Bereich der Wissenschaft und Universitäten statt. Ein Großteil der Entwickler der Programmiersprache sind Professoren. R bietet einen hohen Funktionsumfang, ist professionell und aktuell.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Zentralisiertes Datenmanagement schafft Mehrwert für Kunden

Kommentar von Dr. Ramin Beravat, TeamBank AG Nürnberg

Zentralisiertes Datenmanagement schafft Mehrwert für Kunden

Ohne Daten keine Zukunft. Das weiß auch die TeamBank. Aus diesem Grund wurden alle Weichen in Richtung digitale Zukunft gestellt. Das sogenannte „Öl des 21. Jahrhunderts“ wird in großen Mengen gesammelt und mit einer komplexen Daten-Pipeline und ebenso komplexen Algorithmen gesteuert und ausgewertet. Dieser Artikel gibt einen Überblick, wie die TeamBank mittels Machine Learning und Analytics aus Daten Mehrwert für Kunden schafft und weshalb ein zentrales Datenmanagement so wichtig ist. lesen

SAS fokussiert sich auf IoT, Cloud-Solutions und KI

Nachbericht SAS Forum 2019 Bonn

SAS fokussiert sich auf IoT, Cloud-Solutions und KI

Auf dem diesjährigen SAS Forum hat der Analytics-Spezialist seine Produkte „SAS Intelligent Decisioning“ und „SAS Analytics for IoT“ vorgestellt sowie „SAS Demand Planning“ angekündigt. Die neue Plattform Viya werde komplett im Kubernetes-Container laufen. Daher wird es künftig neue Preismodelle geben. lesen

Cubeware baut Solutions Platform weiter aus

Funktionsmodul ergänzt

Cubeware baut Solutions Platform weiter aus

Mit Cubeware Advance erhält die Cubeware Solutions Platform Zuwachs: Das Funktionsmodul ermöglicht Advanced und Predictive Analytics auf Basis der IBM-Software SPSS Modeler. lesen

Der Approximationsalgorithmus

Grundlagen Statistik & Algorithmen, Teil 8

Der Approximationsalgorithmus

Für verschiedene Probleme lassen sich nur durch Annäherung bzw. Approximation optimale Lösungen finden. Durch einen geeigneten Approximationsalgorithmus versuchen Informatiker, sich dem optimalen Ergebnis anzunähern, so etwa in der Graphentheorie, die Beziehungen in Netzwerken darstellt. lesen

Mit Apache Zeppelin Daten analysieren

Interaktives Notizbuch für Big Data

Mit Apache Zeppelin Daten analysieren

Das Apache-Toplevel-Projekt Zeppelin bietet ein Notizbuch für Daten aus anderen Systemen, mit denen Anwender diese effektiv analysieren können. Zeppelin arbeitet dazu eng mit Spark, Flink und Hadoop zusammen. lesen

SAP HANA unterstützt Persistent-Memory-Technik

Funktionsumfang ausgebaut

SAP HANA unterstützt Persistent-Memory-Technik

Der Softwarekonzern SAP hat Erweiterungen für die Cloud- und On-Premises-Versionen seiner HANA-Datenbank angekündigt. Dazu zählen unter anderem erweitere Cloud-Unterstützung, Support von Intels Persistent-Memory-Technik sowie neue Machine-Learning-basierte Funktionen. lesen

Preventive Maintenance – Fehlerprognose mit Machine Learning

Kommentar von Dr. Olaf Nimz, Trivadis

Preventive Maintenance – Fehlerprognose mit Machine Learning

Die Entscheidung, Maschinenteile vorsorglich auszutauschen oder Maschinen erst nach einem Schaden zu reparieren, erfordert von Betreibern von Industrieanlagen und Prozessverantwortlichen eine sorgfältige Kosten-Nutzen-Abwägung. Ist genauer vorhersehbar, wann ein Teil ausfällt, könnten Wartung und Instandhaltung im Hinblick auf planbare und kürzere Stillstandszeiten optimiert werden. lesen

FICO Xpress Insight wird Teil der Community-Lizenz

Operationalisierung von Modellen

FICO Xpress Insight wird Teil der Community-Lizenz

Der Spezialist für Predicitive Analytics und Data Science FICO hat seine FICO Xpress Community-Lizenz um seine Lösung Xpress Insight ergänzt. Sie ermöglicht die Operationalisierung von Advanced-Analytics-Modellen. lesen

Darauf kommt es bei der Wahl der richtigen BI-Lösung an

Kommentar von Robert Schmitz, Qlik

Darauf kommt es bei der Wahl der richtigen BI-Lösung an

Es spricht viel für die datengetriebene Neuaufstellung von Geschäftsprozessen, die Vertiefung von Kunden- und Lieferantenbeziehungen auf der Basis valider Datenauswertungen oder für ein ausgewogenes Risiko/Rendite-Verhältnis, das sich an profunden Analytics-Ergebnissen statt am Bauchgefühl orientiert. Damit Analytics-Projekte auch wirklich verwertbare Entscheidungsgrundlagen liefern, gilt es, die passende Business-Intelligence-Lösung für die gesetzten Ziele zu finden. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45261852 / Definitionen)