Suchen

Definition Was ist R?

| Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

R ist eine freie Programmiersprache, die speziell für statistische Berechnungen und Visualisierungen von Daten konzipiert ist. Sie ist eine der führenden Lösungen für die statistische Datenanalyse und kann für das Data Mining oder Predictive Analytics eingesetzt werden.

Firma zum Thema

(Bild: © aga7ta - stock.adobe.com)

Die Programmiersprache R wurde 1992 an der Universität Auckland von Ross Ihaka und Robert Gentleman entwickelt. Sie ist speziell für statistische Berechnungen und die Visualisierung von Daten konzipiert. R orientiert sich an der Programmiersprache S und ist ihr sehr ähnlich. Es handelt sich bei R jedoch um eine freie Implementierung. Viele unter S geschriebene Programme laufen auch unter R. Der Name der Sprache geht auf die Anfangsbuchstaben der Vornamen der Entwickler zurück.

In der Standarddistribution wird R mit Interpreter und Kommandozeilenumgebung mit einfachen grafischen Elementen geliefert. R steht für die wichtigsten Plattformen zur Verfügung. Im Vergleich zu kommerziellen Softwarepaketen zeichnet sich R vor allem durch die Flexibilität aus. In Sachen Qualität, Funktionen und Aktualität erreicht die Programmiersprache einen hohen Level. Im Umfeld der Analyse und Visualisierung von Daten, wie sie für das Data Mining und Predictive Analytics zum Einsatz kommen, ist R eine weltweit etablierte und sehr beliebte Lösung. Die Sprache hat sich zu einer Art Standardsprache für statistische Problemstellungen in der Wissenschaft und Wirtschaft entwickelt.

2018 erschien die derzeit aktuellste Version 3.4.4. In der Standardbibliothek von R sind 29 Pakete enthalten. Die wichtigsten Pakete werden bei jedem Programmstart geladen. Mit einer Vielzahl an zusätzlichen Paketen lässt sich der Funktionsumfang der Programmiersprache erweitern.

Wichtigste Merkmale und Syntax der Programmiersprache R

Bei R handelt es sich um eine Interpretersprache, die nicht kompiliert werden muss. Eingaben werden in der Kommandozeilenoberfläche direkt ausgeführt. Programme können in Skripten ausgeführt werden. Die Sprache R umfasst unter anderem folgende Funktionen:

  • Verwaltung von Dateien
  • Erstellen von Datenstrukturen
  • Prüfen und Anpassen von Datenstrukturen
  • Management von Daten
  • Bearbeitung und Formatierung von Zeichenketten
  • bedingte Anweisungen, Schleifen und Verzweigungen
  • Funktionen der deskriptiven Statistik
  • Analysefunktionen
  • Funktionen höherer Ordnungen wie die MapReduce-Familien
  • statistische Tests
  • mathematische Optionen, Mengenoperationen, Matrixoperationen

Die Programmiersprache besitzt Eigenschaften, die für dynamische Sprachen typisch sind. Text lässt sich dynamisch als Code auswerten und Variablen können flexibel die Struktur verändern. Die in S enthaltenen Klassen und Multimethoden für Ad-hoc-Polymorphie sind ebenfalls in R implementiert.

R speichert Daten spaltenorientiert. Eingelesene Daten sind direkt im Hauptspeicher abgelegt. Zur Verringerung des Speicherbedarfs kommen Techniken wie Garbage Collection oder Lazy Loading zum Einsatz. Die Syntax ist case sensitive und unterscheidet Klein- und Großschreibung. Objektnamen können aus Punkten, Zeichen und Unterstrichen bestehen. Beim Funktionsaufruf steht nach dem Funktionsnamen eine öffnende runde Klammer. Abgeschlossen wird die Funktion durch die schließende runde Klammer. Innerhalb der Klammern lassen sich der Funktion die Argumente übergeben. Die Trennung erfolgt durch Kommas. Über geschweifte Klammern werden die Programmierblöcke festgelegt. Nach einem Doppelkreuz (#) folgt ein Kommentartext. Leerraum oder Einrückungen sind für die Ausführung des Codes unter R ohne Einfluss. Für die Kontrollstrukturen stehen bedingte Anweisungen wie if oder else und Schleifen wie for oder while zur Verfügung. Sprunganweisungen mit goto existieren in R nicht.

Einfache Datenstrukturen in R sind durch Vektoren spezifiziert. Ein Vektor besitzt mit Typ, Länge und Attribut drei Eigenschaften. Darüber hinaus existieren ein- oder zweidimensionale Matrizen und beliebig-dimensionale Arrays.

Die Einsatzmöglichkeiten und Vorteile der Programmiersprache R

R ist eine der führenden Lösungen für die statistische Datenanalyse. Daten lassen sich mit der Sprache sehr flexibel auswerten und visualisieren. Dadurch ist R ideal geeignet für Aufgaben wie Predictive Analytics oder Data Mining. Sowohl wissenschaftliche Organisationen als auch große Unternehmen wie Oracle oder Microsoft verwenden die freie Programmiersprache. R kann problemlos in alle Ebenen der Analyse und Präsentation von Daten integriert werden. Viele namhafte Hersteller bieten geeignete Schnittstellen und Integrationsmöglichkeiten. Dank der Flexibilität von R ist der gleiche Code sowohl für kleinere Datenanalysen als auch für umfangreiches Data Mining im Big-Data-Umfeld auf Hadoop-Clustern geeignet.

Die Plattformunabhängigkeit sorgt dafür, dass R in verschiedenste IT-Strukturen leicht integrierbar und universell nutzbar ist. Im Gegensatz zu anderen Lösungen für die Analyse und Visualisierung von Daten ist R Open Source. Es fallen keine Lizenzkosten an, auch nicht für den Großteil der verfügbaren Erweiterungspakete. An vielen Universitäten weltweit wird mit R gearbeitet. Aufgrund des Open-Source-Modells von R ist die Sprache sehr beliebt. Daher stehen viele gut ausgebildete Analyse-Experten zur Verfügung. Die wichtigen Weiterentwicklungen finden im Bereich der Wissenschaft und Universitäten statt. Ein Großteil der Entwickler der Programmiersprache sind Professoren. R bietet einen hohen Funktionsumfang, ist professionell und aktuell.

(ID:45261852)

Über den Autor