Definition

Was ist R?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

R ist eine freie Programmiersprache, die speziell für statistische Berechnungen und Visualisierungen von Daten konzipiert ist. Sie ist eine der führenden Lösungen für die statistische Datenanalyse und kann für das Data Mining oder Predictive Analytics eingesetzt werden.

Die Programmiersprache R wurde 1992 an der Universität Auckland von Ross Ihaka und Robert Gentleman entwickelt. Sie ist speziell für statistische Berechnungen und die Visualisierung von Daten konzipiert. R orientiert sich an der Programmiersprache S und ist ihr sehr ähnlich. Es handelt sich bei R jedoch um eine freie Implementierung. Viele unter S geschriebene Programme laufen auch unter R. Der Name der Sprache geht auf die Anfangsbuchstaben der Vornamen der Entwickler zurück.

In der Standarddistribution wird R mit Interpreter und Kommandozeilenumgebung mit einfachen grafischen Elementen geliefert. R steht für die wichtigsten Plattformen zur Verfügung. Im Vergleich zu kommerziellen Softwarepaketen zeichnet sich R vor allem durch die Flexibilität aus. In Sachen Qualität, Funktionen und Aktualität erreicht die Programmiersprache einen hohen Level. Im Umfeld der Analyse und Visualisierung von Daten, wie sie für das Data Mining und Predictive Analytics zum Einsatz kommen, ist R eine weltweit etablierte und sehr beliebte Lösung. Die Sprache hat sich zu einer Art Standardsprache für statistische Problemstellungen in der Wissenschaft und Wirtschaft entwickelt.

2018 erschien die derzeit aktuellste Version 3.4.4. In der Standardbibliothek von R sind 29 Pakete enthalten. Die wichtigsten Pakete werden bei jedem Programmstart geladen. Mit einer Vielzahl an zusätzlichen Paketen lässt sich der Funktionsumfang der Programmiersprache erweitern.

Wichtigste Merkmale und Syntax der Programmiersprache R

Bei R handelt es sich um eine Interpretersprache, die nicht kompiliert werden muss. Eingaben werden in der Kommandozeilenoberfläche direkt ausgeführt. Programme können in Skripten ausgeführt werden. Die Sprache R umfasst unter anderem folgende Funktionen:

  • Verwaltung von Dateien
  • Erstellen von Datenstrukturen
  • Prüfen und Anpassen von Datenstrukturen
  • Management von Daten
  • Bearbeitung und Formatierung von Zeichenketten
  • bedingte Anweisungen, Schleifen und Verzweigungen
  • Funktionen der deskriptiven Statistik
  • Analysefunktionen
  • Funktionen höherer Ordnungen wie die MapReduce-Familien
  • statistische Tests
  • mathematische Optionen, Mengenoperationen, Matrixoperationen

Die Programmiersprache besitzt Eigenschaften, die für dynamische Sprachen typisch sind. Text lässt sich dynamisch als Code auswerten und Variablen können flexibel die Struktur verändern. Die in S enthaltenen Klassen und Multimethoden für Ad-hoc-Polymorphie sind ebenfalls in R implementiert.

R speichert Daten spaltenorientiert. Eingelesene Daten sind direkt im Hauptspeicher abgelegt. Zur Verringerung des Speicherbedarfs kommen Techniken wie Garbage Collection oder Lazy Loading zum Einsatz. Die Syntax ist case sensitive und unterscheidet Klein- und Großschreibung. Objektnamen können aus Punkten, Zeichen und Unterstrichen bestehen. Beim Funktionsaufruf steht nach dem Funktionsnamen eine öffnende runde Klammer. Abgeschlossen wird die Funktion durch die schließende runde Klammer. Innerhalb der Klammern lassen sich der Funktion die Argumente übergeben. Die Trennung erfolgt durch Kommas. Über geschweifte Klammern werden die Programmierblöcke festgelegt. Nach einem Doppelkreuz (#) folgt ein Kommentartext. Leerraum oder Einrückungen sind für die Ausführung des Codes unter R ohne Einfluss. Für die Kontrollstrukturen stehen bedingte Anweisungen wie if oder else und Schleifen wie for oder while zur Verfügung. Sprunganweisungen mit goto existieren in R nicht.

Einfache Datenstrukturen in R sind durch Vektoren spezifiziert. Ein Vektor besitzt mit Typ, Länge und Attribut drei Eigenschaften. Darüber hinaus existieren ein- oder zweidimensionale Matrizen und beliebig-dimensionale Arrays.

Die Einsatzmöglichkeiten und Vorteile der Programmiersprache R

R ist eine der führenden Lösungen für die statistische Datenanalyse. Daten lassen sich mit der Sprache sehr flexibel auswerten und visualisieren. Dadurch ist R ideal geeignet für Aufgaben wie Predictive Analytics oder Data Mining. Sowohl wissenschaftliche Organisationen als auch große Unternehmen wie Oracle oder Microsoft verwenden die freie Programmiersprache. R kann problemlos in alle Ebenen der Analyse und Präsentation von Daten integriert werden. Viele namhafte Hersteller bieten geeignete Schnittstellen und Integrationsmöglichkeiten. Dank der Flexibilität von R ist der gleiche Code sowohl für kleinere Datenanalysen als auch für umfangreiches Data Mining im Big-Data-Umfeld auf Hadoop-Clustern geeignet.

Die Plattformunabhängigkeit sorgt dafür, dass R in verschiedenste IT-Strukturen leicht integrierbar und universell nutzbar ist. Im Gegensatz zu anderen Lösungen für die Analyse und Visualisierung von Daten ist R Open Source. Es fallen keine Lizenzkosten an, auch nicht für den Großteil der verfügbaren Erweiterungspakete. An vielen Universitäten weltweit wird mit R gearbeitet. Aufgrund des Open-Source-Modells von R ist die Sprache sehr beliebt. Daher stehen viele gut ausgebildete Analyse-Experten zur Verfügung. Die wichtigen Weiterentwicklungen finden im Bereich der Wissenschaft und Universitäten statt. Ein Großteil der Entwickler der Programmiersprache sind Professoren. R bietet einen hohen Funktionsumfang, ist professionell und aktuell.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Mit Apache Zeppelin Daten analysieren

Interaktives Notizbuch für Big Data

Mit Apache Zeppelin Daten analysieren

Das Apache-Toplevel-Projekt Zeppelin bietet ein Notizbuch für Daten aus anderen Systemen, mit denen Anwender diese effektiv analysieren können. Zeppelin arbeitet dazu eng mit Spark, Flink und Hadoop zusammen. lesen

SAP HANA unterstützt Persistent-Memory-Technik

Funktionsumfang ausgebaut

SAP HANA unterstützt Persistent-Memory-Technik

Der Softwarekonzern SAP hat Erweiterungen für die Cloud- und On-Premises-Versionen seiner HANA-Datenbank angekündigt. Dazu zählen unter anderem erweitere Cloud-Unterstützung, Support von Intels Persistent-Memory-Technik sowie neue Machine-Learning-basierte Funktionen. lesen

Preventive Maintenance – Fehlerprognose mit Machine Learning

Kommentar von Dr. Olaf Nimz, Trivadis

Preventive Maintenance – Fehlerprognose mit Machine Learning

Die Entscheidung, Maschinenteile vorsorglich auszutauschen oder Maschinen erst nach einem Schaden zu reparieren, erfordert von Betreibern von Industrieanlagen und Prozessverantwortlichen eine sorgfältige Kosten-Nutzen-Abwägung. Ist genauer vorhersehbar, wann ein Teil ausfällt, könnten Wartung und Instandhaltung im Hinblick auf planbare und kürzere Stillstandszeiten optimiert werden. lesen

FICO Xpress Insight wird Teil der Community-Lizenz

Operationalisierung von Modellen

FICO Xpress Insight wird Teil der Community-Lizenz

Der Spezialist für Predicitive Analytics und Data Science FICO hat seine FICO Xpress Community-Lizenz um seine Lösung Xpress Insight ergänzt. Sie ermöglicht die Operationalisierung von Advanced-Analytics-Modellen. lesen

Darauf kommt es bei der Wahl der richtigen BI-Lösung an

Kommentar von Robert Schmitz, Qlik

Darauf kommt es bei der Wahl der richtigen BI-Lösung an

Es spricht viel für die datengetriebene Neuaufstellung von Geschäftsprozessen, die Vertiefung von Kunden- und Lieferantenbeziehungen auf der Basis valider Datenauswertungen oder für ein ausgewogenes Risiko/Rendite-Verhältnis, das sich an profunden Analytics-Ergebnissen statt am Bauchgefühl orientiert. Damit Analytics-Projekte auch wirklich verwertbare Entscheidungsgrundlagen liefern, gilt es, die passende Business-Intelligence-Lösung für die gesetzten Ziele zu finden. lesen

Jeder kann Analytics – aber nicht jeder kann genaue Analysen

Kommentar von Subhasis Nath, Infosys

Jeder kann Analytics – aber nicht jeder kann genaue Analysen

Unternehmen auf der ganzen Welt haben das Potenzial von Data Analytics für ihr Wachstum und die Entwicklung neuer Geschäftsmodelle erkannt. Doch der Einsatz von Daten für den Geschäftsnutzen erfordert eine Neuorientierung von Mitarbeitern, Prozessen und Technologien. lesen

Das kann Azure Databricks

Spark as a Service

Das kann Azure Databricks

Microsoft stellt mit Azure Databricks eine Analyseplattform in Microsoft Azure zur Verfügung, die auf der bekannten Analysesoftware Apache Spark aufbaut. Bei der Entwicklung der Plattform haben die Entwickler von Spark mitgearbeitet. lesen

Donald Trump startet KI-Initiativen

Künstliche Intelligenz

Donald Trump startet KI-Initiativen

Auch die US-Regierung hat KI-Forschung zur einer technologischen Priorität erklärt: US-Präsident Donald Trump hat eine Executive Order unterzeichnet, welche die Bereitstellung von Ressourcen und Investitionen in Forschung, Förderung und Ausbildung im Bereich der Künstlichen Intelligenz (KI) fordert. lesen

Die Ereigniszeitanalyse – wenn Anfang und Ende die Erfolgsrate bestimmen

Grundlagen Statistik & Algorithmen, Teil 6

Die Ereigniszeitanalyse – wenn Anfang und Ende die Erfolgsrate bestimmen

Die Ereigniszeitanalyse bzw. Survival Analysis umfasst eine Reihe von Werkzeugen der Statistik, mit denen die Zeit bis zum Eintritt eines bestimmten Ereignisses zwischen Gruppen verglichen wird. Auf diese Weise will man die Wirkung von prognostischen Faktoren, einer medizinischen Behandlung oder von schädlichen Einflüssen abschätzen. Bei dem Ereignis kann es sich um etwas so Endgültiges wie den Tod handeln, aber auch um den Verlust einer Arbeitsstelle, eine Scheidung oder einen Beginn, etwa um eine Geburt oder einen Heilungseintritt. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45261852 / Definitionen)