Big Data und Microsoft Azure

So funktioniert R-Server für HDInsight

| Autor / Redakteur: Thomas Joos / Nico Litzel

R-Server für HDInsight lässt sich in Microsoft Azure über einen Assistenten integrieren.
R-Server für HDInsight lässt sich in Microsoft Azure über einen Assistenten integrieren. (Bild: T. Joos)

R-Server für HDInsight ist eine horizontal skalierbare Implementierung von R, die sich direkt in Microsoft Azure HDInsight implementieren lässt. R ist Open Source und wird komplett in der Cloud ausgeführt

R gehört zu den beliebtesten Programmiersprachen von Datenwissenschaftlern. Mit HDInsight bietet Microsoft eine Hadoop-Implementierung in Microsoft Azure. Wie Hadoop auch, so kann HDInsight mit zusätzlichen Diensten erweitert werden. Einer dieser Dienste ist R-Server, der sich direkt in HDInsight integrieren lässt. Eine Einführung in die Funktionen des R-Servers in HDInsight bietet Microsoft ebenfalls an.

Microsoft verspricht für R-Server in HDInsight eine bis zu fünfzigmal höhere Verarbeitungsgeschwindigkeit als bei Open-Source-R. Außerdem lassen sich tausendmal mehr Daten mit R-Server verarbeiten, als mit der Open-Source-Version von R.

R-Server arbeitet mit einer transparenten Parallelisierung. Daher lassen sich problemlos Daten im Terabyte-Bereich verarbeiten. Da auch R-Server mit der Open-Source-Sprache R arbeitet, funktionieren alle R-Skripte auch mit dem R-Server. Auch die Verwendung von Spark und MapReduce unterstützen in einem solchen Szenario R-Skripte.

Microsoft entwickelt „Revolution R Enterprise“ weiter

R Server für Linux und Hadoop

Microsoft entwickelt „Revolution R Enterprise“ weiter

20.01.16 - Seit der Übernahme von Revolution Analytics, einem Anbieter von Software und Services für die Programmiersprache R, entwickelt Microsoft „Revolution R Enterprise“ unter der Bezeichnung „Microsoft R Server“ weiter. Nun steht die Programmiersprache für statistische Berechnungen und Vorhersagen auch für Linux und Hadoop zur Verfügung. lesen

Voraussetzungen für die Verwendung von R-Server

Um R-Server zu verwenden, ist zunächst ein herkömmliches Microsoft-Azure-Abonnement notwendig. Konten bei Microsoft Azure sind kostenlos. Nur die Verwendung von Diensten in Microsoft Azure kostet. Um HDInsight-Cluster in Microsoft Azure zu verwalten, ist ein SSH-Client notwendig. Dazu steht zum Beispiel Putty zur Verfügung. Die Daten des Clusters lassen sich in Azure Storage ablegen. Hier steht auch ein Azure-Date-Lake-Konto zur Verfügung, das an R-Server angebunden werden kann.

Die Bereitstellung eines HDInsight-Clusters erfolgt automatisch. Das gilt auch dann, wenn R-Server zusammen mit HDInsight eingesetzt werden soll. Bei der Erstellung eines HDInsight-Clusters über

Neu\Data+Analytics\HDInsight

kann als „Clustertyp“ die Option „R Server“ ausgewählt werden. Auch die Version kann ausgewählt werden. Im unteren Bereich stehen weitere Optionen zur Einstellung zur Verfügung, zum Beispiel die „R Studio-Community-Edition für R Server“. Die Installation von R Studio auf dem Edge-Knoten kann aber auch deaktiviert werden, wenn andere Verwaltungstools zum Einsatz kommen. Microsoft stellt einen Get-Started-Guide für R-Server zur Verfügung. Dieser beschreibt die Einrichtung eines Standard-Clusters.

R-Server für Machine Learning und Parallelanalysen

R-Server ist ideal für eine umfangreiche Hadoop-Umgebung, die Parallelanalysen und Machine Learning benötigt. Der Vorteil bei der Integration von R-Server in HDInsight im Vergleich zur direkten Implementation besteht vor allem darin, dass R-Server komplett in Microsoft Azure implementiert ist und dabei auf die SLAs von Microsoft aufbaut. Microsoft bietet ein SLA von 99.9 Prozent.

Auch der Support sowie die Sicherheit der Umgebung wird von Microsoft gewährleistet. Die Sicherheit von Clouddiensten spielt in Netzwerken eine immer wichtigere Rolle, vor allem wenn es um die Verarbeitung von persönlichen Daten oder Kundendaten geht.

R-Server testen

Wie bei allen Diensten bietet Microsoft auch R-Server als Testumgebung an. Wenn Unternehmen mit den Funktionen zufrieden sind, kann der Dienst gebucht werden, ohne dass Daten erneut eingespielt werden müssen.

R-Server arbeitet auch in Microsoft Azure mit anderen Open-Source-Anwendungen im Big-Data-Bereich zusammen. Dazu gehört zum Beispiel auch Spark. R-Server arbeitet generell mit den gleichen Möglichkeiten wie herkömmliche R-Implementationen. R-Server ermöglicht parallele Sweepvorgänge für Parameter und Simulationen. Dazu kann in HDInsight auf R-Funktionen gesetzt werden, die hunderte Knoten nutzen.

Spark-Datenquellen mit Spark SQL nutzen

R-Server kann Daten aus Hadoop und Spark analysieren. Dazu steht zum Beispiel Apache Spark SQL zur Verfügung. Die Ergebnisse von Spark-SQL-Abfragen lassen sich aus Apache Hive oder Apache Parquet auslesen und in einen Spark-Datenrahmen überführen. Als Entwicklungstool kann auf R Studio Server Community Edition gesetzt werden. R Tools für Visual Studio kann bei Microsoft heruntergeladen werden. Der Verbindungaufbau zu R Studio Server Community Edition erfolgt über die URL https://<CLUSTERNAME>.azurehdinsight.net/rstudio. Zusätzlich steht das Dashboard auch im Azure-Portal über den HDInsight-Cluster zur Verfügung. Weitere Möglichkeiten sind das Eclipse basierende StatET von Walware. Auch dieses kann zur Entwicklung von Analysen mit R-Server genutzt werden. Für die Verwaltung und Entwicklung von R-Server auf Linux-Rechnern ist RStudio Server ein beliebtes Tool. Die Einrichtung von RStudio mit R-Server beschreibt Microsoft in einem Get-Started-Guide.

Soll die Leistung eines HDInsight-Clusters mit R-Server verbessert werden, ist der beste Weg die Anzahl der Workerknoten zu erhöhen. Die Leistung des Clusters steigt proportional zur Anzahl der Workerknoten. Als Datenspeicher steht entweder Azure Storage zur Verfügung, oder es findet eine Anbindung an Azure Data Lake statt.

Lizenzierung und Preis von R-Server in Microsoft Azure HDInsight

R-Server muss nicht gesondert lizenziert werden. Die Preise für R-Server orientieren sich, wie immer bei Microsoft Azure, an der Verwendung. Ist ein Cluster nicht mehr notwendig, sollte dieser ausgeschaltet oder sogar gelöscht werden. In Azure werden immer nur benötigte Dienste bezahlt. Generell orientieren sich die Preise für R-Server mit HDInsight an den Preisen für eine herkömmliche Bereitstellung von HDInsight. Basis ist die verwendete Anzahl an Knoten zur Verarbeitung der Daten und die Edge-VMs. Pro Kern erfolgt eine zusätzliche, stündliche Zusatzgebühr. Generell kann die Umgebung bis zu 30 Tage kostenlos getestet werden. Eine umfangreiche Preisliste ist auf der HDInsight-Seite zu sehen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44754460 / Infrastruktur)