Offenes Cray-System für Enterprise Big Data Urika-GX ist Analytic-Server mit Supercomputer-Kräften
Cray adressiert mit Supercomputer-Technik die Firmen und Forschungsinstitute, die die schnellsten und größten Rechen-Cluster brauchen. Doch Big Data benötigt vermehrt Analysen, die in Windeseile Resultate liefern und zugleich offen für Ergebnisse sind. Mit „Urika-GX“ verspricht Cray diese Flexibilität, da zeitgleich mehrerer Analysen auf einer einzigen Plattform ausgeführt werden können.
Anbieter zum Thema

Urika GX ist ein integriertes System, will heißen: Es ist eine Hardware-Plattform auf der Basis von Intel „Broadwell“-Chips, dem Hochgeschwindigkeitsnetz von Cray „Aries“, bis zu 22 Terabyte RAM für In-Memory-Computing in einem bis zu 42 Units im Single-Rack plus offenen APIs und einem Enterprise-fähigen Software-Framework, das neben Hadoop- und Apache Spark auch die „Cray Graph Engine“ für Analysen nutzt.
Ob bei der Größe der Datensätze, beim Umfang oder bei der Komplexität: Die Analyse von Big Data erlebt eine geradezu explosionsartige Entwicklung – keine guten Aussichten für Unternehmen, die bereits jetzt mit ungebremster Cluster-Vermehrung, der Flut an neuen Applikationen und dem immer höheren Zwang zu immer schnelleren Erkenntnissen zu kämpfen haben. Und: Cluster sind keine Trivialität.
Das Urika-GX-System, ist dafür entwickelt worden, diese Schwierigkeiten bei der Big-Data-Analyse zu beseitigen. Dem System voraus gingen die Entwicklungen „Urika-XA“, die „Extreme Analytics Platform“ und „Urika-GD“, die Graph Discovery Appliance von Cray. Das GX-System vereint die Techniken beider Vorgänger, so Dominik Ulmer, Vice President der Regionen Europe, Naher Osten und Afrika (EMEA) bei Cray.
Open Source und Cray-Know-how
Das für die „Hortonworks Data Platform“ getestete und integrierte System bietet neben Hadoop- und Apache-Spark-Support auch die Vorteile einer Cray Graph Engine, die selbst extrem umfangreiche, komplexe Graphenanalysen bewältigt. Damit können unterschiedliche Workloads auf einer Plattform laufen.
Der Vorteil: Urika GX kann zwei Nutzerkreise adressieren, so Ulmer, die Admins, die die Daten aus verschiedenen Quellen sammeln und aufbereiten müssen – dafür stehen die Hadoop- und Spark-, Kafka-, Phoenix-, OpenStack-Funktionen zur Verfügung – sowie die so genannten Data Scientists, die mithilfe von Graphendatenbanken neue Muster erkennbar machen sowie schnell und effizient verschiedene Hypothesen testen können. Die Cray Graph Engine erlaubt die schnelle und komplexe iterative Tiefensuche.
In punkto Skalierung und Performance galt die Graphenanalyse lange Zeit als eine der schwierigsten Aufgabenstellungen für moderne Analytics-Systeme. Die ursprünglich für die Cray Urika-GD Graph Discovery Appliance entwickelte Cray Graph Engine des Urika-GX-Systems ist üblicherweise zehn bis 100-mal schneller als bisherige graphenbasierte Lösungen für komplexe Analyse-Operationen. Laut Ulmer unterstützt die Graph Engine jedes Szenario vom Einzelprozessor bis hin zu Tausenden von Prozessoren, ohne dass es zu Einbußen bei der Leistungsfähigkeit kommt. Unternehmen könnten selbst mehrere Terabyte große Datensätze verarbeiten, die Milliarden von Objekten umfassen.
Graphen und Workload-Management
Die Cray Graph Engine kann zudem zusammen mit quelloffenen Analyse-Tools wie Hadoop und Spark eingesetzt werden. „So lassen sich echte End-to-End-Analyseworkflows entwickeln, die unnötige Datenverschiebungen vermeiden, so Ulmer. „Urika-GX ist ein dynamische Analysesystem, das das Beste aus der jahrzehntelangen Expertise bietet, die Cray bei der Bereitstellung von Systemen für datenintensive Rechenaufgaben sammeln konnte.“
Doch die Software-Ausstattung bietet noch einiges mehr: Von Cray stammt die Programmierumgebung, also Compiler und die Möglichkeit für Performance-Analysen. Apache Mesos indes sorgt für die Abstraktion, die eine dynamische Konfiguration der Plattform erlaubt. OpenStack steuert das Daten-Management bei. Aus dem Supercomputing-Umfeld stammt „SLURM“, das Workload-Management von Cray für die Batch-Verarbeitung, das im nativen Modus verwendet wird; denn mehr als 99 Prozent der Supercomputing-Anwendungen liefen im Batch-Mode, erläutert Ulmer, während Analysen transaktionsorientiert seien.
„Da viele Unternehmen ihre Datenanalyse mit zusätzlichen Features wie Streaming, Graphen und Interaktivität anreichern wollen, entstehen immer anspruchsvollere Workflows“, beobachtet James Curtis, Senior Analyst Data Platforms & Analytics bei 451 Research. „Eine agile Analyseplattform, die viele der Probleme, vor denen Data Scientists stehen, lösen und dafür sorgen können, dass integrierte Umgebungen innerhalb kürzester Zeit voll einsatzfähig sind, ist für viele Unternehmen ein wichtiges Kriterium.“
Die Hardware
Zur technischen Ausstattung von Cray Urika-GX zählt neben Intel Xeon Broadwell Cores, 22 Terabyte Arbeitsspeicher und 35 Terabyte lokalem SSD-Speicher. Zudem steuert Cray den Verbindungschip Aries bei, der ebenfalls aus dem Supercomputing kommt. Ein Hochgeschwindigkeitsnetz auf Basis von Aries bietet etwa gegenüber Infiniband den Vorteil einer speziellen Topologie, die für möglichst wenig Hops sorgt. Zudem erlaubt die Cray-Technik sehr hohe Messaging-Raten, während andere Technologien versuchen, die Anzahl der Pakete durch größere Datenpakete zu minimieren (siehe: Abbildung 3).
Damit eignet sich ein Aries-basierte Netz für einen hohen Datenaustausch, wie er bei Big-Data-Anwendungen vorkommt. Zudem erlaubt die Technik flexible Größen der Datenelemente. „Das ist eine Hardware, die sonst keiner hat“, betont Ulmer. Das katapultiere die Benchmarks in bisher unerreichte Größen. Im Vergleich zu älteren Cray-Plattformen beschleunige sich die die Datenverarbeitung auf das 2- bis 4-fache; im Vergleich zu nicht genannten Wettbewerbern bis auf das 20-fache (siehe: Abbildung 2 und 3).
Cray-President und -CEO Peter Ungaro sagt: „Unsere Kunden haben sich seit längerem eine Lösung gewünscht, welche die besonderen Merkmale der Cray-Systeme in einer einzigen Datenanalyse-Plattform bündelt.“
Auf diesen Wunsch haben wir reagiert und den Aries-Verbindungschip aus unseren Supercomputern, die bewährte Standard-Architektur unserer Cluster, die skalierbare Graph Engine der Urika-GD-Appliance und die vorintegrierte, offene Infrastruktur des Urika-XA-Systems in einer agilen Analytics-Plattform zusammengeführt. Urika-GX ist ein Instrument, mit dem unsere Kunden heute jede Art von Analyse-Herausforderung bewältigen können und gleichzeitig bestens für die Zukunft gerüstet sind.“
Die Anwender
Prädestiniert für den Einsatz von Urika-GX-Systemen sind Unternehmen aus den Bereichen Life Sciences, Gesundheitswesen und Cyber-Sicherheit. Das Broad Institute des MIT und von Harvard, ein Non-Profit-Forschungsinstitut, das sich um ein größeres Verständnis von Krankheiten und den Fortschritt bei deren Behandlung bemüht, nutzt das Cray-Urika-GX-System derzeit, um mit hohem Durchsatz Daten zur Genom-Sequenzierung zu analysieren (siehe: Abbildung 5 und 6)
„Mit dem Cray Urika-GX-System haben wir Quality Score Recalibration (QSR)-Ergebnisse aus unserem Genom-Analyse-Toolkit (GATK4) und der Apache Spark-Pipeline in neun Minuten anstelle von 40 Minuten erzielt“, sagte Adam Kiezun, GATK4-Projektleitung am Broad Institute. „Dies unterstreicht das Potenzial, Forschern, denen Durchbrüche bei der Bekämpfung von Krankheiten gelingen, schnellere Erkenntnisse zu Genomen zu liefern.“
Cray Urika-GX ist ab dem dritten Quartal 2016 zunächst in drei Enterprise-Konfigurationen mit 16, 32 und 48 Nodes erhältlich, die in einem standardmäßigen 42U/19 Zoll-Rack zusammengefasst sind; größere Konfigurationen sind für Ende des Jahres vorgesehen.
(ID:44072521)