Suchen

Daten auf GPFS-Clustersystemen speichern Das IBM General Parallel File System im Big-Data-Einsatz

Autor / Redakteur: Thomas Joos / Nico Litzel

Geht es um die optimale und leistungsstarke Speicherung von Daten, müssen sich Administratoren auch Gedanken um das eingesetzte Dateisystem machen. Einer der wichtigsten Vertreter in diesem Bereich ist das General Parallel File System (GPFS) von IBM.

Firmen zum Thema

Die Daten im GPFS-Cluster können im Netzwerk unterschiedlich verteilt sein, auch spezielle Massenspeicher lassen sich nutzen. Jeder Server kann parallel auf das System zugreifen.
Die Daten im GPFS-Cluster können im Netzwerk unterschiedlich verteilt sein, auch spezielle Massenspeicher lassen sich nutzen. Jeder Server kann parallel auf das System zugreifen.
(Bild: T. Joos)

GPFS ist für die Betriebssysteme AIX und Linux verfügbar. Entstanden ist das Dateisystem 1998, seitdem wurde es ständig weiterentwickelt. Bei GPFS handelt es sich – wie beim Hadoop Distributed Filesystem (HDFS) – um ein paralleles Dateisystem. Bei solchen Dateisystemen sind die Daten auf den Clusterknoten Server-weit verfügbar, das heißt, Server können auf alle Datenträger im Cluster schreibend zugreifen. GPFS ermöglicht in diesem Bereich sogar Zugriffe über LAN-Leitungen, auch wenn keine direkte Verbindung eines Serverknotens zum Storage-Gerät verfügbar ist.

Diese Systeme können daher Daten auf mehrere Datenträger verteilen und bieten einen sehr hohen E/A-Durchsatz. GPFS liefert eine hohe Leistung beim sequenziellen Zugriff auf große Dateien. In Echtzeit können also Dutzende Server auf die gleichen Daten schreibend und lesend zugreifen. Die Daten bleiben immer konsistent.

Die Daten werden über ein Client-Node-Server-Node-System verteilt, welches typisch für den Einsatz von Big-Data-Szenarien wie zum Beispiel Hadoop ist. GPFS kann Berechnungen auf verschiedene Server verteilen, was ideal für Hadoop ist. Theoretisch bietet GPFS die Möglichkeit, Tausende Knoten in einem Cluster zusammenzufassen. Funktionen wie Striping (RAID 0) und Mirorring (RAID 1) sind bereits im Dateisystem enthalten. Die Steuerung und Verwaltung des GPFS-Clusters wird von einem zentralen Server im Cluster übernommen. Die Knoten selbst können überall verteilt sein, je schneller die Datenverbindung, umso schneller ist die Datenverarbeitung.

Vorteile von GPFS

Das General Parallel File System kann aber nicht nur aus Leistungsgründen die Berechnung von Daten auf verschiedene Server verteilen, sondern auch Ausfälle einzelner Server kompensieren. Außer Leistungseinbußen bemerken Anwender in diesem Fall keinerlei Auswirkungen. Es ist daher auch möglich, im laufenden Betrieb Server hinzuzufügen oder zu entfernen. Neben diesen Möglichkeiten lassen sich über die neue grafische Oberfläche zahlreiche weitere Aufgaben im laufenden Betrieb durchführen.

Damit GPFS optimal genutzt werden kann, müssen die Server im Cluster mit schnellen Datenleitungen verbunden sein. Nur dann ist gewährleistet, dass GPFS stabil und performant mit den Servern als Ganzes im Cluster arbeiten kann. GPFS kann simultanen Zugriff von verschiedenen Serverknoten auf ein und denselben Knoten bieten.

Aktuelle Versionen von GPFS erlauben auch die Verwaltung über eine grafische Oberfläche. Bisher mussten Administratoren zur Verwaltung immer auf die Kommandozeile zurückgreifen. Wie diese aussieht, können Administratoren auf Youtube ansehen. Im Interview zeigt Klaus Gottschalk (IBM) die Neuerungen und Verbesserungen der aktuellen Version von GPFS.

GPFS kann Daten auch intelligent speichern. Wenn Unternehmen im Storage verschiedene Technologien einsetzen, zum Beispiel einen Mischbetrieb von SSD, SAN, NAS und DAS, kann GPFS häufig verwendete Daten in schnellen Bereichen speichern und alte Dateien auf langsameren Datenträgern. Dadurch werden Speicher effizienter genutzt und die Leistung der Berechnungen steigt an. Außerdem bietet GPFS die Möglichkeit, auch Snapshots zu erstellen. Dazu wird vor allem das GPFS Native RAID (GNR) verwendet, dazu später mehr. Über diesen Weg lassen sich auch asynchrone Replicas erstellen.

IBM Hadoop mit GPFS – InfoSphere BigInsights

Auch wenn Hadoop im Big-Data-Bereich sicher das bekannteste Tool ist, hat das System in sehr großen Umgebungen im Enterprise-Umfeld noch Probleme. Der Aufbau und Betrieb erfordern viel technisches und damit teures Know-how.

Nutzen lassen sich die Vorteile von GPFS im Zusammenhang mit Hadoop, vor allem mit einer speziellen Hadoop-Distribution von IBM. Diese Distribution mit der Bezeichnung InfoSphere BigInsights bietet vor allem in sehr großen Umgebungen viele Vorteile, im Vergleich zu reinen Open-Source-Umgebungen.

InfoSphere BigInsights erweitert die Möglichkeiten von Hadoop und erlaubt neben dem Einsatz des Hadoop Distributed Filesystem (HDFS) auch die Speicherung auf GPFS. Das sorgt in dieser Distribution vor allem für die Hochverfügbarkeit, Absicherung und für ein Recovery. IBM bietet das GPFS-System auch als Storage-Lösung als Bezeichnung IBM System x GPFS Storage Server an.

Speichervirtualisierung mit GPFS

Neben GPFS bietet IBM auch noch die erweiterte Version mit der Bezeichnung Elastic Storage an. Dabei handelt es sich um eine Virtualisierungslösung für Hardware-Speicher, mit dem Unternehmen einen einzelnen Namensraum zur Verfügung stellen können. Die Lösung kann auch mit Hardware-Produkten anderer Hersteller zusammenarbeiten. Elastic Storage ist vor allem im Big-Data-Bereich ideal, da es alle Vorteile von GPFS bietet, aber noch besser den Speicher verwalten kann.

GPFS kann aber auch ohne Elastic Storage Datenspeicher virtualisieren. Administratoren können Datenpools zwischen virtuellen Plattenspeichern verschieben, die wiederum auf physischen Datenträgern gespeichert sind. GPFS Native RAID (GNR) kann das Dateisystem noch einmal beschleunigen und zusätzlich redundant speichern. Außerdem sorgt die Technik auch hier dafür, dass die Daten immer performant und konsistent zur Verfügung stehen.

Fazit

GPFS ist ein ideales System, wenn große Unternehmen umfassende Big-Data-Analysen durchführen müssen. Durch das neue GUI bietet GPFS wesentliche Vorteile im Vergleich zu HDFS. Im Bereich Hadoop sollten Unternehmen daher vor der Anschaffung von HDFS es in Erwägung ziehen, auf GPFS zu setzen. Allerdings sollten hier erst Angebote eingeholt werden, da GPFS ein kommerzielles Dateisystem ist. Prominenter Kunde ist zum Beispiel das Formel-1-Team „Red Bull Racing“.

(ID:43052683)