Kommentar von Thomas Pavel, LSI Daueraufgabe Rechenzentrums-Beschleunigung

Autor / Redakteur: Thomas Pavel / Nico Litzel

In jeder Netzwerkinfrastruktur, vor allem in Rechenzentren, steht die IT vor einer wahren Sisyphusaufgabe: Hat man einen Leistungsengpass besiegt, taucht an anderer Stelle sofort wieder etwas auf, was die Daten- oder Anwendungsgeschwindigkeit ausbremst. Thomas Pavel, Director EMEA Channel Sales bei LSI erklärt, wie Administratoren gegen immer neue Leistungsengpässe vorgehen können.

Firmen zum Thema

Der Autor: Thomas Pavel ist Director EMEA Channel Sales bei LSI
Der Autor: Thomas Pavel ist Director EMEA Channel Sales bei LSI
(Foto: LSI)

Angesichts der Bedeutung und Menge an Daten, denen Unternehmen gegenüberstehen, beseitigen die Verantwortlichen zwar entstandene Engpässe schneller als je zuvor, aber sie werden dem System nicht mehr wirklich Herr: Ständig drosselt ein neues Problem die Performance.

Einige dieser Staupunkte sind altbekannte Dauerbrenner, wie der I/O-Pfad zwischen Servern und Festplatten. Dieser ist stets problematisch, unabhängig davon, ob es sich um DAS oder ein SAN handelt, da die Rechenkapazität und Geschwindigkeit von Mikroprozessoren den Speicher schon vor langer Zeit abgehängt haben.

Bildergalerie

Virtualisierung und Konsolidierung führen zu neuen Engpässen

Andere, neuere Engpässe entstehen durch den Trend zur Virtualisierung und die Konsolidierung von Servern und Speichersystemen in Rechenzentrums-Clouds. Immer mehr Unternehmen stellen Cloud-Architekturen bereit, um Speicher, die Datenverarbeitung und das Netzwerk in Pools zu verwalten und so die Effizienz und Auslastung von Computing-Ressourcen zu erhöhen sowie Kosten zu senken.

Beim Erhöhen der Effizienz in Rechenzentren ging es bisher im Endeffekt immer um das Ausbalancieren und Optimieren dieser Ressourcen. Diese Kalibrierung erlebt momentan einen radikalen Umbruch durch wesentliche Neuerungen bei Netzwerken, wie den Sprung von 1-Gigabit-Ethernet auf 10 Gigabit und bald auf 40 Gigabit, das Aufkommen von noch schnelleren Prozessoren sowie die zunehmende Bereitstellung von SSDs.

Mit der Virtualisierung steigt die Serverauslastung. Das intensiviert jedoch zugleich interaktive Ressourcenkonflikte hinsichtlich Arbeitsspeicher und I/Os. Noch mehr Konflikte entstehen unweigerlich, wenn große, datenlastige Anwendungen so weiterentwickelt werden, dass sie auf stetig wachsenden Clustern von Zehntausenden Computern ausgeführt werden, die Petabytes von Daten verarbeiten, verwalten und speichern.

Aufgrund dieser dynamischen Veränderungen in Rechenzentren stellt die Wahrung akzeptabler Leistungsniveaus eine immer größere Herausforderung dar. Es gibt durchaus bewährte Möglichkeiten, die häufigsten Engpässe zu beheben – Möglichkeiten, mit denen IT-Manager bessere Karten im hoch dotierten Wettkampf um die Vermeidung von Flaschenhälsen haben.

Schließen der I/O-Lücke zwischen Arbeitsspeicher und Festplatten

Die I/Os von Festplatten sind ein wesentlicher Engpass bei DAS-Servern, SANs und NAS-Arrays. Genauer gesagt: Ein I/O-Vorgang für den Arbeitsspeicher eines Servers dauert um die 100 Nanosekunden, während ein I/O-Vorgang für eine HDD auf Ebene 1 (Tier 1) etwa zehn Millisekunden dauert. Das ist 100.000 Mal länger und würgt die Anwendungsleistung letztlich ab. Die Latenz eines SAN oder NAS ist häufig sogar noch höher, weil sich der Datenverkehr im dazwischenliegenden Netzwerk staut, das auf Fibre Channel, FC over Ethernet oder iSCSI basiert.

Die Flaschenhälse haben sich im Laufe der Jahre verengt, da die Laufwerkskapazitäten schneller gewachsen sind, als die Latenzzeiten durch schneller drehende Laufwerke gesunken sind. IT-Manager mussten immer wieder mehr Festplatten und längere Warteschlangen hinzufügen, nur um Schritt zu halten.

Die Folge ist, dass die Leistungsgrenzen der meisten Anwendungen inzwischen mit der Latenz zu tun haben und eben nicht mit Bandbreite oder I/O-Vorgängen pro Sekunde (IOPS). Dieses Problem droht sich weiter zu verschärfen, da der Bedarf an Speicherkapazität jährlich massiv wächst.

Interessant dabei ist, dass sich Latenz in den letzten dreißig Jahren nur um den Faktor 30 verringert hat, während die Netzwerkbandbreite im selben Zeitraum um einen Faktor 3.000 gestiegen ist. Auch Prozessordurchsatz, Festplattenkapazität und Arbeitsspeicherkapazität sind stark gestiegen.

Caching im Arbeitsspeicher

Ein Lösungsansatz für dieses Dilemma ist das Caching von Inhalten im Arbeitsspeicher eines Servers oder im SAN auf einer DRAM-Cache-Appliance. Das kann die Latenz reduzieren, sodass die Leistung auf Anwendungsebene steigt. Bei dem Arbeitsspeicher, den ein Server oder eine Cache-Appliance besitzt, handelt es sich jedoch nur um wenige Gigabytes und somit um einen Bruchteil der Kapazität eines Festplattenlaufwerks, bei der es um Terabytes geht. Daher sind die Leistungssteigerungen durch Caching häufig unzureichend.

SSD-Speicher in Form von NAND-Flashspeicher sind ein effektiver Weg, um den Latenzunterschied zwischen Arbeitsspeicher und HDDs durch einen weiteren Storage Layer zu überbrücken. Sowohl im Hinblick auf die Kapazität als auch auf die Latenz schließen Flashspeicher die Lücke zwischen DRAM-Caching und HDDs, wie im Diagramm 1 gezeigt (siehe Bildergalerie). Bis vor einiger Zeit war Flashspeicher sehr teuer und schwer in vorhandene Speicherarchitekturen zu integrieren. Inzwischen haben Kostensenkungen für Flashspeicher zusammen mit Hardware- und Softwareinnovationen zu einer überzeugenderen Rendite geführt.

SSD-Speicher bietet im Allgemeinen die höchsten Leistungsverbesserungen, wenn man die Flash-Beschleunigungskarte direkt im Server platziert; hierzu wird der PCIe-Bus verwendet. Eingebettete oder hostbasierte Caching-Software legt die aktuell häufig genutzten Daten („Hot Data“) im Flashspeicher ab. Hier dauert ein Datenzugriff nur zirka 20 Mikrosekunden – er ist damit 140 Mal schneller als eine HDD auf Ebene 1 mit 2.800 Mikrosekunden.

So reduziert sich die Antwortzeit von Anwendungen und Benutzer erhalten die jeweils relevanten Daten schneller. Einige dieser Karten unterstützen mehrere Terabytes an SSD-Speicher und eine neue Klasse von Lösungen bietet jetzt außerdem interne Flash- sowie SAS-Schnittstellen. Diese ermöglicht eine Speicherlösung, in der Hochleistungs-SSDs und RAID-HDDs kombiniert sind. Eine PCIe-basierte Flash-Beschleunigungskarte kann die Leistung von Datenbanken auf Anwendungsebene in einer DAS- oder SAN-Umgebung um das Fünf- bis Zehnfache beschleunigen.

Skalieren des Netzwerks im virtualisierten Rechenzentrum

Einer der häufigen Engpässe in aktuellen virtualisierten Rechenzentren ist die Steuerungsebene der Datenübertragung, das Switching Control Plane – ein Staupunkt, der die Netzwerkleistung beschränkt, wenn die Anzahl virtueller Maschinen steigt. Die Auslastung der Steuerungsebene kann auf vier Arten steigen, die in einigen Fällen miteinander in Beziehung stehen:

  • Die Servervirtualisierung bedeutet wesentlichen zusätzlichen Steuerungs-Overhead, vor allem bei der Migration virtueller Maschinen.
  • Mehr und größere Servercluster, etwa für die Analyse umfangreicher Daten (Big Data), bedeuten mehr Datenverkehr für die Kommunikation zwischen Nodes.
  • Die explosionsartige Zunahme an CPU-Kernen – bedingt durch die Notwendigkeit, Engpässe bei der Verarbeitungsleistung der Server zu vermeiden – erhöht sowohl die Anzahl der VMs pro Server als auch die Größe der Servercluster.
  • Netzwerkarchitekturen in Rechenzentren werden flacher, während sie wachsen, um diese Änderungen zu berücksichtigen sowie um Latenzzeiten und Durchsatz trotz des unablässigen Wachstums zu wahren.

Diese Änderungen beanspruchen die Steuerungsebene sehr. Beispielsweise können während einer VM-Migration schnelle Änderungen an Verbindungen, ARP-Transaktionen und Routingtabellen vorhandene Lösungen für die Steuerungsebene überfordern. Daher sind vor allem in großen virtualisierten Umgebungen umfangreiche Migrationen von VM-Daten häufig nicht praktikabel: Sie erzeugen zu viel Overhead.

Um solche Migrationen zu ermöglichen, muss die Steuerungsebene skaliert werden. Beim herkömmlichen Ansatz, der vertikalen Skalierung, werden die vorhandenen Lösungen für die Steuerungsebene innerhalb von Netzwerkplattformen durch zusätzliche oder leistungsstärkere Datenverarbeitungs- und/oder Beschleunigungsmodule ergänzt, um die Leistung zu erhöhen. Diese zusätzlichen Ressourcen bedeuten, dass CPU-Zyklen für andere Tasks frei bleiben, und verbessern so insgesamt die Netzwerkleistung.

In neuen Architekturen mit horizontaler Skalierung ist die Steuerungsebene von der Datenebene getrennt und führt ihre Aufgaben auf Standardservern aus. In einigen Fällen werden Tasks der Steuerungsebene in Teilaufgaben aufgeteilt, wie Erkennung, Verbreitung und Wiederherstellung, die dann auf diese Server verteilt werden.

Neue Architekturen wie Software Defined Networks nutzen die horizontale Skalierung für die Steuerungsebene. Mit diesen Architekturen können IT-Manager außerdem die Netzwerkschicht (Network Substrate) virtualisieren sowie den Datenverkehr im Rechenzentrum besser verwalten und sichern.

Sowohl in Architekturen mit vertikaler als auch mit horizontaler Skalierung können intelligente Mehrkern-Kommunikationsprozessoren die Leistung der Steuerungsebene drastisch verbessern. Sie kombinieren Allzweckprozessoren mit speziellen Hardwarebeschleunigungs-Modulen für bestimmte Zwecke. Einige Funktionen, wie Paketverarbeitung und Verwaltung des Datenverkehrs, können häufig ganz und gar auf Linecards mit solchen zweckgebundenen Kommunikationsprozessoren ausgelagert werden.

Kurzfristige Verbesserungen für die Server-I/O und die Netzwerkleistung

In vielen Unternehmen sind heute Millisekunden wichtig und kurze Antwortzeiten haben hohe Priorität. In manchen Handelsunternehmen wird die Latenz in Millionen Dollar pro Millisekunde gemessen. Bei Online-Einzelhändlern schadet jede Verzögerung der Kundenzufriedenheit und der Wettbewerbsfähigkeit, was sich direkt auf den Umsatz auswirkt.

Überall im Rechenzentrum fallen immer mehr digitale Informationen an und Unternehmen stellen immer mehr schnelle SSD-Speicher als Caches sowie als Laufwerke in DAS- und SAN-Konfigurationen mit mehreren Ebenen bereit. Da die Verbreitung von SSDs und ihre Kapazität stetig steigen, sinken die Kosten pro Gigabyte. Intelligente Flashspeicherprozessoren mit fortschrittlicher Garbage Collection, Wear-Leveling und erweiterten Algorithmen für die Fehlerkorrektur verbessern zugleich die Langlebigkeit von SSDs weiter.

Auch die zunehmende Verwendung von 10- und 40-Gigabit/Sekunde-Ethernet sowie die weite Verbreitung der 12-Gigabit/Sekunde-SAS-Technik tragen zu höheren Datenraten bei. 12-Gigabit/Sekunde-SAS ermöglicht nicht nur doppelt so viel Durchsatz wie die bisherige 6-Gigabit/Sekunde-SAS-Technik, sondern nutzt auch Leistungsverbesserungen in PCIe 3.0, um mehr als eine Million IOPS zu erreichen.

Netzwerkarchitekturen in Rechenzentren werden immer flacher und machen neue Möglichkeiten für Beschleunigung und Programmierbarkeit auf der Steuerungs- und der Datenebene notwendig. Eine stärkere Nutzung der Hardwarebeschleunigung für Paketverarbeitung und Datenverkehrsverwaltung bietet in diesen flachen, skalierten Netzwerken vorhersagbare Leistung bei variablen Datenverkehrslasten.

Mehr Engpässe stehen bevor

In dem Maße, in dem Server zu 10-Gigabit/Sekunde-Ethernet migriert werden, wird das Rack zu einem eigenen Engpass. Um diesen zu beheben, transportiert SSD-Speicher Daten mit hohen Geschwindigkeiten zwischen Servern; zweckgebundene PCIe-Karten ermöglichen eine schnellere Kommunikation zwischen den Servern. Alle Komponenten in einem Rack werden neu strukturiert, um Leistung und Kosten zu optimieren.

Da Rechenzentren zunehmend Private Clouds ähneln und Unternehmen immer mehr öffentliche Cloud-Services in einer mandantenfähigen, hybriden Struktur nutzen, muss die Datenübertragungsebene den Traffic intelligenter klassifizieren und verwalten. Nur so kann sie die Leistung auf Anwendungsebene und die Datensicherheit erhöhen. Immer mehr Datenverkehr wird verschlüsselt und über Tunnel gesendet. Diese und andere CPU-intensive Paketverarbeitungs-Tasks müssen an funktionsspezifische Beschleunigungsmodule ausgelagert werden, um ein vollständig verteilte, intelligente Fabric zu erreichen.

Fazit

Netzwerke und Rechenzentren haben auch auf lange Sicht mit einem exponentiellen Ansteigen der Datenmengen zu kämpfen. Deshalb werden schnelle Kommunikationsprozessoren, Beschleunigungsmodule, SSD-Speicher und andere Techniken, die die Leistung erhöhen und die Latenz in Rechenzentrums-Netzwerken senken, immer wichtiger: Sie helfen IT-Managern, die Datengeschwindigkeit in ihren Architekturen zu erhöhen, um mit der Anforderung nach immer schnellerem Zugriff auf digitale Informationen Schritt zu halten.

Es bleibt eine Sisyphusaufgabe, sich dieser Herausforderung immer wieder zu stellen; doch angesichts der heutigen Optionen muss niemand den Kopf in den Sand stecken, sondern man kann sich, frei nach Albert Camus, Sisyphus als einen glücklichen Menschen vorstellen.

(ID:37988130)