Was ist Amazon Redshift?

Definition Was ist Amazon Redshift?

07.11.2018Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Amazon Redshift ist ein schnelles und skalierbares Data Warehouse als Serviceleistung aus der Cloud, ausgelegt für große Datenmengen bis in den Petabyte-Bereich. Die typischen Verwaltungsaufgaben des Data Warehouses leistet der Anbieter Amazon automatisiert. Business Intelligence Tools und SQL-Clients können sich mit Amazon Redshift verbinden.

Anbieter zum Thema

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

Amazon Redshift ist ein Data Warehouse Service aus der Cloud. Das Data Warehouse kann Datenmengen bis in den Petabyte-Bereich aufnehmen und wird von Amazon auf einer Cloud-Infrastruktur bereitgestellt. Amazon Redshift zeichnet sich durch seine hohe Geschwindigkeit und gute Skalierbarkeit aus, durch die sich die Verarbeitung und Auswertung großer Datenmengen beschleunigen lassen. Abfragen sind unter anderem SQL-basiert möglich. Es stehen zudem ODBC- und JDBC-Schnittstellen zur Verfügung, mit denen sich Business Intelligence Tools mit dem Data Warehouse verbinden können.

Die hohen Abfragegeschwindigkeiten erreicht Amazon Redshift durch die physische Verteilung der Ressourcen auf eine Clusterstruktur und die Parallelisierung der Verarbeitung. Die typischen Verwaltungsaufgaben des Data Warehouses wie das Sichern von Clustern, das Einspielen von Patches und Updates, der Betrieb, die Überwachung, die Bereitstellung von Kapazitäten und das Provisioning leistet der Amazon automatisiert. Das erste Release von Amazon Redshift erschien im Jahr 2012 und basierte auf einer älteren Version von PostgreSQL 8.0.2. Eine erste offizielle Version wurde im Jahr 2013 freigegeben.

Die Clusterstruktur von Amazon Redshift

Amazon Redshift basiert auf einer Clusterstruktur. Der Service ist sowohl als Single-Node Cluster mit einem einzigen Server für kleinere Datenmengen als auch als Multi-Node Cluster mit vielen Servern für große Datenmengen betreibbar. Ein Multi-Node Cluster besteht mindestens aus drei Nodes, einem Leader-Node und zwei Compute-Nodes. Die Aufgaben des Leader-Nodes sind die Verwaltung der Verbindungen und Anfragen, die Bereitstellung der Ausführungspläne und das Parsen der Anfragen. Die eigentliche Ausführung der Berechnungen und Anfragen findet auf den Compute-Nodes statt. Einzelne Compute-Nodes haben Speicherkapazitäten von zwei oder 16 Terabyte. Die maximale Speicherkapazität eines Clusters beträgt bis zu 1,6 Petabyte. Untereinander sind die Nodes über ein leistungsfähiges 10-Gigabit/s-Backbone verbunden.

Gegenüberstellung von herkömmlichen Data Warehouses und Amazon Redshift

Zwischen herkömmlichen Data Warehouses und Amazon Redshift existieren gravierende Unterschiede. Bei herkömmlichen Data Warehouses bestehen ein hoher Zeit- und Ressourcenaufwand für Verwaltungstätigkeiten. Amazon Redshift ist als Cloud-Service voll verwaltet und erfordert in dieser Hinsicht wenig Ressourcen. Aufgrund der Clusterstruktur und der Parallelisierung von Anfragen erzielt Amazon Redshift im Vergleich zu einem selbst verwalteten Data Warehouse große Verarbeitungsgeschwindigkeiten. Eigene Server, Netzwerkinfrastruktur oder Software sind nicht erforderlich. Für die Bereitstellung des Services sind keine Investitionen zu tätigen.

Die Abrechnung von Amazon Redshift erfolgt nutzungsbezogen. Laut Amazon erzielt Amazon Redshift eine bis zu zehnfach höhere Leistung im Vergleich zu herkömmlichen Datenbanken für Data Warehouses. Während herkömmliche Lösungen oft ihre Daten zeilenbasiert speichern, arbeitet Amazon Redshift spaltenbasiert, was die Abfrageleistung stark verbessert und stärkere Komprimierungsmöglichkeiten bietet.

Die automatisierten Verwaltungsleistungen von Amazon Redshift

Ein wesentliches Merkmal von Amazon Redshift ist die integrierte automatische Verwaltung sämtlicher Aufgaben zum Betreiben, Einrichten, Skalieren und Sichern des Services. Die verwalteten Leistungen reichen von der Bereitstellung der Infrastruktur für die Datenverarbeitung über die Sicherung des Services bis zum Einspielen von Patches oder Updates. Sämtliche Nodes sind automatisch überwacht. Nach Ausfällen sorgt Amazon für die komplette Wiederherstellung der Services. Weitere Managementleistungen sind das Loadbalancing und die Planung der Ausführung von Abfragen.

Vorteile beim Einsatz von Amazon Redshift

Durch den Einsatz von Amazon Redshift als Data Warehouse Service aus der Cloud bieten sich zahlreiche Vorteile. Amazon stellt ein skalierbares, sehr performantes Data Warehouse zur Verfügung, das sich für riesige Datenmengen eignet. Dadurch lassen sich die Kosten und der Aufwand für umfangreiche Analysen von Daten reduzieren. Die Einrichtung des Data Warehouses ist schnell erledigt und erfordert keine Investitionen in Hard- oder Software. Die Abrechnung des Services erfolgt nutzungsabhängig.

Durch die Verwendung einer optimierten Hardware, intelligentes Caching und eine parallelisierte Architektur erzielt Amazon Redshift einen hohen Durchsatz und niedrige Reaktionszeiten. Fast alle Verwaltungsaufgaben sind automatisiert und verursachen keinen zusätzlichen Aufwand. Datenbanken lassen sich mit verschiedenen Kryptografieverfahren verschlüsseln und bieten eine hohe Sicherheit. Dadurch ist Amazon Redshift für kritische Anwendungen aus den Bereichen des Finanzwesens, des Gesundheitswesens oder für staatliche Institutionen einsetzbar. Die Cluster des Data Warehouses sind per Amazon Virtual Private Cloud (VPC) isolierbar.

(ID:45587172)