So gelingt eine skalierbare Datenarchitektur mit CQRS

Kommentar von Constantin Gonzalez und Florian Mair, Amazon Web Services So gelingt eine skalierbare Datenarchitektur mit CQRS

02.07.2021 Von Constantin Gonzalez und Florian Mair *

Anbieter zum Thema

Wenn mehrere Applikationen eine Datenbank verwenden, die nicht die jeweils applikationsspezifischen Anforderungen erfüllen kann, hilft das Command-Query-Responsibility-Segregation-Architekturmuster (CQRS) weiter. Es trennt schreibende und lesende Zugriffe, sodass diese voneinander getrennt und auf verschiedenen Datenbanken ausgeführt werden.

CQRS basiert darauf, Operationen welche den Datenzustand verändern separat von den lesenden Operationen zu behandeln. Die Separierung der zwei Zugriffsmuster erlaubt es, die jeweiligen Anforderungen an Skalierung, Latenz oder Schema, mit einer für den Einsatzzweck optimalen Datenbank umzusetzen.(Bild: © Golden Sikorka – stock.adobe.com) — CQRS basiert darauf, Operationen welche den Datenzustand verändern separat von den lesenden Operationen zu behandeln. Die Separierung der zwei Zugriffsmuster erlaubt es, die jeweiligen Anforderungen an Skalierung, Latenz oder Schema, mit einer für den Einsatzzweck optimalen Datenbank umzusetzen.
(Bild: © Golden Sikorka – stock.adobe.com)

Wenn Applikationen mit einer Datenbank interagieren, verwenden sie meist die Standard-CRUD-Operationen (Create, Read, Update, Delete). Dabei kommt es relativ häufig vor, dass Schreibvorgänge andere Anforderungen (z. b. Skalierung, Schema) als Lesevorgänge haben. Das führt dazu, dass mehrere Applikationen eine Datenbank verwenden, die nicht die jeweils applikationsspezifischen Anforderungen erfüllen kann. Beispielsweise wird bei einer E-Commerce-Applikation oft eine relationale Datenbank eingesetzt, um Bestellungen zu speichern. Dadurch können bei lesendem Zugriff komplexe Queries über mehrere Tabellen hinweg ausgeführt werden. Dagegen kommen SQL-Datenbanken aufgrund ihrer Architektur bei schreibenden Zugriffen schnell an ihre Grenzen.

Das Command-Query-Responsibility-Segregation-Architekturmuster (CQRS) schafft bei solchen Problemen Abhilfe. Dieses Architekturpattern trennt schreibende und lesende Zugriffe, sodass diese voneinander getrennt und auf verschiedenen Datenbanken ausgeführt werden.

Architekturpattern: Command Query Responsibility Segregation (CQRS)

Das Architekturpattern CQRS basiert darauf, Operationen welche den Datenzustand verändern (Create, Update), separat von den lesenden Operationen zu behandeln. Die Separierung der zwei Zugriffsmuster erlaubt es, die jeweiligen Anforderungen an Skalierung, Latenz oder Schema, mit einer für den Einsatzzweck optimalen Datenbank umzusetzen. Damit beide Datenspeicher denselben Datenstand vorweisen, muss dieser in einem für die Applikation unsichtbaren Hintergrundprozess repliziert werden.

Darstellung des CQRS-Achitekturpatterns(Bild: AWS) — Darstellung des CQRS-Achitekturpatterns
(Bild: AWS)

Durch die Notwendigkeit der Datenreplikation zwischen der Schreib- und Lesedatenbank und der sich daraus ergebenden Verzögerung ist CQRS am besten für die Applikationen geeignet, die mit weniger strikten Anforderungen an die Konsistenz zwischen Lese- und Schreibvorgängen (Eventual Consistency) umgehen können.

Die Separierung von Schreib- und Lesezugriffen auf zwei verschiedene Datenbanken lässt sich gut mit anderen Architekturmustern wie zum Beispiel Microservices oder Event Sourcing kombinieren. Bei der Verwendung von Microservices werden komplexe Prozesse in unabhängige Services aufgeteilt, welche über Schnittstellen kommunizieren. Bei der Verwendung von CQRS kann für Schreib- und Lesezugriff jeweils ein separater Microservice erstellt werden, allerdings ist dies nicht zwingend nötig, da die Separierung auch im Applikationscode erfolgen kann.

Doch wie integriert sich CQRS mit Event Sourcing? Beim Event Sourcing werden Datenänderungen nicht direkt in die Datenbank geschrieben, sondern als Ereignisse (Events) zu einem Eventlog (wie z. B. Apache Kafka) hinzugefügt. Dabei wird die Schreib-Datenbank durch das Eventlog ersetzt und Datenstände werden durch Event Handler in die Lese-Datenbank repliziert. Der Datenstand im Eventlog spiegelt dabei nicht nur den aktuellsten Datenstand wieder, sondern die komplette Historie eines Datensatzes. Dadurch kann nicht nur der letzte Datenstand in eine Lese-Datenbank repliziert werden, sondern auch ein Datenstand zu einem beliebigen Zeitpunkt.

Beispiel: Produktdatenbank Replikation von MySQL zu Elasticsearch mit Python

Elasticsearch ist ein verteiltes Such- und Analyse-Werkzeug für verschiedene Daten wie Text, Geo, unstrukturiert und strukturiert. Die verteilte Architektur von Elasticsearch erlaubt eine hohe Skalierbarkeit und Performance für große Datenmengen. SQL Datenbanken wie zum Beispiel MySQL sind im Vergleich zu Elasticsearch weniger für Anwendungsfälle wie z. B. Volltextsuche optimiert. Das liegt daran, dass in Elasticsearch Textdaten anders indexiert sind als eine SQL-Datenbank.

Als praktisches Beispiel kann hier eine Produktdatenbank dienen. Ein Online-Shop speichert deren Produktkatalog in einer MySQL-Datenbank. Das funktioniert problemlos, um neue Produkte einzufügen, zu aktualisieren, und zu löschen. Nun entscheidet sich das Unternehmen, eine Volltextsuche für Produkte einzuführen. Die MySQL Datenbank stößt hierbei an ihre Grenzen, da Kunden nicht nach der spezifischen Produkt-ID suchen, sondern nach Schlagworten wie z. B. „Grüner Schal für Damen“, welche nicht im Index der SQL-Datenbank abgebildet sind. In einem solchen Fall können mit einer CQRS-Architektur die Volltext-Suchanfragen an Elasticsearch geleitet werden. Dabei bleiben die Anfragen für das Ändern und Hinzufügen von Produkten weiterhin auf der MySQL-Datenbank.

Um die zwei Datenspeicher auf demselben Datenstand zu halten, stehen Werkzeuge in verschiedenen Programmiersprachen zur Verfügung. Im folgenden Beispiel wird python-mysql-replication verwendet.

Datenbank-Replikation mittels python-mysql-replication(Bild: AWS) — Datenbank-Replikation mittels python-mysql-replication
(Bild: AWS)

Um diese Library verwenden zu können, muss auf der MySQL-Datenbank das Binary Log in der Konfigurationsdatei aktiviert werden. Dieser Log beinhaltet Events, die die Datenbank-Änderungen beschreiben. Beim Einfügen eines neuen Datensatzes in eine Tabelle mit 2 Spalten könnte ein Binary-Log-Eintrag folgendermaßen aussehen:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

INSERT INTO `shop`.`produkte`SET@1 = 1 /* INT meta=0 nullable=0 */@2 = 'Grüner Schal für Damen' /* VARSTRING(20) meta=0 nullable=1 */......

Die mysql-replication library übernimmt das Konsumieren der Daten vom Binary Log und bereitet diese in ein Format auf, das von Elasticsearch weiterverarbeitet werden kann. Die aufbereiteten Daten können dann mittels der Elasticsearch-API in den Elasticsearch-Cluster übertragen werden.

Umsetzung auf AWS

Es gibt verschiedene Möglichkeiten, Datenbestände zu replizieren. Ein entscheidender Faktor hierbei sind die verwendeten Datenbank-Engines für Quell- und Zielsystem. Viele Datenbanken unterstützen eine Form von Change Data Capture (CDC), wo Änderungen an Daten nach an der Echtzeit erfasst und dann in das Zielsystem übertragen werden. Bei einer MySQL-Datenbank als Quellsystem kann das Binary Log verwendet werden, um Änderungen zu erfassen und diese in ein Zielsystem per Streaming zu übertragen.

Änderungen streamen mit dem AWS Database Migration Service (DMS)

Mit AWS DMS können Daten zwischen homogenen Datenbanken wie MySQL zu MySQL sowie heterogene Datenbankplattformen wie MySQL zu Amazon Elasticsearch Service übertragen werden. Mit diesem Service kann sowohl eine initiale Migration als auch eine kontinuierliche Datenreplikation mittels CDC vorgenommen werden. Beim Einsatz von DMS für CQRS-Zwecke werden meistens verschiedene Datenbankplattformen verwendet. Daher kann es nötig sein, dass Schema zu konvertieren. Dafür stellt AWS das AWS Schema Conversion Tool (SCT) zur Verfügung.

Datenreplikation mit AWS Database Migration Service(Bild: AWS) — Datenreplikation mit AWS Database Migration Service
(Bild: AWS)

Materialized Views mit AWS Glue Elastic Views (in Vorschau)

AWS Glue Elastic Views steht seit 1.12.2020 in verschiedenen AWS-Regionen in den USA, Asia Pacific (Tokyo) und in Europa (Irland) zur Verfügung. Mit dieser neuen Funktion von AWS Glue ist es möglich, sog. Materialized Views zu erzeugen, ohne einen Code selber zu schreiben, da die Tabellendefinition mithilfe von SQL-Befehlen erfolgt. Da AWS Glue Elastic Views im Gegensatz zu DMS als „serverless“-Dienst konzipiert ist, entfällt bei der Verwendung die Verwaltung von einzelnen Servern. Das bedeutet auch, dass die Kapazität automatisch, je nach Datendurchsatz, skaliert wird. Derzeit werden Amazon DynamoDB, Amazon S3, Amazon Redshift und Amazon Elasticsearch Service unterstützt. Bald sollen auch Amazon RDS und Amazon Aurora unterstützt werden.

Datenreplikation mittels AWS Glue Elastic Views (in Vorschau)(Bild: AWS) — Datenreplikation mittels AWS Glue Elastic Views (in Vorschau)
(Bild: AWS)

Fazit

Command Query Responsibility Segregation (CQRS) ist ein Architekturpattern um Schreib- und Lesevorgänge getrennt voneinander zu behandeln, damit der jeweils geeigneten Datenspeicher für das jeweilige Zugriffsmuster verwendet werden kann. Dadurch kann die Performance von Applikationen optimiert werden, allerdings können durch die nötige Replizierung und das Betreiben von zwei Datenspeichern auch zusätzliche Kosten entstehen. Um Applikationen zu optimieren, kann CQRS sowohl in On-premises-Rechenzentren als auch in der Cloud umgesetzt werden. Durch das Betreiben von CQRS in einer Cloud-Umgebung können verwaltete Datenbanksysteme, wie zum Beispiel Amazon RDS, verwendet werden, was den Management-Aufwand für Datenbanken reduziert. Des Weiteren stellt AWS mit AWS DMS und AWS Glue Elastic Views zwei vollständig verwaltete Services zur Verfügung, die für die Datenreplikation verwendet werden können.

* Constantin Gonzalez ist Principal Solutions Architect und Florian Mair Solutions Architect bei Amazon Web Services

(ID:47467158)