Bei der Datenverarbeitung von Big Data spielen vor allem NoSQL-Datenbanken eine wichtige Rolle. Diese können im Vergleich zu relationalen Datenbanken große Datenmengen oft schneller verarbeiten. Aber auch relationale Datenbanken bieten Möglichkeiten. Wir zeigen, worauf Unternehmen achten sollten.
Auch im Cloud-Dienst Amazon Web Services (AWS) stehen NoSQL-Datenbanken zur Verfügung, neben anderen Technologien, die für Big Data hilfreich sind.
(Bild: T. Joos)
NoSQL-Datenbanken arbeiten bei der Datenverarbeitung nicht mit einem relationalen Ansatz und verwenden daher auch keine Tabellenschemas. Das beschleunigt Zugriffe großer Datenmengen, wenn Abfragen diesen Ansatz unterstützen. Relationale Datenbanken haben bei sehr großen Datenmengen oft Leistungsprobleme. Im Fokus von NoSQL-Datenbanken stehen daher vor allem Szenarien, in denen relationale Datenbanken von Oracle, IBM und Microsoft an ihre Grenzen stoßen. Das ist im Big-Data-Einsatz besonders häufig der Fall. Verantwortliche müssen sich daher bei der Planung von Big-Data-Infrastrukturen auch in diesem Bereich informieren und unter Umständen den Einsatz von NoSQL-Datenbanken planen.
Darum sind NoSQL-Datenbanken oft besser geeignet
Beispiele für Vorteile von NoSQL-Datenbanken sind vor allem unstrukturierte Daten aus den Bereichen Kommunikation, soziale Medien und andere nichtrelational zugreifbaren Daten. Auch sehr große Datenmengen auf Basis von Bildern, Audiodateien, Videos und mehr passen in diese Kategorie. Dazu kommt, dass NoSQL-Datenbanken keine Transaktionen nutzen, was bei relationalen Datenbanken eine Grundtechnik darstellt. NoSQL-Datenbanken synchronisieren stattdessen Datenmengen in sehr kurzen Zeitabständen zwischen den Knoten, um eine Konsistenz zu erreichen. Dadurch können NoSQL-Datenbanken in sehr kurzer Zeit riesige Datenmengen verarbeiten. Häufig sind erst dadurch Big-Data-Abfragen erst sinnvoll möglich.
Einfach ausgedrückt sind NoSQL-Datenbanken vor allem dann sinnvoll, wenn die Daten in keine relationale Struktur oder in Tabellen passen. Diese Datenbanken ergänzen aber nur die Möglichkeiten von Unternehmen und sollen keine vorhandenen Datenbanken oder Datenbank-Systeme ersetzen. Denn geht es um feste Strukturen und der Zuweisung von Daten untereinander, kommen Unternehmen auch zukünftig nicht um SQL-Datenbanken herum. NoSQL-Datenbanken ergänzen diese Möglichkeiten nur und verbessern die Datenverarbeitung von großen Datenmengen für Big Data.
Vorteile von NoSQL in Kombination mit Big Data
Viele NoSQL-Datenbanken stehen kostenlos als Open Source Software zur Verfügung. Beispiele dafür sind MongoDB, Cassandra und HBase. Vor allem MongoDB zeichnet sich nur eine schnelle Installation und einfache Verwaltung aus.
Wenn Unternehmen keinen eigenen Datenbank-Server betreiben wollen, gibt es in Amazon Web Services (AWS) auch die Möglichkeit, auf den Dienst DynamoDB zu setzen. Über einen Assistenten erstellen Entwickler eigene Tabellen und können diese in Big-Data-Infrastrukturen einbinden. Basis dieser Datenbank ist NoSQL.
NoSQL-Datenbanken unterscheiden sich oft ebenfalls in der Struktur. Während Amazons DynamoDB einfache einfache Key Value Stores nutzt, können Systeme wie MongoDB auch Verknüpfungen zwischen Dokumenten im Speicher herstellen. Das heißt, Entwickler müssen sich nicht nur entscheiden, ob SQL- oder NoSQL-Datenbanken in der eigenen Big-Data-Infrastruktur eingesetzt werden sollen, sondern auch welche Art von NoSQL.
NoSQL-Datenbanken unterstützen vor allem Cluster mit einer großen Anzahl gleichberechtigter Knoten, um Daten zu berechnen. Da das auch der Ansatz von Big-Data-Lösungen wie Hadoop ist, ist der parallele Einsatz daher mehr als sinnvoll. Soll eine NoSQL-Infrastruktur beschleunigt werden, müssen Administratoren keine Optimierung des Quellcodes durchführen, bessere Abfragen schreiben oder Indizes verschiedener Art erstellen. Es reicht aus, dem Cluster weitere Knoten hinzuzufügen, um die Rechenkraft zu erhöhen. Ein Nebeneffekt ist hier auch das Erhöhen der Verfügbarkeit, da neue Knoten auch zur Ausfallsicherheit dienen. Außerdem sind in diesen Szenarien, vor allem im Big-Data-Bereich, in den meisten Fällen keine Datensicherungen mehr notwendig.
Spaltenorientierte und andere NoSQL-Datenbanken
Eine weitere Variante von NoSQL-Datenbanken sind spaltenorientierte „Wide-Column-Datenbanken“. Diese können große strukturierte Datenmengen verarbeiten, die in relationalen Datenbanksystemen bereits Probleme machen, aber eben nicht ganz unstrukturiert sind. Diese Datenbanken bieten einen Vorteil, wenn es eine große Menge an Zeilen, bei gleichzeitig wenig Spalten gibt. Noch effizienter werden diese Datenbanken dann, wenn bei Abfragen auch nur eine Teilmenge der Spalten verwendet wird. Normalerweise muss jede Abfrage immer alle Spalten lesen. Das ist ineffizient und kostet eine Menge Leistung, vor allem bei großen Datenmengen.
Spaltenorientierte Datenbanken nutzen nur genau die Spalten, die für die Abfrage relevant sind. Spalten lassen sich noch in mehrere Bereiche unterteilen. Das ermöglicht einheitliche Datentypen mit wenig unterschiedlichen Werten pro Spalte. Vorteile dabei sind die Möglichkeiten, solche Datenbanken stark komprimieren zu können und dadurch Speicherplatz zu sparen. Bei großen Datenmengen im Big-Data-Bereich bietet sich hier also durchaus enormes Einsparpotenzial.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Graphen-Datenbanken speichern unstrukturierte Daten wiederum in Diagrammen zusammen mit ihren Eigenschaften. Das hier verwendete Datenbankformat RDF „Resource Description Framework” speichert dazu die Daten innerhalb der Graphen. Genutzt wird das vor allem für Benutzer-Beziehungen in sozialen Netzwerken wie Facebook oder Twitter. Traversierung eines Graphen beginnt immer beim Startknoten. Das wiederum beschleunigt Abfragen.
In-Memory-Datenbanken im Vergleich zu NoSQL
In-Memory-Datenbanken haben sich für die Verarbeitung großer Datenmengen ebenfalls durchgesetzt. Hier liegen die kompletten Daten im Arbeitsspeicher des Servers, was Abfragen extrem beschleunigt. Auch relationale Datenbanken wie Microsoft SQL Server 2014 nutzen diese Technik. In-Memory-Datenbanken laden alle Daten, inklusive der notwendigen Servermechanismen, in den Arbeitsspeicher. Die Analyse von großen Datenmengen erfolgt mit In-Memory-Datenbanken nahezu in Echtzeit.
SQL Server 2014 erlaubt das Betreiben kompletter Datenbanken direkt im Arbeitsspeicher. Diese In-Memory-Technologie mit dem Entwicklungs-Namen „Hekaton“, oder offiziell Online Transaction Processing (OLTP) genannt, beschleunigt enorm die Abfragen für integrierte Datenbanken, auch im Big-Data-Bereich. Durch das Verwenden der Technologie lassen sich Datenbanken, laut Microsoft, um den Faktor zehn bis 50 beschleunigen. Vor allem für den Betrieb leistungsstarker Datenbanken kann das eine wichtige Rolle spielen.
Microsoft hat in diesem Bereich auch die Komprimierung verbessert, sodass Daten nicht mehr so viel Arbeitsspeicher benötigen. Laut Microsoft sind die Daten im Arbeitsspeicher nur noch etwa sieben Prozent so groß wie die originalen Daten. Eine weitere Neuerung in diesem Bereich ist die Möglichkeit, die Daten auch aktualisieren zu können. Sie können die Daten daher nicht mehr nur lesen, sondern auch aktualisieren, wenn diese im Speicher des Servers abgelegt werden. Das erspart die Neuerstellung eines solchen Indexes.
Nachteile von NoSQL im Auge behalten
NoSQL-Infrastrukturen, vor allem im Bereich Big Data, sind oft sehr kompliziert aufgebaut. Entwickler und Administratoren müssen viel Zeit für Planung, Entwicklung, Betrieb und Optimierung opfern. Auch die Weiterbildung ist in diesem komplizierten Szenario nicht zu vergessen. Das kostet Geld, was auf der anderen Seite zwar bei den Lizenzen eingespart werden kann, aber ebenfalls investiert werden muss.
Ohne entsprechende Weiterbildung lassen sich solche Szenarien eher selten aufbauen. Dazu kommt der Standard-Nachteil vieler Open-Source-Lösungen: Es gibt nahezu keinen kommerziellen Support. Funktioniert etwas nicht, müssen sich Entwickler und Administratoren selbst helfen. Abfragen sind in NoSQL-Datenbanken aber oft ähnlich zu SQL-Datenbanken, grundlegende Verwaltungs- und Entwicklungs-Ansätze gibt es also durchaus.