Big Data im Supply Chain Management

Spaltenorientierte Datenbanken und In-Memory Big Data im Supply Chain Management

30.12.2016Autor / Redakteur: Anne-Katrin Masuch / Nico Litzel

Big Data wird gemeinhin ungeordnetes Datenvolumen beschrieben, dessen Erfassung, Speicherung, Verwaltung und Analyse eine normale Datenbank nicht bewältigen kann. Allerdings geht es nicht nur um die Menge der enthaltenen Informationen, sondern auch darum, diese aus verschiedenen Blickwinkeln zu strukturieren und zu analysieren.

Anbieter zum Thema

QUNIS GmbH

BigData-Insider

Fivetran Germany GmbH

RELEX Solutions GmbH

Vorteile und Leistungen einer spaltenorientierten Datenbank im Überblick
(Bild: Relex)

Big Data bringt nicht nur in Bereichen wie Marketing oder Online-Business Vorteile. Auch traditionelle Zweige, wie Supply Chain Management (SCM), können von strukturierten Big-Data-Lösungen profitieren durch:

1. Mehr Datentransparenz

2. schnelleres, genaueres Leistungs-Monitoring und Ausnahmenidentifizierung

3. Automatisierte Algorithmen

4. Schnellere, genauere Entscheidungsfindung,

5. Akkurate Analysen und Auswertungen

Die Datenmengen in den Firmen wachsen und Unternehmen müssen flexibler und schneller reagieren, um sich zu behaupten. Sie benötigen mehr Geschwindigkeit bei der Datenanalyse. Big Data kann Gewinnmargen um fünf bis 35 Prozent steigern, aber um riesige Datenmengen effektiv einzusetzen und zu analysieren, braucht die Technologie zusätzliche Fähigkeiten: beispielsweise eine spaltenorientierte Datenbank und In-Memory-Computing.

Spalten- vs. zeilenorientierte Datenbank

Es gibt zwei Optionen, eine Datenbank einheitlich in einem eindimensionalen Datenstrom anzuordnen: Zeilen- und spaltenorientierte Datenbanken. Um zu verstehen, warum Big-Data-Lösungen zur Optimierung der Supply Chain von einer spaltenorientierten Datenbank profitieren, müssen die Datenbanken zunächst verglichen werden:

Zeilenorientierte Datenbanken

Herkömmliche, relationale Datenbanken sind zeilenorientiert. Zeilen werden in der Datenbanktabelle der Reihe nach geschrieben. Das erlaubt ein schnelles Schreiben und ist daher sinnvoll für Anwendungen, die viele oder alle Spalten zugleich abrufen müssen, wie Datensätze mit personenbezogenen Daten, die bei Abruf nebeneinander erscheinen. Beispielsweise Name, Anschrift, Geburtsdatum, Telefonnummer und so weiter. Das Auslesen von zeilenorientierten Datenbanken dauert allerdings lange, weil alle Zeilen hintereinander gescannt werden.

Zeilenorientierte Datenbanken sind daher für OLTP-Systeme (Online Transactional Processing Systems) wie einem ERP geeignet, aus dem ständig viele Informationen in die Datenbank eingespeist werden müssen. Für häufiges Beschreiben brauchen spaltenorientierte Datenbanken mehr Zeit, sind aber beim Abrufen von Daten schneller.

Spaltenorientierte Datenbanken

Spaltenorientierte Datenbanken schreiben Datensätze Spalte für Spalte, also zuerst alle Zeilen der ersten Spalte, dann alle Zeilen der zweiten Spalte, etc. Das ist sinnvoll für die Analyse vielspaltiger Tabellen, deren Daten nicht gleichzeitig abgerufen werden müssen. Abfragen laufen bis 20-mal schneller als bei zeilenorientierten Datenbanken, da nur die für die Auswertung nötigen Spalten und nicht alle Zeilen durchsucht werden müssen.

Das ist nützlich bei OLAP-Systemen (Online Analytical Processing Systems). Daten in spaltenorientierten Datenbanken lassen sich stark komprimieren, weil Werte desselben Datentyps nebeneinander hinterlegt sind – in zeilenorientierten Datenbanken liegen Werte verschiedener Datensätze nebeneinander, weshalb das nicht möglich ist.

Kurzum: Zeilenbasierte Datenbanken sind zum Abruf vieler verschiedener Spalten oder einzelner Zeilen geeignet. Spaltenbasierte Datenbanken sind besser, wenn viele Zeilen oder einzelne Spalten benötigt und Änderungen an einzelnen Datensätzen durchgeführt werden. Spaltenorientierte Big-Data-Datenbanken, wie Relex, können Millionen Datensätze effizient komprimieren und Kalkulationen In-Memory, also im RAM-Speicher, durchführen. Sie berechnen riesige Datenmengen 100-mal schneller als herkömmliche Systeme. Fortschrittliche Algorithmen und Analysetools verwandeln Daten in eine mächtige Quelle, um bessere Prognosen für Warenauffüllungen anzubieten.

Relex‘ integrierte Big-Data-Lösung

Eine Kenntnis der verschiedenen Datenwerte ermöglicht eine mindestens 10-mal stärkere Komprimierung als bei zeilenorientierten Datenbanken. Benötigt eine herkömmliche relationale Datenbank 100 Gigabyte Speicherplatz, nimmt die eigens entwickelte Relex-Datenbank nur zehn Gigabyte Speicherplatz ein.

Relex‘ innere Architektur besteht aus mehreren Threads, wodurch diverse zeitintensive Arbeitsvorgänge parallel laufen können. Je mehr Threads parallel laufen, desto schneller werden die Daten wie Auswertungsmöglichkeiten der Suchanfragen, Ladezeiten oder Kalkulationen verarbeitet.

In-Memory-Technologie

Die In-Memory-Technik erlaubt dank der starken Komprimierung, die Daten im Arbeitsspeicher abzulegen. Suchanfragen der Datenbank werden im RAM bearbeitet. Das vermeidet zeitintensives Hin- und Herschieben der Daten zwischen ERP und Festplatte, was erneut zu Leistungserhöhung führt und Zeit spart, weil der gesamte Lese-Schreib-Prozess entfällt. In-Memory-Computing mithilfe von Relex ist fähig, Informationen für 50 Millionen SKUs (Stock Keeping Units, Bestandseinheiten/Artikelnummern) in zwei Stunden zu verarbeiten. Prognosen können theoretisch für mehrere Jahre vorgenommen werden, aber durch ein sich ständig änderndes Sortiment ist es sinnvoll, nur bis zu einem halben Jahr im Voraus zu planen.

Zum Beispiel können Disponenten Möglichkeiten für kommende Kampagnen durch das Durchspielen von Hypothesen für alle möglichen Permutationen analysieren. Historische Daten des Kampagnenprodukts oder, falls es diese nicht gibt, Daten von vergleichbaren Produkten, ermöglichen Prognosen für jede Filiale, jeden Ort, jeden Rabatt, saisonale Kombination und weitere Variationen. Die in Sekundenschnelle generierten Ergebnisse gewähren Einblicke in Bereiche wie den während Kampagnen erzielten Profit oder die laufende Umsatzsteigerung. So lassen sich potenzielle Engpässe und Bedarfsspitzen rechtzeitig kennzeichnen, sodass Unternehmen reagieren können.

Die SCM-Software von Relex besitzt eine integrierte, speziell angefertigte Datenbank. Das ist bisher unüblich. Datenbank und Anwendung gelten meist als getrennte Lösungen, die oft von unterschiedlichen Anbietern stammen. Die Datenbank dient als Server, an die die Anwendungssoftware gekoppelt wird. Das verkompliziert jedoch die Kommunikation zwischen Anwendung und Datenbank und führt zu Anwendungsgrenzen von Client-Server-Modellen. Um die benötigten Antworten zu erhalten, müssen präzise Anfragen gestellt werden. Die Antwort besteht oft in kurzen Zusammenfassungen einer begrenzten Anzahl von Dateien oder nur Kopien dieser – eine direkte Kommunikation ist nicht ohne weiteres möglich.

SQL-Erweiterungen

Die meisten Datenbankserver erlauben eine Umgehung der Beschränkung der SQL-Sprache über Erweiterungen. Diese sind häufig in anbieterspezifischer Sprache geschrieben, sodass eigentlich von der Anwendung verarbeitete Daten nun über die Datenbank laufen. Damit findet die Verarbeitung näher an der Datenquelle statt und das Hin- und Herschieben von Daten zwischen Datenbank und Anwendung wird minimiert. Aber es gibt Einschränkungen: Die nutzerspezifische Sprache ist kein adäquates Pendant zur vollwertigen Programmiersprache und schränkt Datenzugriffsmuster ein.

Relex erlaubt einen direkten Zugriff auf die Datenbank und das Arbeiten mit ihr. Das vermeidet das Hin- und Herschicken von Daten und verbessert zusätzlich die Performance. Datenbank und Anwendung sind eine einzelne, nahtlos ineinander übergehende Software. Darum laufen Prozesse auf niedrigem Kapazitätslevel und häufige Anfragen werden bei der Datenspeicherung direkt einkalkuliert.

Eine individuelle Anpassung macht Aufbau und Entwicklung der Software anspruchsvoll und zeitintensiv, dafür bietet die Lösung eine überdurchschnittlich hohe Leistung:

Ca. fünf Milliarden Prognosen pro Stunde.

Ca. eine Milliarde Transaktionen pro Stunde hochladen

Eine Million Produkte in 1 Sekunde nach Lieferbarkeit sortieren

Berechnung von 50 Mio. SKUs in zwei Stunden

(ID:44397266)