In einer zunehmend dynamischen und sich schnell verändernden Unternehmenswelt ist Big Data Analytics längst unverzichtbar geworden. Laut einer repräsentativen Umfrage von Bitkom Research nutzen bereits 41 Prozent der deutschen Unternehmen Big Data Analytics. Sie speichern, verarbeiten und analysieren große Datenmengen. Die Vorteile für Unternehmen liegen auf der Hand: Je größer die Datenvolumina, desto valider und differenzierter die datenbasierten Entscheidungen.
Der Autor: Gregory Herbert ist Senior Vice President & General Manager, EMEA, bei Dataiku
(Bild: Dataiku)
Big Data ist in den meisten Fällen daher das Herzstück einer Business Intelligence (BI). Oft fließen neben eigenen Daten, etwa aus dem Marketing oder dem Vertrieb, dafür auch externe Daten in die Analysen ein – seien es Finanz- oder Wetterdaten. Im Endeffekt kann BI dafür sorgen, Ressourcen einzusparen und das Risiko von Fehlinvestitionen zu senken. Gehen Unternehmen allerdings einen Schritt weiter, können sie diesen Mehrwert mit vergleichsweise wenig zusätzlichen Aufwand deutlich steigern.
Denn BI-Projekte erfordern einen hohen Kosten- und Zeitaufwand: Viele Unternehmen haben bereits umfangreiche Investitionen in den Aufbau von Big-Data-Lösungen getätigt und zahlen laufende Gebühren für Storage, Maintenance, Compliance und Security. So verbringen die auf dem Arbeitsmarkt stark umworbenen „Data Scientists“ etwa 80 Prozent ihrer Zeit mit der Beschaffung, Aufbereitung und Verarbeitung von Daten zur Erstellung von Modellen. Auch ein globaler Vergleichswert deutet darauf hin, dass Unternehmen immer höhere Beträge ausgeben, um Daten zu speichern.
Laut Statista zahlten Unternehmen im Schnitt je Mitarbeiter 2021 rund 12,73 US-Dollar für die Datenspeicherung. Tendenz steigend: Im Jahr zuvor waren es noch etwa 70 US-Cent weniger. Und ergänzende Service-Kosten, etwa für Security, sind dabei noch nicht berücksichtigt. Auch angesichts des skizzierten Aufwandes und solcher Kosten erwägen durch die derzeit geschwächte Wirtschaft kriselnde Unternehmen, ihre gespeicherten Datenmengen zu reduzieren, um ihre laufenden Kosten zu senken. Das allerdings wäre rückschrittig – und kurz gedacht. Langfristig drohen diese Unternehmen im Wettbewerb ins Hintertreffen zu geraten.
Investieren ist angezeigt
Denn statt auf Teufel komm raus Kosten reduzieren zu wollen, sollten Unternehmen lieber versuchen, den Mehrwert zu maximieren, den die vorliegenden Daten bergen. Dafür müssen sie ihre Business-Intelligence-Strategie um Künstliche Intelligenz ergänzen. Investieren statt reduzieren.
Die Anwendung von Künstlicher Intelligenz mag im ersten Augenblick kompliziert und langwierig klingen. Viele Entscheider glauben, dass sie ihre Daten erst vollständig im Griff haben müssen, bevor sie sich an KI-Analysen wagen; gehen davon aus, dass zunächst die traditionelle oder Business-Intelligence-Analyse reibungslos funktionieren muss, einschließlich Datenkatalogen, Data Lineage oder Master Data Management, bevor sie KI planen.
Doch Unternehmen können sowohl für herkömmliche Big-Data-Analysen als auch für KI-Analysen gerüstet sein, indem sie für beides die gleichen Frameworks und Tools nutzen. Was die Voraussetzung dafür ist? Um von der Datenspeicherung zu BI- sowie KI-Einsichten und schließlich zu Geschäftsentscheidungen zu gelangen, müssen die Rohdaten zunächst die Daten- und Analysepipeline durchlaufen. Ohne eine gute Datenqualität funktioniert auch der beste KI-Algorithmus nicht. Sowohl für BI als auch für KI beginnt der Prozess mit Zugang zu Datenquellen und der Verknüpfung dieser Datenquellen mit der IT-Infrastruktur.
Explorative Datenanalysen und Visualisierungen
Im Rahmen von BI-Analytics bieten sich im nächsten Schritt explorative Datenanalysen und Visualisierungen an. Bei der explorativen Datenanalyse werden verschiedene Daten mit dem Ziel untersucht, Zusammenhänge zwischen den Daten zu erkennen und daraus Hypothesen aufzustellen. Es folgen die Datenvorbereitung und das Erstellen von Datenprodukten – etwa durch Tabellen, Diagramme, Grafiken oder Dashboards. In einer idealen Welt wäre die Speicherkomponente vollständig entwickelt und die Datenpipeline stabil, sodass zuverlässige Analysen zu schnellen Geschäftsentscheidungen führen.
Gerade bei den explorativen Datenanalysen ist Künstliche Intelligenz jedem menschlichen Mitarbeitenden überlegen: Denn KI ist, verglichen mit einem einzelnen Menschen, in der Lage, ein Vielfaches an Zusammenhängen und Variablen in die Kalkulationen einzubeziehen.
Der entscheidende Faktor aber ist: Die Voraussetzungen für BI und KI sind gleich: Um Daten für solche Analysen zu speichern, müssen Datenschemata und Speichertypen definiert werden, Stammdaten verwaltet, die Datenqualität überwacht und die Strategie der Cloud-/On-Premises-Architektur definiert werden. Dazu kommen permanent laufende Sicherheitssysteme. Ebenfalls entscheidend für solche Datenpipelines sind eine funktionierende Governance, eine umfassende Sequenzierung der Daten sowie – unabhängig von den Datenvolumina – Robustheit und Skalierbarkeit. Von diesem Idealszenario sind viele Unternehmen allerdings weit entfernt. In der Realität findet auf der Speicherseite oft eine kontinuierliche Anpassung statt – es werden ständig neue Architekturstrategien und Datenspeichertypen entwickelt, ebenso wie neue Schemata und neue Datentypen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Welche Datenpipeline?
Wenn es um Datenpipelines geht, herrscht daher oft große Verwirrung darüber, welche Pipeline für das Unternehmen die richtige ist, um mit den richtigen Datensätzen und den geeigneten Transformationen die gewünschten Ergebnisse zu erzielen. Faktoren, wie mangelnde Transparenz in Bezug auf die Datenreihenfolge, die Verwendung unübersichtlicher Tabellen und Spreadsheets für Datentransformationen sowie Engpässe und Kapazitätsbeschränkungen führen letztendlich zu zeitraubenden Iterationen. Anders als im obigen Idealszenario können diese Probleme zu einer langsamen, unsicheren Entscheidungsfindung führen, die auf veralteten oder falschen Informationen beruhen und Zweifeln an der Richtigkeit der Daten aufkommen lassen.
Statt vor diesen Herausforderungen einzuknicken, können Unternehmen schon jetzt ihre Analytik deutlich verbessern, indem sie große Datenspeicher nutzen, wie zum Beispiel Data Lakes. Bei einem Data Lake handelt es sich um einen großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Voraussetzung dafür ist, dass die Datenpipeline über die nötige Flexibilität verfügt, um eine Verbindung zum Datenspeicher herzustellen und die zu speichernden Datentypen zu verarbeiten.
Außerdem sollte eine hochwertige Datenpipeline Folgendes beinhalten:
Eine möglichst große Effizienz (wenige Arbeitsstunden sind erforderlich) und ein hoher Durchsatz an Daten. Der Datendurchsatz gibt dabei die maximale Menge an Nutzdaten an, die in einer bestimmten Zeit übertragen oder verarbeitet werden.
Transparenz der Datenabfolge und Reproduzierbarkeit der Analysen zur Stärkung des Vertrauens in die Daten.
Wiederverwendbare Daten, Unternehmen sollten also auch Daten aus anderen Quellen hinzu ziehen, um Zeit zu sparen und wichtige Erkenntnisse berücksichtigen zu können.
Robustheit, damit Datenpipelines zuverlässig sind, nicht von einem Moment auf den anderen einbrechen.
Selbstbedienungsfunktionen zur Beseitigung von Personalengpässen und zur Beschleunigung der Entscheidungsfindung. Sprich: Auch ohne Daten-Experten sollten Mitarbeiterinnen und Mitarbeiter in der Lage sein, Erkenntnisse zu gewinnen und die Daten zu nutzen.
Was dabei oft untergeht: Durch eine solche Verbesserung der eigenen Datenpipeline haben Unternehmen tatsächlich schon wichtige Arbeit für den Aufbau einer KI-Datenpipeline geleistet. Der letzte Schritt bei der Umwandlung der BI-Datenpipeline in eine KI-Datenpipeline besteht in der Erstellung von KI-Datenprodukten. Der große Vorteil: Beim Übergang von der Erstellung von BI-Datenprodukten zu KI-Datenprodukten können bereits erstellte Datenbestände und Infrastrukturen wiederverwendet werden. Wenn Unternehmen auf eine ähnliche Nutzerfreundlichkeit setzen, wie bei Big Data, stehen die Chancen gut, dass die Teams die KI umgehend nutzen. Basieren BI und KI auf den gleichen Rahmenbedingungen, lässt sich beides rasch skalieren.
Angesichts der schwierigen wirtschaftlichen Lage müssen sich viele Unternehmen mehr denn je auf zentrale Projekte konzentrieren. Die Faustformel lautet: KI sollte mit möglichst wenig Aufwand viel Mehrwert generieren – also Kosten optimieren und Effizienz steigern. BI und KI beinhalten die gleichen oder viele der gleichen Datenquellen, basieren auf den gleichen Datenpipelines. Jedes Team, das für die eigenen Business-Intelligence-Datenquellen anbindet und Pipelines erstellt, sollte daher immer im Hinterkopf behalten, dass diese auch mit KI-Modellen kompatibel sein müssen. Denn KI maximiert schlussendlich den Ertrag, den Unternehmen durch ihren Aufwand für eine Big Data basierte Business Intelligence bereits in die Wege geleitet haben. Die KI-Algorithmen liefern stärker automatisiert validere Ergebnisse.