Kommentar von Gregory Herbert, Dataiku Von Big Data zu KI – mit Künstlicher Intelligenz den Mehrwert maximieren

Von Gregory Herbert Lesedauer: 6 min |

Anbieter zum Thema

In einer zunehmend dynamischen und sich schnell verändernden Unternehmenswelt ist Big Data Analytics längst unverzichtbar geworden. Laut einer repräsentativen Umfrage von Bitkom Research nutzen bereits 41 Prozent der deutschen Unternehmen Big Data Analytics. Sie speichern, verarbeiten und analysieren große Datenmengen. Die Vorteile für Unternehmen liegen auf der Hand: Je größer die Datenvolumina, desto valider und differenzierter die datenbasierten Entscheidungen.

Der Autor: Gregory Herbert ist Senior Vice President & General Manager, EMEA, bei Dataiku
Der Autor: Gregory Herbert ist Senior Vice President & General Manager, EMEA, bei Dataiku
(Bild: Dataiku)

Big Data ist in den meisten Fällen daher das Herzstück einer Business Intelligence (BI). Oft fließen neben eigenen Daten, etwa aus dem Marketing oder dem Vertrieb, dafür auch externe Daten in die Analysen ein – seien es Finanz- oder Wetterdaten. Im Endeffekt kann BI dafür sorgen, Ressourcen einzusparen und das Risiko von Fehlinvestitionen zu senken. Gehen Unternehmen allerdings einen Schritt weiter, können sie diesen Mehrwert mit vergleichsweise wenig zusätzlichen Aufwand deutlich steigern.

Denn BI-Projekte erfordern einen hohen Kosten- und Zeitaufwand: Viele Unternehmen haben bereits umfangreiche Investitionen in den Aufbau von Big-Data-Lösungen getätigt und zahlen laufende Gebühren für Storage, Maintenance, Compliance und Security. So verbringen die auf dem Arbeitsmarkt stark umworbenen „Data Scientists“ etwa 80 Prozent ihrer Zeit mit der Beschaffung, Aufbereitung und Verarbeitung von Daten zur Erstellung von Modellen. Auch ein globaler Vergleichswert deutet darauf hin, dass Unternehmen immer höhere Beträge ausgeben, um Daten zu speichern.

Laut Statista zahlten Unternehmen im Schnitt je Mitarbeiter 2021 rund 12,73 US-Dollar für die Datenspeicherung. Tendenz steigend: Im Jahr zuvor waren es noch etwa 70 US-Cent weniger. Und ergänzende Service-Kosten, etwa für Security, sind dabei noch nicht berücksichtigt. Auch angesichts des skizzierten Aufwandes und solcher Kosten erwägen durch die derzeit geschwächte Wirtschaft kriselnde Unternehmen, ihre gespeicherten Datenmengen zu reduzieren, um ihre laufenden Kosten zu senken. Das allerdings wäre rückschrittig – und kurz gedacht. Langfristig drohen diese Unternehmen im Wettbewerb ins Hintertreffen zu geraten.

Investieren ist angezeigt

Denn statt auf Teufel komm raus Kosten reduzieren zu wollen, sollten Unternehmen lieber versuchen, den Mehrwert zu maximieren, den die vorliegenden Daten bergen. Dafür müssen sie ihre Business-Intelligence-Strategie um Künstliche Intelligenz ergänzen. Investieren statt reduzieren.

Die Anwendung von Künstlicher Intelligenz mag im ersten Augenblick kompliziert und langwierig klingen. Viele Entscheider glauben, dass sie ihre Daten erst vollständig im Griff haben müssen, bevor sie sich an KI-Analysen wagen; gehen davon aus, dass zunächst die traditionelle oder Business-Intelligence-Analyse reibungslos funktionieren muss, einschließlich Datenkatalogen, Data Lineage oder Master Data Management, bevor sie KI planen.

Doch Unternehmen können sowohl für herkömmliche Big-Data-Analysen als auch für KI-Analysen gerüstet sein, indem sie für beides die gleichen Frameworks und Tools nutzen. Was die Voraussetzung dafür ist? Um von der Datenspeicherung zu BI- sowie KI-Einsichten und schließlich zu Geschäftsentscheidungen zu gelangen, müssen die Rohdaten zunächst die Daten- und Analysepipeline durchlaufen. Ohne eine gute Datenqualität funktioniert auch der beste KI-Algorithmus nicht. Sowohl für BI als auch für KI beginnt der Prozess mit Zugang zu Datenquellen und der Verknüpfung dieser Datenquellen mit der IT-Infrastruktur.

Explorative Datenanalysen und Visualisierungen

Im Rahmen von BI-Analytics bieten sich im nächsten Schritt explorative Datenanalysen und Visualisierungen an. Bei der explorativen Datenanalyse werden verschiedene Daten mit dem Ziel untersucht, Zusammenhänge zwischen den Daten zu erkennen und daraus Hypothesen aufzustellen. Es folgen die Datenvorbereitung und das Erstellen von Datenprodukten – etwa durch Tabellen, Diagramme, Grafiken oder Dashboards. In einer idealen Welt wäre die Speicherkomponente vollständig entwickelt und die Datenpipeline stabil, sodass zuverlässige Analysen zu schnellen Geschäftsentscheidungen führen.

Gerade bei den explorativen Datenanalysen ist Künstliche Intelligenz jedem menschlichen Mitarbeitenden überlegen: Denn KI ist, verglichen mit einem einzelnen Menschen, in der Lage, ein Vielfaches an Zusammenhängen und Variablen in die Kalkulationen einzubeziehen.

Der entscheidende Faktor aber ist: Die Voraussetzungen für BI und KI sind gleich: Um Daten für solche Analysen zu speichern, müssen Datenschemata und Speichertypen definiert werden, Stammdaten verwaltet, die Datenqualität überwacht und die Strategie der Cloud-/On-Premises-Architektur definiert werden. Dazu kommen permanent laufende Sicherheitssysteme. Ebenfalls entscheidend für solche Datenpipelines sind eine funktionierende Governance, eine umfassende Sequenzierung der Daten sowie – unabhängig von den Datenvolumina – Robustheit und Skalierbarkeit. Von diesem Idealszenario sind viele Unternehmen allerdings weit entfernt. In der Realität findet auf der Speicherseite oft eine kontinuierliche Anpassung statt – es werden ständig neue Architekturstrategien und Datenspeichertypen entwickelt, ebenso wie neue Schemata und neue Datentypen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Welche Datenpipeline?

Wenn es um Datenpipelines geht, herrscht daher oft große Verwirrung darüber, welche Pipeline für das Unternehmen die richtige ist, um mit den richtigen Datensätzen und den geeigneten Transformationen die gewünschten Ergebnisse zu erzielen. Faktoren, wie mangelnde Transparenz in Bezug auf die Datenreihenfolge, die Verwendung unübersichtlicher Tabellen und Spreadsheets für Datentransformationen sowie Engpässe und Kapazitätsbeschränkungen führen letztendlich zu zeitraubenden Iterationen. Anders als im obigen Idealszenario können diese Probleme zu einer langsamen, unsicheren Entscheidungsfindung führen, die auf veralteten oder falschen Informationen beruhen und Zweifeln an der Richtigkeit der Daten aufkommen lassen.

Statt vor diesen Herausforderungen einzuknicken, können Unternehmen schon jetzt ihre Analytik deutlich verbessern, indem sie große Datenspeicher nutzen, wie zum Beispiel Data Lakes. Bei einem Data Lake handelt es sich um einen großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Voraussetzung dafür ist, dass die Datenpipeline über die nötige Flexibilität verfügt, um eine Verbindung zum Datenspeicher herzustellen und die zu speichernden Datentypen zu verarbeiten.

Außerdem sollte eine hochwertige Datenpipeline Folgendes beinhalten:

  • Eine möglichst große Effizienz (wenige Arbeitsstunden sind erforderlich) und ein hoher Durchsatz an Daten. Der Datendurchsatz gibt dabei die maximale Menge an Nutzdaten an, die in einer bestimmten Zeit übertragen oder verarbeitet werden.
  • Transparenz der Datenabfolge und Reproduzierbarkeit der Analysen zur Stärkung des Vertrauens in die Daten.
  • Wiederverwendbare Daten, Unternehmen sollten also auch Daten aus anderen Quellen hinzu ziehen, um Zeit zu sparen und wichtige Erkenntnisse berücksichtigen zu können.
  • Robustheit, damit Datenpipelines zuverlässig sind, nicht von einem Moment auf den anderen einbrechen.
  • Selbstbedienungsfunktionen zur Beseitigung von Personalengpässen und zur Beschleunigung der Entscheidungsfindung. Sprich: Auch ohne Daten-Experten sollten Mitarbeiterinnen und Mitarbeiter in der Lage sein, Erkenntnisse zu gewinnen und die Daten zu nutzen.

Was dabei oft untergeht: Durch eine solche Verbesserung der eigenen Datenpipeline haben Unternehmen tatsächlich schon wichtige Arbeit für den Aufbau einer KI-Datenpipeline geleistet. Der letzte Schritt bei der Umwandlung der BI-Datenpipeline in eine KI-Datenpipeline besteht in der Erstellung von KI-Datenprodukten. Der große Vorteil: Beim Übergang von der Erstellung von BI-Datenprodukten zu KI-Datenprodukten können bereits erstellte Datenbestände und Infrastrukturen wiederverwendet werden. Wenn Unternehmen auf eine ähnliche Nutzerfreundlichkeit setzen, wie bei Big Data, stehen die Chancen gut, dass die Teams die KI umgehend nutzen. Basieren BI und KI auf den gleichen Rahmenbedingungen, lässt sich beides rasch skalieren.

Angesichts der schwierigen wirtschaftlichen Lage müssen sich viele Unternehmen mehr denn je auf zentrale Projekte konzentrieren. Die Faustformel lautet: KI sollte mit möglichst wenig Aufwand viel Mehrwert generieren – also Kosten optimieren und Effizienz steigern. BI und KI beinhalten die gleichen oder viele der gleichen Datenquellen, basieren auf den gleichen Datenpipelines. Jedes Team, das für die eigenen Business-Intelligence-Datenquellen anbindet und Pipelines erstellt, sollte daher immer im Hinterkopf behalten, dass diese auch mit KI-Modellen kompatibel sein müssen. Denn KI maximiert schlussendlich den Ertrag, den Unternehmen durch ihren Aufwand für eine Big Data basierte Business Intelligence bereits in die Wege geleitet haben. Die KI-Algorithmen liefern stärker automatisiert validere Ergebnisse.

(ID:49270121)