Kommentar von Patrick Arnold, Ausy Technologies Germany AG Aufbau einer Cloud-Datenplattform für Analysen und KI

Autor / Redakteur: Patrick Arnold / Nico Litzel

Künstliche Intelligenz ist ein Trendthema, das immer mehr Unternehmen nutzen wollen. Besonders im Interesse steht dabei eine intelligente und automatische Datenauswertung. Ein erfolgreicher Einsatz von Machine Learning setzt jedoch sehr umfangreiche Datensets voraus, denn mit diesen wird das KI-Modell über viele Iterationen hinweg trainiert, sodass es am Ende verlässliche Ergebnisse auszugeben vermag.

Firmen zum Thema

Der Autor: Patrick Arnold ist IT-Consultant und Mitglied des Technologie-Managements bei der Ausy Technologies Germany AG.
Der Autor: Patrick Arnold ist IT-Consultant und Mitglied des Technologie-Managements bei der Ausy Technologies Germany AG.
(Bild: BECKER LACOUR - Olaf Becker)

Doch wie muss die IT-Architektur dahinter aussehen? Schließlich muss sie in der Lage sein, die mitunter riesigen Datenmengen zu verarbeiten sowie schnell zu skalieren. Das ist alles andere als eine triviale Angelegenheit, weshalb eine herkömmliche Architektur nicht mehr genügt. Vielmehr braucht es innovative Datenplattformen für diesen neuen Typ von digitalen Anwendungen. Im Folgenden finden stellen wir eine Übersicht über den Aufbau einer solchen Architektur vor, die wir in einem Kundenprojekt mithilfe des Google Cloud Stacks entwickelt haben.

Herausforderungen bei der Einführung und Anwendung KI-gestützter Datenanalysen

Eine erste Herausforderung stellt die Skalierung der IT-Infrastruktur im Hinblick auf die Datenmenge dar. In den kommenden drei bis vier Jahren ist dabei mit einer Zunahme um etwa das Fünffache zu rechnen. Die IT-Infrastruktur, welche eine KI-Lösung zur Datenanalyse beheimaten soll, muss daher schon von vornherein auf Wachstum ausgelegt werden. Durch die Zunahme kontinuierlicher Datenströme – insgesamt bis zu 25 Prozent – ist die Streamverarbeitung der Batchverarbeitung vorzuziehen. Das zieht häufig eine technische Umstellung nach sich.

Um hiermit Schritt zu halten, müssen Unternehmen die Weichen neu stellen – nicht nur auf die IT-Architektur, sondern auch auf die gesamte Organisation bezogen. Um nachhaltig von Datenanalysen der Unternehmensprozesse zu profitieren, genügt es nicht, nur die Datenpools isolierter Silos unter die Lupe zu nehmen. Vielmehr muss sich die Organisation auf eine „Datenkultur“ einstellen, bisherige Silos verbinden sowie Daten aus allen Unternehmensbereichen der KI zuführen.

Bei einem Großteil der Daten, die zukünftig in Analyseprozesse einfließen, wird es sich um unstrukturierte Daten handeln – also zum Beispiel Bilder, Video- und Audio-Dateien oder auch Fließtext. Das Speichern und Verarbeiten dieser Daten erfolgt sinnvollerweise durch nicht-relationale (bzw. NoSQL-)Datenbanken wie MongoDB oder CouchDB. Allerdings werden strukturierte Daten in SQL-Datenbanken auch mittelfristig keineswegs ihre Gültigkeit verlieren. Die unstrukturierten Daten sind daher mit strukturierten Daten zu kombinieren und zusammenzuführen, was eine zusätzliche Herausforderung darstellt.

Zu all diesen Herausforderungen kommt dazu, dass Know-how und personelle Ressourcen im Bereich KI/ML einen Engpass darstellen. Organisation und Infrastruktur müssen darauf eingestellt werden, aus möglichst wenig Input an Personalstunden möglichst viel Output zu generieren. Das gelingt am besten mit einem zentralen Enterprise Data Warehouse (EDW), dessen Aufbau im nächsten Abschnitt dargestellt ist. Für das erwähnte Kundenprojekt wurde ein EDW mit dieser Methodik eingeführt.

Ein zentrales Enterprise Data Warehouse beschleunigt den technologischen Wandel

Um erfolgreich von einer Silo- zu einer EDW-Infrastruktur zu gelangen, hat sich die folgende Vorgehensweise herauskristallisiert:

  • 1. Migration des bestehenden Data Lake bzw. Data Warehouse in die Cloud: Vor dem Projekt wurde eine Kostenschätzung zu verschiedenen Architekturmodellen für das EDW erstellt. Diese kam zum Ergebnis, dass eine Migration in die Cloud die Total Cost of Ownership (TCO) eines Data Warehouse im Vergleich zur On-Premises-Option um mehr als die Hälfte senken kann. Betriebswirtschaftlich interessant ist dabei zudem, dass keine Kapitalinvestitionen notwendig sind, sondern für die Cloud lediglich Betriebs- und geringfügige Administrationskosten anfallen. Vordefinierte Migrationsskripts helfen dabei, den Übergang einfach zu gestalten – in unserem Beispielprojekt von einer On-Premises-Lösung mit Teradata auf Google BigQuery.
  • 2. Aufbrechen der Silostruktur, Verfügbarmachen der Analysefunktionen und Aufbau einer Datenkultur im gesamten Unternehmen: Unternehmen generieren Daten in den unterschiedlichsten Silos und Kanälen. Die Fragmentierung der Silo-Landschaft nimmt im Zuge der Digitalisierung stetig zu, denn jede Fachabteilung nutzt für sich jeweils eigene Software. Häufig werden diese auch noch über ein Software-as-a-Service-Modell bezogen, sodass die Daten über Schnittstellen von den Datenbanken der Anbieter in die eigenen Systeme transferiert werden müssen. Die Daten aus den Silos müssen also zunächst im EDW zentralisiert und dann wiederum allen Stakeholdern des Unternehmens dezentral zur Verfügung gestellt werden. Um KI- und datengestützte Geschäftsentscheidungen auf allen Ebenen zu ermöglichen, brauchen Mitarbeiter im ganzen Unternehmen schließlich auch die entsprechenden Zugänge. In der zentralen Plattform werden alle Prozesse gebündelt und ganzheitlich unter die Lupe genommen, sodass Unternehmensbereiche gegenseitig von ihren Erkenntnissen profitieren – frei nach dem Motto: „Das Ganze ist mehr als die Summe seiner Teile.“
  • 3. Einführung Kontext-bezogener Entscheidungsfindung in Echtzeit: Für eine profitable Business-Entscheidung sind zwei Faktoren entscheidend: Einerseits die Ausführungszeit beziehungsweise -latenz, andererseits der Datenkontext. Vor allem räumliche Daten – also beispielsweise, woher eine Anfrage kommt – sind wichtig für das Verständnis der analysierten Ereignisse. Der Einsatz Geografischer Informationssysteme (GIS) in Kombination mit KI war in unserem Implementierungsbeispiel mit BigQuery ein wichtiges Ziel. Das Vorgehen hat den Vorteil, dass Daten in Echtzeit in BigQuery hinein und weiter in eine SQL-Datenbank geströmt werden können. Während des Streamingvorgangs sind KI-Analysen in Echtzeit möglich.
  • 4. „Leap-Frogging“ (d. h., sprunghafte Weiterentwicklung) hin zu einer Ende-zu-Ende-umfassenden KI-Lösung: Wie bei fast allen Software-Lösungen gilt es auch bei KI, eine grundsätzliche Entscheidung zu treffen zwischen einer Eigenentwicklung – zum Beispiel auf Basis von Open Source Frameworks – und dem Einkauf einer fertigen Lösung am Markt. Es ist allerdings wenig sinnvoll, bereits vortrainierte KI-Modelle einzukaufen, denn sie gehen in der Regel am gewünschten Anwendungsfall vorbei. Alle Angebote sollten genau daraufhin geprüft werden, ob sie den erforderlichen Leistungskriterien genügen. Prinzipiell können integrierte Lösungen viel Zeit und Aufwand sparen, die sonst für die Entwicklung von Schnittstellen zwischen separaten Diensten anfallen würden.
  • 5. Entfesseln datengetriebener Innovationen durch Bereitstellung einer geeigneten KI-Lösung: Die wertvollen Erkenntnisse aus den Daten bringt schließlich die KI-Plattform. Sinnvoll ist es, diese in drei Typen zu unterteilen. Eine „Out of the box“-KI ist gut geeignet, um datenbezogene Geschäftsprozesse – zum Beispiel in einem Customer Interaction Center (CIC) – zu optimieren. Allerdings handelt es sich um Standardlösungen, die keine nennenswerten Wettbewerbsvorteile eröffnen. Eher, wenngleich noch nicht vollkommen individuell, ist der zweite Typ: Nämlich ein KI-Modell, das aus vorgefertigten Modulblöcken zusammengestellt wird. Dieses passt in der Regel zu der Aufgabe, Erkenntnisse aus den unternehmenseigenen Daten zu generieren. Am anspruchsvollsten ist dann noch der dritte Typ, nämlich das individuelle KI-Modell. Dieses wird von Grund auf durch eigene Datensets trainiert. Dabei muss zwar viel Zeit und Aufwand hineinfließen, jedoch ist das hier entwickelte Vorgehen einzigartig und kann einen spürbaren Wettbewerbsvorteil eröffnen. Die Aufteilung in diese drei beschriebenen Typen von KI ermöglicht es, die knappen Personalressourcen sinnvoll zu verteilen.

Sind alle fünf Schritte erfolgreich abgeschlossen, erhält das Anwenderunternehmen eine mächtige Lösung, um entscheidungsrelevante Erkenntnisse aus allen Datenströmen zu gewinnen.

Legacy-Systeme sowie Datenqualität und -zugang stellen häufige Hindernisse dar

Auf dem Weg zum EDW gibt es in aller Regel noch einige Hindernisse, die es auszuräumen gilt. Zunächst sind da einmal die Legacy-Systeme, deren Modernisierung und Wartung relativ gesehen sehr teuer ist. Hierdurch ist die Skalierbarkeit beschränkt, sodass die Infrastruktur dem schnellen Datenwachstum nicht standhalten kann. Grundsätzlich muss daher in Frage gestellt werden: Sind die bestehenden Systeme überhaupt in der Lage, KI- und ML-Lösungen zu unterstützen? Ist der Aufwand, sie zu betreiben und zu „tunen“, angemessen – angesichts der Einblicke, die sie am Ende generieren?

Doch nicht nur in der Infrastruktur, sondern auch im Prozess der Datenerhebung treten einige Hindernisse auf, die es zu überwinden gilt. So können übertrieben restriktive Datenschutz- und Sicherheitsbestimmungen die notwendige Konsolidierung der Datenströme erheblich einschränken. Daneben sind die Datenquellen häufig nicht geeignet, um stets die aktuellen Daten vorzuhalten oder einzuspeisen. KI-Einblicke sind allerdings nur so gut und umfangreich, wie die verfügbare Datenbasis. Die Datenqualität ist damit der grundlegende Erfolgsfaktor für jede KI-Strategie.

Aufbau einer skalierbaren Datenplattform mit KI

Unser Praxisbeispiel einer Datenplattform, die KI-Analysefunktionen ermöglicht, beruht auf Google Cloud. Analog ließe es sich jedoch auch auf dem Cloud Stack eines vergleichbaren anderen Anbieters aufbauen, zum Beispiel Amazon Web Services (AWS) oder Microsoft Azure.

Orchestriert wird die Plattform nach den Prinzipien von Continuous Integration / Continuous Delivery (CI/CD). Hierdurch werden bisherige Integrationsprobleme überwunden, sodass die beteiligten Entwickler ihren Code nahtlos in den bestehenden einpflegen können. In fast allen Phasen der Anwendungsentwicklung kommt dabei Automatisierung zum Tragen. Wie dies in der Praxis aussehen kann, zeigt das folgende Schaubild:

Prozessübersicht der Continuous Integration / Continuous Delivery (CI/CD) in einer KI-Analyse-Lösung auf Basis von Google Cloud
Prozessübersicht der Continuous Integration / Continuous Delivery (CI/CD) in einer KI-Analyse-Lösung auf Basis von Google Cloud
(Bild: Google)

Durch eine solche CI/CD-Pipeline entsteht ein kontinuierlicher Datenstrom, der in Erkenntnisse für die relevanten Entscheidungen mündet. Die Lösung kann in nahezu Echtzeit auf Veränderungen reagieren und Feedback-Schleifen berücksichtigen. Hierdurch lassen sich zum Beispiel „Frühwarnsysteme“ realisieren, die ein entschiedenes Handeln bei rapiden Veränderungen ermöglichen.

Zuletzt sollte nicht unerwähnt bleiben, dass Business Analytics keine rein technische Aufgabe ist und KI-/ML-Modelle keineswegs „von selbst“ zu Ergebnissen führen. Die Kontextualisierung von Analyse-Ergebnissen sowie das Verständnis für sie als Entscheidungsgrundlagen, sind nach wie vor beim Menschen – genauer, im Management – angesiedelt.

Dennoch werden Unternehmen, die heute in die entsprechende Infrastruktur investieren, früher in der Lage sein, die Erkenntnisse aus KI-Analysen für sich zu nutzen. Damit wird sich im Lauf der Zeit ihr Wettbewerbsvorteil gegenüber denjenigen Mitbewerbern immer weiter vergrößern, welche den Datenschatz in ihrem Unternehmen nicht heben wollen oder können.

(ID:47641165)