Kommentar von Boris Trofimov, Sigma Software Diese typischen Herausforderungen hat Big Data Analytics

Autor / Redakteur: Boris Trofimov / Nico Litzel

In diesem Artikel werden typische Probleme von Big-Data-Analysen aufgegriffen, deren Grundursachen untersucht und Lösungen aufgezeigt. Grundsätzlich gilt: Es ist immer besser, zu Beginn clever zu planen, wenn sich das Big-Data-Analytics-System noch in der Konzeptphase befindet. Es kann nämlich ziemlich kostspielig werden, nachträglich ein System anzupassen, das bereits in Betrieb ist.

Firmen zum Thema

Der Autor: Boris Trofimov ist Software-Architekt bei Sigma Software
Der Autor: Boris Trofimov ist Software-Architekt bei Sigma Software
(Bild: Sigma Software)

In der digitalen Welt von heute wird Big Data Business Analytics von Unternehmen genutzt, um zu besseren Entscheidungen zu kommen, eine bessere Unternehmenssteuerung zu erzielen, die Produktivität zu steigern, bessere Vorhersagen zu treffen, die Leistung zu überwachen und Wettbewerbsvorteile zu erzielen. Allerdings schaffen es viele Unternehmen nicht, Business Intelligence Analytics strategisch zu nutzen: Laut den Marktforschern von Gartner verfügen 87 Prozent der Unternehmen über eine geringe Business-Intelligence- und Analytics-Reife, da es an Beratung und Unterstützung mangele. Die Probleme mit Business Data Analytics liegen aber nicht nur an der Datenanalyse selbst, sondern können durch tiefliegende System- oder Infrastruktur-Probleme verursacht werden.

Die Business-Analytics-Lösung ist nicht in der Lage, neue Erkenntnisse zu liefern oder diese zeitnah zu liefern: Ein Unternehmen hat in eine Analytics-Lösung investiert, um neue und bessere Erkenntnisse zu gewinnen, die dabei helfen sollen, intelligentere Geschäftsentscheidungen zu treffen. Aber manchmal scheint es so, als wären die Erkenntnisse, die das neue System bietet, auf dem gleichen Niveau und von der gleichen Qualität wie die, die man schon vorher hatte. Dieses Problem kann man entweder aus der ökonomischen oder der technologischen Perspektive betrachten.

Datenmangel

 

Die Analysen fußen nicht auf einer ausreichend breiten Datenbasis, um neue Erkenntnisse zu gewinnen. Die Ursache dafür ist entweder eine mangelnden Datenintegration oder eine schlechte Datenorganisation.

In diesem Fall ist es sinnvoll, die Daten zu überprüfen und sicherzustellen, dass die Integration der vorhandenen Daten die gewünschten Erkenntnisse liefern kann. Die Integration von neuen Datenquellen kann einen Datenmangel beheben. Darüber hinaus ist zu prüfen, wie die Rohdaten in das System gelangen und es ist sicherzustellen, dass sämtliche Dimensionen und Metriken für die Analytics verfügbar sind. Schließlich könnte aber auch die Vielfalt bei der Datenspeicherung ein Problem darstellen. Dieses Problem könnte man durch einen Data Lake beheben.

Verzögerte Datenantwort

Das passiert für gewöhnlich, wenn ein Unternehmen Erkenntnisse in Echtzeit haben möchte, das System aber nur für eine Batch-Verarbeitung konzipiert ist. So sind die Daten, die hier und jetzt benötigt werden, noch nicht verfügbar, da sie immer noch gesammelt und vor-verarbeitet werden.

In so einer Situation muss der ETL-Prozess in der Lage sein, Daten in einer kürzeren Frequenz zu verarbeiten. In bestimmten Fällen erlauben Batch-gesteuerten Lösungen durch Anpassungen eine Verdoppelung der Performance. Als weitere Option kann man einen Lambda-Architektur-Ansatz nutzen. Dieser verbindet die traditionellen Batch-Pipeline mit einem schnellen Echtzeit-Datenstream.

Alte Ansätze in einem neuen System: Ein Unternehmen erstellt seine gewohnten Berichte auf einem neuen System. Es ist unrealistisch anzunehmen, neue Antworten auf alte Fragen zu erhalten. Zumeist ist das ein Business-Problem, dessen mögliche Lösungen von Fall zu Fall stark variiert. Am besten konsultiert man einen Experten, der über eine umfassende Erfahrung in analytischen Ansätzen verfügt und sich mit dem Businessbereich des Unternehmens auskennt.

Ungenaue Analysen

Nichts ist schlimmer für das Geschäft als ungenaue Analytics – und dieses Problem sollte man so schnell wie möglich angehen.

Schlechte Qualität der Quelldaten: Wenn ein System auf mangelhafte, fehlerhafte oder unvollständige Daten zugreift, dann wird das zu mangelhaften Resultaten führen. Ein Datenqualitätsmanagement sowie ein obligatorisches Verfahren zur Datenvalidierung auf allen Stufen des ETL-Prozesses können die Qualität der Daten auf verschiedenen Ebenen (syntaktisch, semantisch, grammatikalisch, ökonomisch, usw.) gewährleisten. Das ermöglicht eine Fehlererkennung und -beseitigung und garantiert, dass eine Modifikation in einem Bereich sich auf die anderen Bereiche auswirkt.

Systemfehler im Zusammenhang mit dem Datenfluss: Das ist der Fall, wenn die Systemvoraussetzungen aufgrund von menschlichem Versagen bei der Entwicklung, der Erprobung oder den Prüfprozessen entfallen oder nicht vollständig eingehalten werden. Hochwertige Tests und eine Verifizierung des Entwicklungslebenszyklus vermindern die Anzahl solcher Probleme, was wiederum die Datenverarbeitungs-Probleme minimiert. Es kann vorkommen, dass die Analytics selbst bei der Arbeit mit qualitativ hochwertigen Daten ungenaue Ergebnisse liefert. In diesem Fall ist es sinnvoll, das System eingehend zu überprüfen und zu klären, ob die Umsetzung der Datenverarbeitungsalgorithmen fehlerfrei ist.

Die Nutzung von Datenanalysen ist zu kompliziert

Das nächste Problem könnte alle Bemühungen zunichtemachen, eine effiziente Lösung zu schaffen: Wird der Einsatz von Data Analytics zu kompliziert, wird es sehr schwierig, wertvolle Erkenntnisse aus den Daten zu ziehen. Das Komplexitätsproblem läuft in der Regel entweder auf die User Experience hinaus, wenn es etwa für den Nutzer schwierig ist, im System zu navigieren und Informationen aus den Berichten zu erfassen) oder auf die technischen Aspekte hinaus (wenn das System „over-engineered“ ist).

Chaotische Datendarstellung: Der Komplexitätsgrad der Berichte ist zu hoch. Es ist zeitaufwendig oder schwierig, die benötigten Informationen zu finden. Dieses Problem kann man beheben, indem man einen UI/UX-Fachmann engagiert, das würde die Schaffung eines ansprechenden flexiblen Nutzer-Interface ermöglichen, mit dem man einfach navigieren und arbeiten kann.

Das System ist „over-engineered“: Das System verarbeitet mehr Szenarien und bietet mehr Funktionen als notwendig, wodurch der Fokus verwischt wird. Dies verbraucht auch mehr Hardware-Ressourcen als nötig und treibt die Kosten in die Höhe. Infolgedessen wird nur ein Teil der möglichen Funktionsvielfalt genutzt. Der Rest fungiert als Ballast und die Lösung erscheint zu kompliziert.

Also müssen überschüssige Funktionen identifiziert werden. Es ist notwendig, die wichtigsten Metriken – die Messung, die Analyse, die Funktionalität und den Fokus – zu definieren, sowie überflüssige Inhalte zu eliminieren. Das Einbeziehen eines externen Sachverständigen könnte ratsam sein.

Lange Antwortzeiten

Das System braucht zu lang, um die Daten zu analysieren, obwohl die Input-Daten verfügbar sind und der Bericht jetzt benötigt wird. Diese Verzögerung ist für die Batch-Verarbeitung nicht kritisch, allerdings kann das bei der Echtzeitverarbeitung einen teuer zu stehen kommen.

Ineffiziente Datenorganisation: Unter Umständen sind die Daten so organisiert, dass sich ihre Verarbeitung als schwierig gestaltet. Es gilt zu überprüfen, ob die Ausgestaltung des Data Warehouse den geforderten Fällen und Szenarien entspricht. Ist dies nicht der Fall, würde eine Neukonzeption sicherlich hilfreich sein.

Probleme mit der Analytics-Infrastruktur und bei der Ressourcenauslastung: Das Problem könnte im System selbst liegen. Das bedeutet, dass die Skalierbarkeit ihre Grenzen erreicht hat. Außerdem könnte die Hardware-Infrastruktur unzureichend dimensioniert sein.

Die einfachste Lösung ist in diesem Fall das Upscaling – die Ergänzung der Computing-Ressourcen im System. Das funktioniert – solange die Verbesserung der Systemantwort im Rahmen eines kostengünstigen Budgets bleibt – und die Ressourcen richtig eingesetzt werden. Ein sinnvoller strategischer Ansatz wäre, das System in separate Bestandteile aufzuteilen und diese unabhängig voneinander zu skalieren. Das kann jedoch zusätzliche Investitionen in die Umgestaltung nach sich ziehen.

Kostspielige Instandhaltung

Jedes System erfordert kontinuierliche Investitionen in seine Instandhaltung und in die Infrastruktur – und jeder Unternehmensinhaber möchte diese Investitionen minimieren. Auch wenn die Unternehmensleitung mit den Kosten für die Instandhaltung und Infrastruktur zufrieden ist, lohnt sich ein frischer Blick auf das System. Man sollte sich vergewissern, dass das Unternehmen nicht zu viel bezahlt.

Überholte Technologien: Täglich entstehen neue Technologien, die größere Datenmengen schneller und zugleich kostengünstiger verarbeiten können. Aus diesem Grund werden die genutzten Analytics-Technologien früher oder später überholt sein: Sie werden mehr Hardware-Ressourcen brauchen und es wird im Vergleich zu innovativen Lösungen immer kostenaufwendiger werden, sie zu pflegen. Schwieriger wird es auch, Fachkräfte zu finden, die bereit sind, Lösungen zu entwickeln, die auf diesen veralteten Technologien basieren.

Der beste Ansatz besteht darin, auf neuere Technologien zu setzen. Langfristig gesehen wird das System dadurch nicht nur kostengünstiger im Unterhalt, sondern behält auch ein hohes Niveau an Zuverlässigkeit, Verfügbarkeit und Skalierbarkeit. Ebenso wichtig ist eine stufenweise Durchführung der System-Neugestaltung. Schrittweise sollten dabei alte Elemente durch neue ersetzt werden.

Suboptimale Infrastruktur: Die Infrastruktur ist ein Kostenelement mit einem großen Optimierungsspielraum. Sollte ein Unternehmen über eine On-premises-Infrastruktur verfügen, so könnte die Umstellung auf Cloud eine gute Option sein. Wird eine Cloud-Lösung eingesetzt, so könnte das „Pay-as-you-use“-Prinzip die Kosten erheblich reduzieren. Bei Sicherheitsbedenken könnte das Unternehmen auf eine Private Cloud setzen. Sollte ein Unternehmen sich bereits für die Cloud entschieden haben, dann ist es ratsam zu prüfen, ob diese auch effizient genutzt wird.

Das gewählte System ist „over-engineered“: Auch wenn ein Unternehmen die Systemleistungsmerkmale nicht vollständig ausnutzt, so zahlt es weiterhin für die ungenutzte Infrastruktur. Es ist von Vorteil, die Geschäftsmetriken zu überprüfen und das System an die Anforderungen des Unternehmens anzupassen. So manche Komponente lässt sich durch eine einfachere Versionen ersetzen, die besser zu den Geschäftsanforderungen passt.

Anstelle eines Fazits

Die Anpassung einer bestehenden Business-Analytics-Plattform ist möglich, kann aber zu einer recht anspruchsvollen Aufgabe werden. Wenn ein Unternehmen beim Design und der Implementierung der neuen Lösung etwas übersieht, kann das Zeit und Geld kosten.

Artikelfiles und Artikellinks

(ID:47131654)