Kommentar von Peter Welker, Trivadis

So werden Big-Data-Projekte zum Erfolg

| Autor / Redakteur: Peter Welker / Nico Litzel

Der Autor: Peter Welker ist Senior Principal Consultant bei Trivadis
Der Autor: Peter Welker ist Senior Principal Consultant bei Trivadis (Bild: Trivadis)

Ein Big-Data-Projekt ist ein Projekt wie jedes andere. Wirklich? In manchen Belangen mag das stimmen: Projekt- und Risikomanagement, Planung, Implementierung, Testen, Release- und Change-Management, Betrieb. Das sind Aufgaben, die es hier wie dort zu bewältigen gilt. Wer aber genauer hinschaut, wird zahlreiche Unterschiede und Besonderheiten erkennen. Hier kommen zehn Tipps.

1. Wenn Sie in die Big-Data-Welt einsteigen, ist vor allem eines wichtig: Lösen Sie reale Probleme! Und zwar solche, die Ihren Fachanwendern echten Mehrwert bringen. Ein besseres Kundenverständnis in der Marketing- und Vertriebsabteilung durch die eingehende Analyse bisher nicht genutzter Daten erzeugt eine höhere Akzeptanz als die vielleicht technisch dringend benötigte Archivlösung für das Data Warehouse.

2. Starten Sie mit einem Proof-Of-Concept und bauen zunächst in enger Zusammenarbeit mit dem Fachbereich einen funktionierenden Prototypen von überschaubarem Umfang auf und akzeptieren Sie funktionale Lücken. Dafür – und für den oft explorativen Charakter von Big-Data-Projekten – eignen sich übrigens agile Vorgehensweisen ausgezeichnet. So gewinnen Sie schnell Erfahrung mit neuen Technologien und Methoden und schaffen eine stabile Basis für größere Folgeprojekte.

3. Big-Data-Lösungen sind bei ihrer Entwicklung und Einführung oft noch IT-Exoten. Alle Beteiligten brauchen Zeit, um sich an die neue Herangehensweisen zu gewöhnen. Missbilligung und maßlose Euphorie sind gleichermaßen unter Kontrolle zu halten. Das ist die Aufgabe des Erwartungs-Managements.

Ausreichend Budget einplanen

4. Wichtig auch: Der Aufwand wird nicht geringer, nur weil Lösungen jetzt mit anderer Soft- und Hardware gebaut werden. Im Gegenteil: Big-Data-Projekte sind auf Grund der neuen Technologien und analytischen Anforderungen komplexer und benötigen mehr Zeit. Da eine halbe Lösung nichts bringt, müssen Sie ausreichend Budget einplanen. Das gilt auch für Prototypen.

5. Apropos Zeit: vergessen Sie nicht, die neuen Produkte und Plattformen ausführlich zu evaluieren. Nur so erhält man ein Gefühl für das richtige Einsatzgebiet und vor allem für den Aufwand einer Lösungsentwicklung. Bedenken Sie: Irgendwelche Kompatibilitätsprobleme gibt es immer.

Ergänzendes zum Thema
 
Trivadis TechEvent

6. Alle neuen Ideen einfach dem alten BI-Team aufzuhalsen, greift zu kurz. Bei Big-Data-Projekten kommt zur gestiegenen Komplexität oftmals weiterer Input, wie unstrukturierte Dokumente, extrem umfangreiche Log-Dateien oder externe Social-Media-Quellen. Konventionelle BI/DWH-Expertise ist zwar weiterhin wichtig, reicht aber nicht aus, um Hadoop, Stream Analytics oder Natural-Language-Processing (NLP) zu meistern. Hier muss in erheblichen Umfang zusätzliches Know-how erworben werden. Gleiches gilt für die IT-Infrastruktur: Scale-out- und Shared-Nothing-Architekturen stellen zusammen mit neuen Datenbanktypen (NoSQL) eine echte Herausforderung für die über Jahrzehnte sorgsam etablierte Trennung von Storage, Computing und Netzwerk dar.

Unternehmensweite Digitalisierungsstrategie

7. Wie können Big-Data-Applikationen in der Organisation verankert werden? Der beste Aufhänger ist sicher eine unternehmensweite Digitalisierungsstrategie. Diese beinhaltet üblicherweise intensive Maßnahmen wie die Schulung und Sensibilisierung aller Mitarbeiter für den Wert und Gebrauch von Daten. Cloud-Ansätze passen perfekt zu den hohen Flexibilitätsanforderungen: Skalierbarkeit, die zentrale Eigenschaft der neuen Technologien, bedeutet nämlich nicht nur, bei Bedarf immer neue Ressourcen hinzuzufügen. Um die Kosten niedrig zu halten, muss nach aufwendigen explorativen Analysen Hardware jederzeit auch wieder freigegeben werden können. Das ist „Elastizität“ − ein wesentliches Merkmal von Cloud-Lösungen.

8. All die neuen Daten sind schwierig zu zähmen. Sie nur zu sammeln, um sie später vielleicht einmal in Analysen mit einzubeziehen, wird nicht funktionieren. Der viel propagierte Data Lake ist zwar ein wichtiger Ansatz, er darf aber nicht zu einem Datensumpf verkommen. Sonst weiß am Ende niemand mehr, was hier eigentlich gespeichert wurde. Darum ist die systematische Erfassung und Pflege von Metadaten Pflicht. Falls die Daten einfach im Rohformat als Dateien in Hadoop gesammelt wurden, ist dafür sogar mehr Aufwand nötig, als man es vom Data Warehouse kennt, welches durch seine strenge Schematisierung einen Teil der Metadaten schon impliziert (Schema-On-Write). Der im Big Data gerne zitierte „Schema-On-Read“-Ansatz, der die gesamte Interpretation der Daten auf den Zeitpunkt der Analyse verschiebt, befreit leider nicht davon, genau zu wissen, was die Daten bedeuten. Gerade wenn dies erst Jahre später der Fall ist, sind korrekte und aussagekräftige Metadaten wichtiger denn je. Zusammen mit den traditionellen Daten muss Data Governance also auch die neuen Daten sauber und vollständig berücksichtigen.

Ausführliche Anforderungensanalyse und ein qualifizierter Kriterienkatalog

9. Was passiert, wenn Sie nach einem Jahr feststellen, dass Architektur und Softwareprodukte nicht zur Aufgabe passen? Da die Produkte und Methoden noch neu sind und wenig Erfahrung damit vorhanden ist, besteht diese Gefahr in Big-Data-Projekten in besonderem Maße. Darum sind eine ausführliche Analyse der Anforderungen und ein qualifizierter Kriterienkatalog unerlässlich. Die Kriterien müssen dann sauber auf die Eigenschaften der in Frage kommenden Produkte angewandt werden. Gerade sehr spezifische Lösungen, wie bestimmte NoSQL-Datenbanktypen, sind zwar optimal auf ihre Anwendungsgebiete zugeschnitten, können aber nicht gut mit anderen Daten umgehen. Hier ist ein Best-fit-Ansatz angesagt − und der funktioniert nur mit einem unbestechlichen Auswahlverfahren. Aber bitte bei aller Euphorie nicht vergessen: Die klassische Technik eignet sich für zahlreiche Aufgaben nach wie vor am besten.

10. Hinzu kommt das Risiko, dass manche Software so jung und die Produzenten so neu und klein sind, dass der Einsatz mit einer nicht unerheblichen Ausfallwahrscheinlichkeit einhergeht. Sofern Alternativen existieren, die ohne besondere Aufwände das gewählte Produkt ersetzen können, ist das kein größeres Problem. Wenn aber zentrale Funktionen mittels einer einzigartigen Lösung − zum Beispiel durch ein neues Programmierframework − umgesetzt werden, kann das erhebliche Kosten und schwerwiegende Ausfälle produzieren. Eine Möglichkeit, dem zu begegnen, ist die Einführung einer Abstraktionsschicht in ein etabliertes Werkzeug. So kann etwa ein ausgereiftes ETL-Werkzeug (Extraktion-Transformation-Load) anhand eines logischen Modells Code für die Verarbeitung von Daten auf einem Hadoop Cluster generieren. Dieser kann dann im Zweifelsfall durch Generierung eines anderen Codes auf Basis desselben Modells mit geringerem Aufwand ausgetauscht werden.

Fazit

Auf einen Nenner gebracht: Big-Data-Projekte sind keine Selbstläufer. Nehmen Sie sich ausreichend Zeit, sorgen Sie für das richtige Know-how, finden Sie das passende Thema und binden Sie frühzeitig wichtige Entscheider im Unternehmen als Unterstützer mit ein. Dann steht einem erfolgreichen Projekt mit neuen Daten und neuen Technologien nichts im Wege.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44194451 / Best Practices)