Suchen

Big-Data-Strategie Fünf Tipps für einen schnellen Start

| Autor / Redakteur: Harry Weimer / Nico Litzel

Alle reden über Big Data, in der Realität sind aber die meisten Projekte noch nicht produktiv. Das sollte sich schnell ändern, findet Harry Weimer, Geschäftsführer der Talend Germany GmbH.

Firmen zum Thema

Harry Weimer, Geschäftsführer der Talend Germany GmbH
Harry Weimer, Geschäftsführer der Talend Germany GmbH
(Bild: Talend)

In aller Munde und dennoch wenig Maßnahmen. Wenn es um Big Data geht, stimmt jeder zu, dass es in seinem Geschäftsumfeld ein großes Potenzial hat. Allerdings haben die meisten Projekte die Pilotphase noch nicht verlassen und kommen in CIO-Präsentationen meist nur am Ende vor, wo ein Ausblick in die (mögliche) Zukunft gegeben wird. Warum? Ganz einfach: Trotz aller Diskussionen, Round Tables und Seminare bleiben Verwaltung und Analyse großer Mengen von Daten aus mehreren Quellen ein komplexes Thema.

Das Implementieren und Konfigurieren einer Big-Data-Umgebung kann Monate dauern. Doch das „Window of Opportunity“ bleibt nicht für immer offen. Gerade jetzt ist eine gute Zeit, um von frühen Projekten zu lernen und einige Fallstricke zu vermeiden. Im Folgenden ein paar Tipps, wie man loslegen kann, und zwar effektiv:

1. Big Data kann auch „small“ sein: Wir alle sind auf große Datenmengen fixiert, aber oft sind eher die unterschiedlichen Datentypen die eigentliche Herausforderung. Eventuell sind die Datensätze überschaubar, dafür existieren aber eine Vielzahl an Quellen und Datenformaten. In dem Fall sollten wirklich alle relevanten Quellen identifiziert werden, egal wie klein sie auch sind. Dafür wird dann auch nicht unbedingt ein Cluster mit Hunderten von Knotenrechnern benötigen.

2. Alle Daten sind wertvoll: Transaktionsdaten, die von Geschäftsanwendungen wie Enterprise-Resource-Planning verwendet oder generiert werden, sind offensichtlich zu berücksichtigen. Aber man darf nicht die Daten vergessen, die auf Servern oder in Protokolldateien, auf Desktops oder in Fertigungssystemen versteckt sind und als „Dark Data“ bezeichnet werden.

Neben den sogenannten Dark Data gibt es noch einen weitaus obskureren Datentypen, nämlich die Daten, die als Nebenerzeugnis ihrer Prozesse entstehen. Diese Daten werden durch Sensoren und Protokolle erzeugt und in der Regel nach einer gewissen Zeit gelöscht. Hier sollten Routinen entwickelt werden, auch diese Datentypen einzusammeln, damit sie zum Wert der Prozesse beitragen können.

3. Einige Daten können bleiben, wo sie angefallen sind: Hadoop ist eine fantastische Speicherressource für große Datenmengen (und es ist selber über Cluster verteilt). Aber es gibt auch andere Datenquellen, die berücksichtig werden sollten. Es ist nur in den wenigsten Fällen notwendig. Daten zu duplizieren oder replizieren. Einige Daten liegen beispielweise bereits in einem Enterprise Data Warehouse, wo schnell auf sie zugegriffen werden kann. Andere Daten bleiben besser dort, wo sie angefallen sind.

4. Neue Verarbeitungsressourcen erkunden: Hadoop ist nicht nur ein Repository, sondern auch eine Engine, mit der Unternehmen Daten verarbeiten und aussagekräftige Informationen extrahieren können. Es gibt ein breites Ökosystem von Tools und Programmierregeln, die fast alle Anwendungsfälle der Datenbearbeitung abdecken. Von MapReduce bis Spark, von Pig bis SQL-on-Hadoop gibt es Verarbeitungsressourcen, mit denen Daten nicht mehr aus ihren Plattformen herausgelöst werden müssen.

5. Einfach anfangen: Der beste Weg, um Big Data kennenzulernen, ist, einfach damit zu experimentieren. Es gibt Sandbox-Plattformen, die mit allen notwendigen Werkzeugen ausgestattet sind, um sofort mit der Big-Data-Integration loslegen zu können. Das können Video-Tutorials oder vorhandene Konnektoren für den Bau von Prototypen sein. Dazu kann auch eine offene Online-Community beitragen, die allen Anwendern bei den ersten Tasks und der Generierung von Code mit grafischen Tools weiterhilft, die erheblich schneller als manuelle Programmierung sind.

Da der Wert von Big Data in immer größerem Umfang genutzt wird, reagiert nun auch der Markt. Dies dürfte einen wertvollen Beitrag leisten, um Projekte aus der Sandbox in die Produktion zu überführen – und zwar schnell, damit die Benutzer starten und so die Früchte ihrer Arbeit ernten können. Es ist an der Zeit, dass endlich echte Big-Data-Implementierungen das Licht der Welt erblicken!

(ID:43079068)