Suchen

Kommentar von Knut Veltjens, CGI Große Datenmengen kostengünstig analysieren

Autor / Redakteur: Knut Veltjens / Nico Litzel

Es gibt eine Reihe von Technologien, um unstrukturierte, große Datenmengen zu verarbeiten und zu analysieren. Einige Eigenschaften sind allen diesen Big-Data-Verfahren gemeinsam: Sie nutzen kostengünstige Standard-Hardware, parallele Verarbeitung und speichern die Daten in einem nicht-relationalen Format. Hadoop ist dafür ein gutes Beispiel.

Firmen zum Thema

Der Autor: Knut Veltjens ist Vice President / Practice Head Business Intelligence bei CGI
Der Autor: Knut Veltjens ist Vice President / Practice Head Business Intelligence bei CGI
(Bild: CGI)

Hadoop ist ein Open Source Framework vor allem für die Speicherung, Aufbereitung und Analyse von polystrukturierten großen Datenmengen; zentrales Kennzeichen ist eine parallele Architektur. Die wichtigsten Bestandteile von Hadoop sind das Hadoop Distributed File System (HDFS) und der MapReduce-Algorithmus, der für eine parallele Verarbeitung sorgt.

HDFS untergliedert die Files in Datenblöcke einer festen Größe und speichert sie redundant auf die in einem Cluster organisierten Server-Knoten. MapReduce teilt die gesamte, zu untersuchende Datenmenge in kleine Einheiten auf und diese werden dann in einer ersten Phase parallel und unabhängig voneinander bearbeitet, untersucht und als Zwischenergebnisse gespeichert. In den nächsten Schritten folgen dann, ebenfalls parallel, weitere Auswertungen und schließlich die Präsentation der Ergebnisse.

Wo einzelne Ressorts in den Unternehmen Hadoop bereits einsetzen, geht es beispielsweise um eine 360-Grad-Sicht auf Kunden, die Auswertung von Weblogs, von Maschinendaten aus der Fertigung oder von Sensordaten. Mithilfe von Hadoop können die Fachbereiche selbst – ohne dazu auf die IT-Abteilung angewiesen zu sein – diese nur wenig strukturierten Daten verarbeiten und analysieren.

Java oder Pig Latin

Eine der zentralen Fragen für die Verantwortlichen in den Fachbereichen ist, welche Aufgaben durch den Einsatz von Hadoop-Clustern gelöst werden können. Die generelle Antwort lautet: Im Prinzip lassen sich alle „berechenbaren“ Aufgaben mit Hadoop meistern. Eine der Möglichkeiten dabei ist, den dazu geeigneten Java-Programmcode zu erstellen. Manchmal ist das entsprechende Know-how in den Fachbereichen vorhanden. Ansonsten bieten IT-Dienstleister, wie beispielsweise CGI, die notwenige Unterstützung.

Als weitere Möglichkeit bietet sich der Einsatz der prozeduralen Hadoop-Erweiterung Apache Pig an. Sie wurde 2006 von Yahoo entwickelt, um nicht hauptberuflichen Programmierern die Arbeit mit Hadoop zu erleichtern. Einen wesentlichen Beitrag dazu liefert die Script-Sprache Pig Latin. Sie soll, ähnlich wie dies die Office-Makrosprache VBA oder die Statistiksprache R in anderen Anwendungsszenarien getan haben, für IT-affine Mitarbeiter aus den Fachbereichen den Einstieg und den weiteren Einsatz von Hadoop vereinfachen.

Pig Latin beschreibt die Verarbeitungsschritte, die das Pig Latin Framework dann in MapReduce-Jobs überführt. Eine weitere Option bietet Oracle Big Data SQL. Mit einer einzelnen Abfrage ist es damit möglich, auf Daten in relationalen Data Bases, in NoSQL-Datenbanken und in Hadoop zuzugreifen.

Lösungsszenarien testen und weiterentwickeln

Festzuhalten bleibt: Hadoop ist kein Ersatz für eine Data-Warehouse-Umgebung, wie sie von der IT-Abteilung betrieben, gepflegt und weiterentwickelt wird. Hadoop ergänzt vielmehr die Data Warehouses. Während diese den strikten Regeln und Vorgaben einer unternehmensweiten IT-Governance folgen müssen, bietet eine Hadoop-Implementierung in einem Fachbereich mehr Spielräume in einer abgegrenzten Laborumgebung. Hier geht es traditionell um Exploration und ein interaktives Lernen.

So kann etwa ein Mobilfunkanbieter Netzwerkdaten auswerten, um die Service-Qualität in solchen Regionen zu verbessern, in denen es überdurchschnittliche hohe Abwanderungen von Kunden gab. Die Aufgabe hier ist es, Maßnahmen zu entwickeln und zu testen, um die Kundenbindungsrate zu steigern.

Im Bereich der Vertriebsförderung analysiert ein Automobilhersteller die Daten aus dem Pkw-Konfigurator im Web. Die Ergebnisse dienen als Grundlage, um gemeinsam mit Händlern die Verkaufsquote zu verbessern. Die für Service zuständige Abteilung des Automobilherstellers wertet Daten zu Garantiefällen aus. Da es in der Vergangenheit deutliche Kritik von Kunden gab, die sich auch in verschiedenen Web-Foren wiederspiegelte, ist es Aufgabe des Projekts, Lösungen zu finden, um gezielt die Produktqualität zu verbessern.

Hadoop unterstützt die Fachbereiche

In all diesen Anwendungsszenarien unterstützt Hadoop die Fachbereiche dabei, das vorhandene, eher gering strukturierte Datenmaterial mithilfe von Hypothesen auszuwerten und Lösungsszenarien zu entwickeln, die dann getestet, weiterentwickelt oder verworfen werden. Zeigt sich im Laufe der Zeit, dass sich daraus standardisierte Verfahren und Prozesse ergeben, finden sie Eingang in die IT-Governance und die IT-Abteilung ist dann dafür zuständig.

(ID:43532044)