Kommentar von Martin Perzl, EMC, Teil 2

Big Data und Big Data Analytics, alles nur ein Hype?

| Autor / Redakteur: Martin Perzl / Nico Litzel

Der Autor: Martin Perzl ist Global Architect bei EMC
Der Autor: Martin Perzl ist Global Architect bei EMC (Bild: EMC)

Big Data ist nicht zwingend nur mit großen Datenvolumina einhergehend. Die Vielzahl an Datentypen, die Komplexität, geografisch verteilte Daten und enorm schnelle Änderungen – das alles sind Attribute von Big Data.

Hier geht es zum ersten Teil von Martin Perzls Gastbeitrag: „Mit IT & Big Data zu Industrie 4.0

„,Big Data’ is data whose scale, distribution, diversity, and/or timeliness require the use of new technical architectures and analytics to enable insights that unlock new sources of business value.” (McKinsey, Mai 2011)

Die oft zitierten drei „V“, Volume, Variety und Velocity, sind sicher Bestandteile von Big Data, aber der Satz von McKinsey trifft es auf den Punkt: „Daten, die mit herkömmlichen Methoden nicht mehr gehandhabt werden können.“

Alleine schon aufgrund der Vielfältigkeit der Datentypen werden unterschiedliche Werkzeuge zur Speicherung und Verarbeitung benötigt. Man unterscheidet:

  • Strukturierte Daten, etwa Transaktionsdaten, OLAP
  • Semistrukturierte Daten, beispielsweise XML-Daten
  • Quasi-strukturierte Daten, z. B. Clickstream-Daten
  • Unstrukturierte Daten, wie beispielsweise Videos, Bilder, PDF-Dateien
Ergänzendes zum Thema
 
Big-Data-Glossar

Woher kommen die Daten?

In der Industrie werden mehr und mehr Sensoren eingesetzt. Diese liefern teilweise mehrere tausendmal pro Sekunde Daten. Mobile Datenlogger, wie sie z. B. im Automobilbereich für Testfahrzeuge eingesetzt werden, in Zügen, in Flugzeugen usw., liefern mehrere Terabyte an Daten pro Tag, die gespeichert werden können und ausgewertet werden müssen. Intelligente Bauteile und miteinander verlinkte Systeme, tauschen Daten aus und generieren Logdateien. Videoüberwachungssysteme, Bohranlagen für Öl & Gas müssen alle 100 Millisekunden entscheiden, wie der Druck, die Bohrgeschwindigkeit oder andere Parameter angepasst werden müssen.

Security-Verantwortliche versuchen inzwischen, keine Log-Dateien mehr zu verwerfen oder zumindest über einen sehr langen Zeitraum vorzuhalten, um Sicherheitslücken und Angriffsversuche mithilfe von Data Analytics proaktiv verhindern zu können.

Gezielte Kundenansprache

Von Daten, die über Social Media erzeugt werden, ganz zu schweigen. Diese Daten spielen für den Retail-Bereich, den Finanzsektor, für Versicherungen und fürs Marketing eine große Rolle, etwa um Produkte ganz speziell auf Kundenbedürfnisse zuzuschneiden oder um Personengruppen gezielt anzusprechen. Das Nutzerverhalten wird analysiert, um beispielsweise die Abwanderungsquote vorherzusagen und entsprechend zu reagieren. In der Logistik werden enorme Effekte erwartet, um z. B. vorherzusagen, wann an welchem Ort welche Bauteile benötigt werden – auch abhängig von externen Faktoren.

Jeder kennt das: Man sucht auf einer Webseite ein Produkt und erhält in der gleichen Sekunde Angebote, die „auch andere interessiert haben“. Das ist ein Beispiel für In-Memory Analytics. Mit der Auswertung von Satellitendaten können potenzielle Gefahrenquellen für Malaria erkannt und eliminiert werden. Im Gesundheitssektor werden Daten analysiert, um z. B. Tierversuche zu minimieren. Die Anwendungsfälle sind nahezu unbegrenzt.

Das Thema ist eigentlich uralt, die Industrie nutzt seit Jahrzehnten statistische Methoden, um Ausfälle von Systemen oder Bauteilen vorherzusagen. Ziel ist immer, mit allen zur Verfügung stehenden Informationen den Umsatz zu steigern, die Qualität zu sichern und zu verbessern, neue Geschäftsfelder aufzumachen oder sich Wettbewerbsvorteile zu erarbeiten.

Warum jetzt?

Die Datenspeicherung ist mittlerweile sehr kostengünstig zu realisieren und die Datenspeicher skalieren heute in ungeahnte Bereiche bis hin zu Exabytes. Darüber hinaus können die Speicher auf der ganzen Welt verteilt vorliegen. Die Rechenleistung ist extrem günstig geworden, bei gleichzeitig enormer Leistungsfähigkeit. Es sind skalierbare Filesysteme verfügbar und die strikten Grenzen zwischen strukturierten Datenbanken und Filesystemen weichen immer mehr auf. Sensoren werden günstiger, es steht (meistens) ausreichend Netzwerkbandbreite zur Verfügung, der verfügbare Adressraum (IPv6) erlaubt die Anbindung und Verknüpfung unzähliger Objekte.

Laut dem Gartner-Hype-Cycle (siehe Abbildung in der Bildergalerie) wird das Thema Internet of Things in fünf bis zehn Jahren das „Plateau of Productivity“ erreichen. Das heißt, die Unternehmen müssen jetzt beginnen und sich intensiv mit den Veränderungen auseinandersetzen, um rechtzeitig mit Lösungen auf dem Markt zu sein.

BI wird seit Jahrzehnten eingesetzt. Big Data Analytics versucht, mit statistischen Methoden Ereignisse zu erklären und bestenfalls vorauszusehen. Big Data Analytics geht weit über die Möglichkeiten von BI hinaus, dazu werden neue analytische Ansätze, Werkzeuge und Fähigkeiten benötigt.

Ziel der Analytics muss immer sein, mehr Geschäft zu generieren, Schäden zu vermeiden, die Laufzeit von Anlagen zu erhöhen, Kosten zu senken und neue Services auf den Markt zu bringen.

Neue Werkzeuge

Json, Hadoop, Python, Julia, Riak, CouchDB, Hive, SAS, Spring, Splunk, GnIP … Alles klar? Seien Sie nicht frustriert, wenn Sie nur „Bahnhof” verstehen. Selbst Branchenkenner tun sich mit der großen Anzahl und stetig steigenden Anzahl an Programmiersprachen, Datenbanken und Analysewerkzeugen schwer, mit den Entwicklungen im Umfeld von Big Data Schritt zu halten. Alles sind „nur“ Werkzeuge und Services, meistens aus dem Open-Source-Bereich, die Sie nutzen können.

Data Science

Data Scientists auf dem Arbeitsmarkt zu bekommen, ist sehr schwierig. Einige große Firmen gehen dazu über sich das Know-how im eigenen Hause heranzuziehen. Aber es wird generell noch einige Zeit dauern, bis auch genügend Data-Science-Nachwuchs aus den Universitäten nachkommt.

Die meisten Vorteile werden Unternehmen aus Data Analytics erzielen, wenn sie das Know-how der Ingenieure, die ein tiefes Verständnis für die Produkte haben, mit den Fähigkeiten der Data-Scientists bündeln und sich auf Augenhöhe begegnen.

Ein Großteil der Aufwände muss derzeit noch für die Datenaufbereitung verwendet werden, sprich, für die Qualität der Daten. Hierzu müssen künftig beispielsweise noch verfeinerte Sentiment-Analysen entwickelt werden, um wirklich aussagekräftige Daten zu erhalten.

Big-Data-Infrastrukturen

Große Datenmengen lassen sich im Hadoop-Filesystem skalierbar speichern. Es gibt eine ganze Menge an SQL Interfaces, über die man SQL Statements auf die Hadoop Files loslassen kann. Wenn man hier darauf achtet, dass das SQL Interface zu „true Ansi SQL“ kompatibel ist (z. B. HAWQ), können bestehende SQL Queries verwendet werden und auch SQL-Spezialisten müssen nicht extra umgeschult werden.

Alleine im Bereich Data Analytics gibt es eine Unmenge an Open-Source-Software-Werkzeugen, etwa R (vermutlich am Bekanntesten), Elki, Italassi, Data Applied, Devinfo, Tanagra, Waffles, Weka, Encog, RapidMiner, Paw, ScaVi, Knime, IPython, jMatLab ...

Falls Sie im Endprodukt Open Source Software verwenden, so machen Sie sich bitte mit dem Thema Open-Source-Gewährleistung vertraut. Die Open Source Software wird den Entwicklern meist auf Grundlage der GPL (General Public License) zur Verfügung gestellt. Die Entwickler beschäftigen sich jedoch meist nicht mit dem Inhalt der GPL und den erheblichen, rechtlichen Auswirkungen auf ihre Produkte. Für weitere Informationen empfehle ich, nach „Open Source Software – GPL“ im Web zu suchen.

Nutzen von Cloud Service Providern und Outsourcer

Es ist sinnvoll, Hybride-Cloud-Modelle zu nutzen, das heißt, Ihre Ressourcen und Daten, die Sie regelmäßig im Zugriff haben oder die Sie aus sicherheitstechnischen Aspekten nicht in die Welt rausgeben möchten, verbleiben im Rechenzentrum oder beim Serviceprovider.

Cloud Service Provider sind heute und in Zukunft nicht mehr wegzudenken. Der Grund, warum Amazon seine Plattform geschaffen hat, um überschüssige Ressourcen zu Geld zu machen, ist auch der Grund, warum Sie Cloud Service Provider nutzen sollen. Halten Sie Ihre Infrastruktur in einer Ausbaustufe vor, die es Ihnen erlaubt, auch kleine Spitzen abzufangen. Für Spitzenlasten, spezielle Projekte, zeitlich bedingte Ereignisse, die zusätzliche Ressourcen benötigen, sollte man Cloud Service Provider nutzen.

Falls Sie bereits eine bestehende VMware-Umgebung Ihr Eigen nennen und die Automatisierungswerkzeuge wie das vRealizeAutomationCenter nutzen, so sollten Sie sich mit dem Cloud-Angebot VMware vCHS vertraut machen. Hier können Sie sehr einfach, ohne zusätzliche Kenntnisse und Personal, die Cloud nutzen – mit den Werkzeugen, die sie bereits jetzt im Einsatz haben.

Überlegen Sie sich, wie Sie Amazon/Google und Co. nutzen wollen. Erstellen sie Best-Case-Szenarien, etwa: „Was, wenn ich mit meiner neuen Applikation / meinem neuen Service maximal erfolgreich bin? Wie viel Kunden/Nutzer/Daten werde ich generieren?“ Mit diesen Daten berechnen Sie die wirklichen Kosten, denn die Übertragungskosten bei den Daten lassen sich die Cloud Service Provider vergolden. Anders ausgedrückt: Wenn Sie klein anfangen, kann sich es sich sicher lohnen, diese Services zu nutzen. Wenn das Unternehmen dann aber wächst, so kann eine On-Premise-Lösung wesentlich günstiger werden.

Bevor Sie sich für eine Public-Cloud-Lösung entscheiden gibt es zwei entscheidende Punkte zu beachten:

  • 1. Erstellen Sie eine Matrix, welche Applikationen in die Cloud können (technisch), welche Applikationen in die Cloud dürfen (Compliance / Sicherheitsanforderungen) und welche Applikationen Sie in die Cloud geben wollen (z. B. Applikationen, mit denen Sie viel Umsatz machen).
  • 2. Entwickeln Sie eine „Exitstrategie“ für den Fall, dass Sie mit dem Provider nicht mehr zufrieden sind. Wenn beispielsweise SLAs nicht eingehalten werden, wie man es wünscht oder die Preise aus dem Ruder laufen. Die Angebote der CSPs sind leider nicht immer vergleichbar (SLA) und wenn Sie Applikationen mit den APIs der Cloud Service Provider integriert haben, kann es sehr aufwendig sein, die Applikation rauszubekommen und auf einer anderen Plattform laufen zu lassen.

Ein Ansatz, dem Lock-in der CSPs zu entgehen und gleichzeitig eine offene agile Plattform für Ihre Applikationen zur Verfügung stellen zu können, ist CloudFoundry.

CloudFoundry wird vermutlich der De-facto-Industriestandard für Platform-as-a-Service (PaaS) werden. CloudFoundry bietet die Möglichkeit auch die Amazons/Googles neben Ihren lokalen Daten zu nutzen. Allerdings müssen Sie Ihre Applikationen nicht auf diesen proprietären Plattformen erstellen und haben es selbst in der Hand, wo Sie Ihre Applikationen laufen lassen wollen oder müssen.

Sie benötigen eine agile Big-Data-Cloud-Plattform, um mit den steigenden Anforderungen an Ihre Produkte mitzuhalten und im Markt bestehen zu können.

Mal angenommen: Sie möchten Ihren Kunden eine neue Applikation anbieten. Dazu benötigen Sie Server/Storage/Netzwerk/Datenbanken/Webserver/Loadbalancer/Messaging Server...

Die Infrastruktur müssen Sie auch noch skalierbar auslegen, denn Sie möchten ja erfolgreich sein und wachsen. Was passiert wenn Kunden abspringen oder noch besser, Sie erreichen durch eine Marketingkampagne, dass die Zugriffe auf Ihre Applikation exponentiell ansteigen. Die Kunden fordern eine extreme Agilität der Applikation, das heißt, Sie müssen unter Umständen eine neue Softwareversion pro Woche veröffentlichen. Ihre Data Scientists benötigen schnell zusätzliche Informationen, etwa aus Sozialen Netzwerken, um neue Methoden für das Marketing zu entwerfen.

Das alles wird mit herkömmlichen Methoden nur schwer und mit großem finanziellem Aufwand zu realisieren sein. Dazu benötigen Sie eine agile Big-Data-Cloud-Plattform.

Tipps

  • Je eher Sie sich mit dem Thema befassen, umso besser
  • Holen Sie sich Leute von den Universitäten, die mit Open Source aufgewachsen sind
  • Fällen Sie die Entscheidung für eine Plattform – z. B. Java – auch danach, wie die Chancen sind, entsprechende Entwickler auf dem Markt zu bekommen.
  • Lassen Sie Ihre Teams nicht alleine, moderieren Sie gemeinsame Workshops mit den „alten“ Datenbankspezialisten, den „neuen“ Open-Source-Big-Data-Leuten, Business-Verantwortlichen, Applikations-Betreuern und Ingenieuren. Nur wenn Sie die Synergien Ihrer Teams nutzen, werden Sie die Mehrwerte aus den neuen Ansätzen erhalten

Zusammenfassung

Big Data und IT sind jetzt schon nicht mehr wegzudenken und werden künftig einen wesentlich höheren Stellenwert im produzierenden Gewerbe einnehmen. Um auch in Zukunft wettbewerbsfähig zu bleiben ist ein erweiterter Einsatz von IT notwendig.

Eine Herausforderung wird sein, ein Umdenken der IT-Betreiber voranzubringen. Bis dato wird IT nur als Kostenfaktor (Business = 1/IT), als notwendiges Muss angesehen und die IT-Verantwortlichen schränken sich dadurch in ihren Möglichkeiten ein.

IT ist einer der Schlüssel für Industrie 4.0 (Business + IT = zusätzliches Geschäft). Neue Möglichkeiten erfordern neue Werkzeuge.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43186321 / Industrie 4.0)