Suchen

Kommentar von Christian Schmidt, Itelligence AG Die Grenzen und Potenziale von Big Data in Unternehmen

| Autor / Redakteur: Christian Schmidt / Nico Litzel

Big Data gehört zu den einflussreichsten Technologiekonzepten der Gegenwart wie der Zukunft. Der Erfolg hat jedoch auch seinen Nebeneffekt: Die Erwartungen an Big Data sind häufig entweder viel zu hoch oder verkennen wesentliche Möglichkeiten. Der Mythos-Check zeigt, wo die Grenzen und wo die Potenziale von Big Data in Unternehmen liegen.

Firmen zum Thema

Der Autor: Christian Schmidt, GMS Product Management, Itelligence AG
Der Autor: Christian Schmidt, GMS Product Management, Itelligence AG
(Bild: Itelligence AG)

1. Mythos: Big Data ist eine einzelne Technologie

Verantwortlich für den Mythos ist vermutlich die recht weitgefasste Definition von Big Data. Der Ausdruck bezieht sich zum einen schlicht auf die Verarbeitung großer Datenmengen, die in Unternehmen oder im Internet zur Verfügung stehen. Zum anderen wird der Begriff aber auch für alle IT-Lösungen und Systeme verwendet, mit denen Daten verarbeitet, analysiert und damit besser und einfacher für Unternehmenszwecke nutzbar gemacht werden können. All diese Lösungen und Systeme basieren auf wenigen Technologien, was den Mythos ebenfalls gestützt haben dürfte.

Die beiden wichtigsten Technologien waren bis vor ein, zwei Jahren die Open-Source-Technologie Apache Hadoop, SPARK, NoSQL-Datenbanken sowie die In-Memory-Technologie. All diese Technologien ermöglichen es, große Datenmengen in kurzer Zeit zu verarbeiten, gehen diese Aufgabe jedoch auf sehr unterschiedliche Weise an. Hadoop ist ein auf Java-Programmierung basierendes Framework, durch das eine Vielzahl von Computern zu einem Cluster gebündelt werden. Auf diese Weise lassen sich große Datenmengen in kurzer Zeit verarbeiten. Bei der In-Memory-Technologie wird dagegen nicht die Festplatte eines Servers, sondern der Arbeitsspeicher genutzt, um Daten zu verarbeiten und so sehr schnelle Zugriffsgeschwindigkeiten zu realisieren.

Das populärste Beispiel für ein Datenmanagementsystem auf In-Memory-Basis ist SAP HANA, das die Analyse von Unternehmensdaten in Echtzeit und damit auch Live-Entscheidungen ermöglicht. Zudem kann SAP HANA als Plattform für Eigenentwicklung genutzt werden. IT- und SAP-Beratungspartner wie die Itelligence AG unterstützen Unternehmen bei dieser Aufgabe, indem sie ihre Erfahrungen aus ähnlichen Projekten nutzen, die sich bereits in der Praxis bewährt haben. In-Memory-Technologie und Hadoop schließen einander dabei aber nicht aus, sondern ergänzen sich. So kann Hadoop beispielsweise mit SAP HANA integriert werden.

2. Mythos: Wie alle Datenanwendungen gehört auch Big Data nicht in die Cloud

Hadoop ist 2006 gestartet und hat sich von einem reinen Open Source Framework zu einem breiten Angebot mit standardisierten Produkten weiterentwickelt. Wichtige Hadoop-Player waren damals Cloudera, Hortonworks und MapReduce. Mit den Hyperscalern ist zu Hadoop und der In-Memory-Technologie mittlerweile eine dritte Variante hinzukommen. Sie wurde in kürzester Zeit so dominant, dass sich in ihrer Folge vor allem der Hadoop-Markt konsolidierte. Beispielhaft dafür ist der Zusammenschluss der Hadoop-Größen Cloudera und Hortonworks. Was die Hyperscaler zu derartigen Gamechangern macht, ist vor allem ihre enorme Flexibilität. Hyperscaler verlagern Big Data in die Cloud, wo sie Tausende oder Millionen von Servern miteinander verbinden können. Die Cloud-Computing-Netzwerke sind daher in der Lage, horizontal zu skalieren und können sich auf diese Weise jedem Bedarf flexibel anpassen.

Aufgrund ihrer einfach gehaltenen Server-Struktur und der ebenso einfachen, softwarebasierten Verwaltung können die Hyperscaler ihre Leistungen (Server, Storage und Computing Power), auch vergleichsweise günstig anbieten. Die drei großen Hyperscaler Microsoft Azure, Amazon Web Services (AWS) (beides Partner von Itelligence) und Google Cloud Services teilen sich derzeit etwa drei Viertel des Marktes untereinander auf. Mittlerweile entwickeln die Hyperscaler zusätzlich eigene, auf dem Hadoop Framework basierende Services und erweitern damit den Big-Data-Markt mit zusätzlichen Produkten kontinuierlich weiter. So werden bestehende Softwareprodukte wie etwa Cloudera nun auch bei den Hyperscalern betrieben.

Die Zukunft von Big Data liegt in der Cloud

Weiterentwicklungen und Innovationen im Big Data Umfeld finden mittlerweile vorwiegend in der Cloud statt. Damit wird das Beharren auf On-premises-Lösungen für viele Unternehmen auf Dauer zum Problem. Vorbehalte gegenüber Cloud-Lösungen bestanden historisch vor allem hinsichtlich des Datenschutzes. Die Cloudanbieter haben hier aber längst aufgeholt und gewährleisten Datensicherheit selbstverständlich auch in der Cloud.

Ohnehin hat SAP auf den durch die Hyperscaler veränderten Markt reagiert und investiert stark in Lösungen zur Datenorchestration. Ein erstes Beispiel dafür war SAP Data Hub, das mittlerweile zu SAP Data Intelligence weiterentwickelt wurde. Die Plattform ermöglicht die Koordination von Daten aus unterschiedlichen Quellen und Formaten, sodass Drittanwendungen leichter und einfacher einzubinden sind. SAP Data Intelligence nutzt zudem Machine Learning als Kernkomponente, um die Entscheidungsfindung im Unternehmen datenbasiert zu optimieren. Die technische Entwicklung folgt damit dem eigentlichen Zweck von Big Data: Es geht nicht darum, willkürlich Daten zu sammeln. Vielmehr sollen durch Big Data Prozesse besser verstanden und Entscheidungen ermöglicht werden, die auf vielfältigen Datenquellen basieren.

3. Mythos: Je mehr Daten desto besser!

An Daten herrscht in den meisten Unternehmen schon lange kein Mangel mehr. Die generierten Datenmengen wachsen rapide. Entwicklungen wie Industrie 4.0 und das Internet of Things befeuern diesen Trend. Alle Daten in die Cloud zu schieben oder sie für mögliche Big-Data-Analysen bereit zu halten, ergibt daher immer weniger Sinn. Gefragt ist eine intelligente Selektion von Daten, die für die jeweilige Fragestellung relevant sind. Die Forderung ergibt sich auch durch staatliche Vorgaben wie der DSGVO. Die Datenschutzverordnung zwingt Unternehmen zum sorgsamen Umgang mit personenbezogenen Daten. Mit Open-Source-Technologien wie Hadoop lassen sich solche Datenschutzanforderungen zwar umsetzen, doch nur unter hohem Aufwand. In Standardsoftware gehören Lösungen für diese Anforderungen dagegen zum Portfolio. So bietet die SAP beispielsweise Werkzeuge an, mit denen personenbezogene Daten anonymisiert oder auch Daten gelöscht werden können, wenn ein User nachträglich die Löschung seiner Daten einfordert.

Die Evolution von Big Data weist daher eindeutig in Richtung Smart Data. Für die Unternehmen bedeutet das, sie sollten eine Datenintelligenz entwickeln und gezielt die Daten analysieren, die zur Optimierung von Prozessen und Angeboten auch wirklich benötigt werden. Zu dieser Datenintelligenz gehört dann auch, mögliche Fallstricke bei Big-Data-Projekten zu vermeiden. Eine häufige Gefahr etwa ist ein Vendor-lock-in: Der Effekt entsteht dadurch, dass sich ein Unternehmen für einen Anbieter entscheidet und dann aus technischen oder vertraglichen Gründen an diesen gebunden ist. Ein Wechsel hin zu einem anderen Angebot ist dann oft nicht mehr ohne größeren Aufwand möglich.

Ein möglicher Ansatz für dieses Problem besteht in der Containerisierung. Dabei lässt man die Software in abgeschlossenen Bereichen laufen, sogenannten Containern, sodass die Lösungen dann bei einem möglichen Umzug auf einen anderen Anbieter im Container transferiert werden können. Bei der Konzeption von Big-Data-Lösungen sollte daher stets die Nutzung von Containern geprüft werden.

KI und Machine Learning schaffen Datenintelligenz

Ebenfalls für die Entwicklung von Big Data zu Smart Data nützlich sind Künstliche Intelligenz und Machine Learning. Die beiden Technologietrends eignen sich hervorragend dazu, die Verarbeitung riesiger Datenmengen so zu steuern, dass das Datenmanagement weitgehend automatisiert gelingt. Dazu ein Beispiel aus der Praxis von Itelligence: Ein Bauunternehmen hat das Ziel vorgegeben, die Sicherheit auf seinen Baustellen zu verbessern. Konkret sollte ein System entwickelt werden, das erkennt, ob die Bauarbeiter auf den Baustellen auch ihre Helme tragen. In der Realisierung des Projekts wurde die Baustelle mit einer Kamera gefilmt und der Stream in Echtzeit analysiert. Ein Machine-Learning-Algorithmus wurde darauf trainiert, automatisiert zu erkennen, wann ein Bauarbeiter einen Helm trägt und wann nicht. Fehlt der Helm auf dem Kopf, erhält der Polier auf der Baustelle nun die entsprechende Information und kann unmittelbar reagieren.

Fazit: Wann lohnt sich Big Data für Unternehmen?

Der Nutzen und die Verbreitung von Big Data Lösungen steigt mit der Größe des Unternehmens. Für bestimmte Szenarien gibt es aber auch für kleinere Unternehmen Big-Data-Anwendungen, mit denen sie ihre Wettbewerbsfähigkeit verbessern können. Wann sich Big Data für Unternehmen lohnt, hängt aber auch immer von der Branche ab. In datenintensiven Bereichen wie Utility oder Retail leistet Big Data nahezu immer gute Dienste. Die generelle Empfehlung aus der Praxis ist: Behalten Sie immer die konkrete Anwendung im Auge. Big Data ist kein Selbstzweck. Das Technologiekonzept hat dort seine Stärken, wo es eingesetzt wird, um datenbasiert bessere Entscheidungen im Unternehmen zu treffen.

(ID:46610038)