Überblick

Die wichtigsten Big-Data-Technologien

| Autor / Redakteur: Otto Geißler / Nico Litzel

Welches Analyse-Tool eignet sich? Vor einer Implementierung sollten sich Unternehmen zunächst über den jeweiligen Anwendungsfall als auch die Art und den Umfang der zu analysieren Daten Klarheit verschaffen.
Welches Analyse-Tool eignet sich? Vor einer Implementierung sollten sich Unternehmen zunächst über den jeweiligen Anwendungsfall als auch die Art und den Umfang der zu analysieren Daten Klarheit verschaffen. (Bild: © sdecoret - stock.adobe.com)

Big-Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Dafür reichen jedoch herkömmliche Technologien wie zum Beispiel klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen bei weitem nicht aus.

Big-Data-Technologien erlauben unter anderem die Optimierung von bestehenden Geschäftsprozessen hinsichtlich des Ressourceneinsatzes, der zusätzlichen Nutzung von bisher ungenutzten Datenquellen zur Unterstützung von Prozessen sowie der Entwicklung neuer Geschäftsmodelle beziehungsweise der Individualisierung von Produkten und Strategien. Neue Geschäftsfelder lassen sich erschließen, indem zum Beispiel Daten zur Realisierung von datenbasierten Services herangezogen werden.

Wenn Unternehmen heute ihre Daten auswerten, steht ihnen eine große Auswahl an individualisierbaren und echtzeitfähigen Analyse-Tools zur Verfügung. Vor einer Implementierung sollten sie sich über den jeweiligen Anwendungsfall als auch die Art und den Umfang der Daten Klarheit verschaffen. Gleichzeitig werden sie mit einer Vielzahl an Fachbegriffen überflutet, die ihnen eine Entscheidung nicht unbedingt erleichtert.

Rund um den viel strapazierten Fachbegriff Big Data haben sich im Laufe der Zeit verschiedene Lösungen angesiedelt, deren Sinn sich vor allem für Big-Data-Neulinge nicht unmittelbar erschließt. Denn jede Technologie verfolgt ihren eigenen Zweck und ihre spezielle Funktion, mit Daten zu hantieren.

Data Mining, BI-Plattformen und Process Mining

Das gesamte Bündel der statistisch-mathematischen Methoden zur Erkennung von Mustern durch Aufgaben wie zum Beispiel Suche, Vorverarbeitung oder Auswertung wird als Data Mining bezeichnet. Aus technischer Sicht kommen hierzu Algorithmen zum Einsatz, die Zusammenhänge zwischen den Daten herstellen sollen. Sogenannte Business-Intelligence-Plattformen (BI) bieten Verfahren, um Daten zu sammeln, auszuwerten und darzustellen. Die Betreiber verfolgen damit Ziele der Risiko- und Kostenreduzierung sowie der Optimierung der Wertschöpfung.

Gegenstand der Auswertung sind jegliche Arten von KPI (Key Performance Indicators), also Kennzahlen, wie zum Beispiel über die eigene Produktion, die Mitbewerber, die Kunden oder die Entwicklungen an den Märkten. Entscheidend ist dabei, dass die Betreiber vorab genau definieren, was sie mit den multidimensionalen Analysen untersuchen wollen. Dies birgt jedoch einen großen Nachteil, da man oftmals am Anfang noch gar nicht genau wissen kann, welche Daten im Verlauf relevant sein können. Daher versuchen die Unternehmen immer mehr Datenquellen sowie unstrukturierte Daten in die Analysen miteinzubeziehen.

Im Gegensatz zu den BI-Plattformen, die im Wesentlichen verschiedene Kennzahlen fokussieren, behandelt die Big-Data-Technologie Process Mining einen weiter greifenden Ansatz: Hier geht es um die Analyse von Prozessen, die End-to-End betrachtet werden und genau die Realität abbilden. Das heißt, mit Process Mining können vollständige digitale Abläufe in den verschiedensten Variationen visualisiert werden. Aufgrund der gewonnenen Einsichten lassen sich nun sehr leicht Schwachstellen in Echtzeit erkennen.

Ein weiterer Vorteil: Die Betreiber müssen sich vorab nicht in ein Korsett vordefinierter Fragestellung zwängen. Denn Process Mining gewährt unbefangene Einblicke in die tatsächlichen Abläufe einer Unternehmung. Daraus können die Unternehmen dann Optimierungsentscheidungen ableiten und einen schnellen Return on Investment (ROI) erzielen. Im Vergleich zu BI liefert das Process Mining wichtige Informationen, wann, wo und warum es zu diesen Problemen überhaupt kam.

Kategorien der Big-Data-Technologien

Je nach den speziellen Anforderungen vor Ort kommen verschiedene Architekturen sowie auch deren Kombinationen infrage. Als Orientierung werden vier Kategorien unterschieden:

  • Standardisierte Analytics qualifizieren sich für Anwendungen mit eher geringeren Anforderungen an Zeit und Datenvielfalt.
  • In-Memory-Technologien sind besonders für sehr große Datenauswertungen geeignet.
  • Hadoop-Lösungen empfehlen sich bei einer großen Vielfalt an Datenformaten. Hadoop ist Open Source und in der Lage, ein gewaltiges Volumen unterschiedlich strukturierter Daten zu speichern und verarbeiten. Die Fähigkeit zu skalieren, scheint fast unbegrenzt.
  • Complex Event-Processing und Streaming eignet sich für den Fall, dass Daten schon während des Entstehens erfasst und ausgewertet werden müssen

Klassifizierung der Big-Data-Technologien

Big-Data-Komplettlösungen werden wiederum in einzelne Schichten unterteilt. Nachfolgende Schichten kennzeichnen den direkten Weg von den Rohdaten bis hin zu geschäftsrelevanten Resultaten:

  • Datenhaltung,
  • Datenzugriff,
  • Analytische Verarbeitung und
  • Visualisierung.

Diese werden von folgenden Schichten begleitet:

  • Daten-Integration und
  • Daten-Governance sowie Daten-Sicherheit.

Diese sogenannten flankierenden Schichten sollen die Einbettung der Rohdaten in die vorhandenen Standards eines Unternehmens sicherstellen.

Anleitung zur Findung der geeigneten Technologien

Es existiert heute beinahe für jeden Anwendungsfall eine spezialisierte beziehungsweise individualisierbare Lösung. Bei der Implementierung einer Big-Data-Technologie sollten sich die Anwender immer zuerst Klarheit über Art und Umfang ihrer Daten verschaffen. Die nachfolgenden Fragestellungen unterstützen die Identifikation des konkreten Bedarfs:

  • Welche Daten gibt es im Unternehmen? Genügt es, wenn sich diese Daten möglichst flexibel auswerten lassen? Oder müssen zudem Ad-hoc-Analysen ausgeführt werden?
  • Wer muss mit der Technologie dann letztlich arbeiten?
  • Wie sieht der konkrete Bedarf der Anwender aus?
  • Wo sind die Daten hinterlegt? Hauptsächlich aus relationalen Datenbanken? Oder müssen auch unstrukturierte Datenquellen verwendet werden?
  • Erfordert die Anwendung sehr hohe Verarbeitungsgeschwindigkeiten?
  • Werden für die Anwendung eher eine schnelle Speicherung und einfache Abfragemöglichkeiten großer Datenmengen gebraucht?
  • Fließt auch Datenmaterial aus sozialen Netzwerken für fortlaufende Footprint-Analysen ein?

Auswahl einiger Big-Data-Technologien

Unternehmen speichern, verarbeiten und analysieren immer mehr Daten im großen Stil und generieren ihre Mehrwerte daraus. Folgende Big-Data-Technologien decken einen großen Teil der Anwendungsszenarien für Unternehmen ab:

Hadoop

Das Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Hadoop eignet sich besonders für Auswertungen, bei denen aufwendige Analysen ausgeführt werden müssen.

Cloudera

Ein umfassendes Portfolio an geprüften Open-Source-Anwendungen, das durch den Cloudera Cluster-Manager auf einer Web-Oberfläche sehr leicht installiert und verwaltet werden kann. Unternehmen greifen auf bewährte Lösungen zurück und können flexibel neue Big-Data-Technologien in bestehende Prozesse eingliedern.

Apache Hive

Das Data Warehouse für Hadoop. Apache Hive verlagert Daten aus relationalen Datenbanken per SQL-Dialekt HiveQL nach Hadoop. Die wichtigsten Funktionen sind die Zusammenfassung, Abfrage und Analyse der Daten.

Cloudera Impala

Ein skalierbares und verteiltes Tool der Datenabfrage für Hadoop. Vorteile: Abfragen in Echtzeit ohne Daten bewegen oder umwandeln zu müssen.

MongoDB

Eine der marktführenden NoSQL-Datenbanken aus dem Open-Source-Bereich. Die Allzweckdatenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit.

Big-Data-Datenbanken

eBook

Big-Data-Datenbanken

Zunehmende Digitalisierung erfordert neue Datenbanken. Apache Hadoop, die Allzweckwaffe für Big Data? NoSQL-Datenbanken und Public-Cloud-Datenbanken in der Übersicht. weiter...

Pentaho

Eine der global führenden Plattformen für BI. Zusammenfassung bewährter Einzellösungen zu einem kompletten Framework. Pentaho ist modular, besteht aus einer offenen Architektur und lässt sich dank vieler Schnittstellen in bestehende IT-Landschaften leicht einfügen.

Pentaho User Meeting 2018 – Operating Pentaho at Scale

Nachbericht

Pentaho User Meeting 2018 – Operating Pentaho at Scale

20.03.18 - Am 6. März 2018 fand das bereits fünfte Pentaho User Meeting statt – wichtigstes Treffen der Pentaho-Anwender im deutschsprachigen Raum. Rund 100 Personen aus Österreich, der Schweiz und Deutschland nahmen daran teil. Zwölf Referenten aus verschiedenen Branchen berichteten von ihren Erfahrungen mit Pentaho und über die neuesten technischen Entwicklungen bei der BI-Plattform. lesen

Infobright

Die spaltenbasierte Datenbank bietet mit einer effektiven Datenkompression mehr Flexibilität. Sie ist insbesondere für die Verarbeitung großer Datenmengen gut geeignet.

Apache Spark

Ein parallel arbeitendes Open Source-Framework zur Echtzeitanalyse, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern garantiert.

„Spark ist eine Technologie, die wie Linux und Java alles durchdringt“

Interview mit Vijay Bommireddipalli, IBM

„Spark ist eine Technologie, die wie Linux und Java alles durchdringt“

13.02.17 - Apache Spark, ein Framework für die Verarbeitung von Big Data, ist mittlerweile das aktivste Projekt in der Open Source Community. Im Juni 2015 gründete IBM in San Francisco ein eigenes Technologiezentrum (TC) für Apache Spark. BigData-Insider hatte die Gelegenheit, ein Interview mit Vijay Bommireddipalli zu führen, dem Leiter des IBM Spark Technology Center. lesen

Splunk

Die Technologie ist vor allem im Bereich des Digital Footprint etabliert und gestattet das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen.

Alexa spricht Splunk

Nachbericht Splunk .conf 2018

Alexa spricht Splunk

15.10.18 - Splunk, ein Spezialist für die Analyse von Maschinendaten, adressiert eine breitere Nutzerschicht, nämlich die Mitarbeiter in den Fachbereichen. Zahlreiche neue Funktionen, wie etwa mobile Apps und Sprachausgabe, sollen ihnen das Leben erleichtern. Neben zahlreichen Neuerungen in den Kernprodukten stellte Splunk seine eigene IIoT-Plattform für Industrie 4.0 vor. lesen

Apache Storm

Ein fehlertolerantes, skalierbares System zur Echtzeitverarbeitung von Datenströmen. Apache Storm ist ein Teil des Hadoop-Ökosystems und funktioniert unabhängig von Programmiersprachen.

So analysieren Sie große Datenmengen mit Apache Storm

Big Data in Echtzeit verarbeiten

So analysieren Sie große Datenmengen mit Apache Storm

22.01.18 - Mit Apache Storm lassen sich Daten in Big-Data-Systemen in Echtzeit verarbeiten. Das Tool arbeitet mit verschiedenen Datenquellen zusammen und fügt sich optimal in Hadoop-Umgebungen ein. lesen

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45555067 / Infrastruktur)