Kommentar von Stefan Müller, IT-Novum

10 Big-Data-Technologien, die Sie kennen sollten

| Autor / Redakteur: Stefan Müller / Nico Litzel

Der Autor: Stefan Müller ist Director Business Intelligence & Big Data bei IT-Novum
Der Autor: Stefan Müller ist Director Business Intelligence & Big Data bei IT-Novum (Bild: IT-Novum)

Big-Data-Bestände gehören zu den wichtigsten Ressourcen vieler Unternehmen, aus denen sich Erkenntnisse für die Entwicklung neuer Geschäftsmodelle, Produkte und Strategien ziehen lassen. Im Moment stehen die meisten Unternehmen jedoch vor der Herausforderung, ein geeignetes Big-Data-Konzept und die Use Cases für sich zu identifizieren. Je nach Anwendungsszenario kommen dabei verschiedene, meist individualisierte Technologiekonzepte aus dem Big-Data-Umfeld zum Einsatz. Die zehn wichtigsten seien hier kurz vorgestellt.

1. Hadoop – ein bewährtes Konzept

Hadoop ist ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Im Big Data-Bereich spielt Hadoop mittlerweile bei vielen Lösungen eine zentrale Rolle. Besonders geeignet ist Hadoop für Datenauswertungen, bei denen aufwendige Analysen durchgeführt werden müssen.

Hadoop entwächst den Kinderschuhen

Nachbericht Hadoop Summit 2016

Hadoop entwächst den Kinderschuhen

25.04.16 - Auf dem diesjährigen Hadoop Summit in Dublin gab es etwas zu feiern: das zehnjährige Jubiläum des 2006 gestarteten Apache-Frameworks. Den knapp 1.400 Besuchern des Summits präsentierte sich Hadoop als eine gereifte und stetig weiterentwickelnde Big-Data-Umgebung mit lebendiger Open Source Community. lesen

2. Cloudera – alles aus einer Hand

Cloudera bietet eine eigene Hadoop-Distribution, die zu den mittlerweile beliebtesten gehört. Cloudera umfasst ein breites Portfolio an geprüften Open-Source-Big-Data-Anwendungen, die über den Cloudera Cluster Manager auf einer Weboberfläche einfach verwaltet und installiert werden können. Unternehmen profitieren davon, dass sie auf bewährte Lösungen zurückgreifen und flexibel neue Big-Data-Technologien in bestehende Prozesse implementieren können.

Cloudera Enterprise 5.7 beschleunigt Datenverarbeitung

Hive-on-Spark an Bord

Cloudera Enterprise 5.7 beschleunigt Datenverarbeitung

25.04.16 - Ab sofort ist Cloudera Enterprise in der Version 5.7 erhältlich. Die aktuelle Fassung wurde vor allem in Sachen Leistung optimiert und unterstützt nun Hive-on-Spark für eine deutlich schnelle Datenverarbeitung. lesen

3. Apache Hive – das Data Warehouse für Hadoop

Eine Herausforderung für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop, weil die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query Language (SQL) gespeichert sind. Unterstützung bietet hier das Open-Source-Data-Warehouse-System Apache Hive. Die Hauptfunktionen von Hive sind die Datenzusammenfassung, die Datenabfrage und die Datenanalyse.

4. Cloudera Impala – die Lösung für Echtzeitabfragen

Der Hadoop-Spezialist Cloudera entwickelte mit Impala eine Technologie, mit der Echtzeitabfragen in Hadoop oder HBase durchgeführt werden können. Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool für Hadoop bereitzustellen.

5. MongoDB – die Datenbank für alle Fälle

MongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open Source-Bereich. Als „Allzweckdatenbank“ eignet sich MongoDB bestens für die heutige IT-Landschaft mit ihren großen und teilweise unstrukturierten Datenmengen. Die Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei ihren Anwendungen.

6. Pentaho – flexible Business Intelligence Platform

Die Strategie von Pentaho ist es, verschiedene bewährte Einzellösungen zu einem kompletten Framework zusammenzufassen und den Support dafür aus einer Hand zu liefern. So können zum Beispiel Datenentwickler und Analysten mit Pentaho Data Integration (PDI) gemeinsam an der Erstellung neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch für die Visualisierung der Daten verwenden.

Pentaho 6.1 optimiert die Analyse-Pipeline

Vereinfachte Integration von Datenquellen

Pentaho 6.1 optimiert die Analyse-Pipeline

21.04.16 - Pentaho 6.1 vereinfacht den Einspeisungsprozess von Datenquellen. Dadurch soll sich die Entwicklungszeit für die Datenintegration sowohl in herkömmlichen als auch in Hadoop-Umgebungen reduzieren. lesen

7. Infobright – MySQL-Engine mit effektiver Datenkompression

Das explosionsartige Datenwachstum setzt die etablierten Datenmanagementlösungen unter Druck, da ihre Flexibilität beschränkt ist. Aus diesem Grund wurden spaltenbasierte Datenbanken entwickelt. Mit der MySQL-Engine Infobright hat sich in der jüngeren Vergangenheit ein neues Open-Source-System etabliert, das für Datenmengen ab 500 Gigabyte geeignet ist. Infobright kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden Knowledge-Grid-Architektur.

8. Apache Spark – ein Framework zur Echtzeitanalyse

Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen treffen zu können, zum Beispiel die Optimierung von Produkten oder das Identifizieren von Einsparmöglichkeiten. Eine Technologie, die dafür herangezogen werden kann, ist Apache Spark. Dabei handelt es sich um ein parallel arbeitendes Framework aus dem Open-Source-Bereich, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht.

Hadoop-Nachfolger gewinnt immer mehr Unterstützer

Apache Spark

Hadoop-Nachfolger gewinnt immer mehr Unterstützer

18.04.16 - Apache Spark erfreut sich zunehmender Beliebtheit und Unterstützung im Bereich der Big-Data-Analysen und löst zunehmend Hadoop ab. Branchengrößen wie IBM und Intel vertreiben Spark und kooperieren mit dessen kommerziellem Anbieter DataBricks. lesen

9. Splunk – Big Data vereinfachen

Splunk Enterprise ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Splunk übernimmt dabei die Integration der unterschiedlichen Daten, sodass sie sinnvoll ausgewertet werden können. Der große Vorteil von Splunk ist, dass damit fast alle Arten von Dateien indiziert, verarbeitet und ausgewertet werden können.

Splunk trimmt neue Versionen auf Leistung

Nachbericht Splunk-User-Konferenz 2015

Splunk trimmt neue Versionen auf Leistung

08.10.15 - Auf seiner sechsten Anwenderkonferenz stellte Splunk, ein BI-Spezialist für Operational Intelligence, mehrere neue Produkte und Produkterweiterungen vor. Vor rund 4.000 Besuchern, die rund 200 Sessions lauschten, zeigten auch zahlreiche Partner ihre Lösungen für die Verarbeitung von Maschinendaten. Zum Schmunzeln luden Splunk-Heimlösungen von Privatanwendern ein. lesen

10. Apache Storm – Big Data-Analyse auf Echtzeitbasis

Apache Storm ist ein fehlertolerantes, skalierbares System zu Echtzeitverarbeitung von Datenströmen. Die Technologie stellt eine Komponente des Hadoop-Ökosystems dar und arbeitet unabhängig von Programmiersprachen.

Apache Storm erreicht Version 1.0

Bis zu 16-mal schneller

Apache Storm erreicht Version 1.0

20.04.16 - Storm, das Apache-Projekt zur Echtzeitverarbeitung von Streaming-Daten, hat die symbolträchtige Version 1.0 erreicht. Die jüngste Version eines der ersten Hadoop-unabhängigen Big-Data-Frameworks, das auf YARN portiert wurde, verspricht neben vielen Neuerungen auch eine diesem Release-Stand angemessene Stabilität. lesen

Bald wird es normal sein, Big-Data-Analysen zur Unterstützung von Entscheidungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einführen, riskieren Wettbewerbsnachteile. Es ist daher wichtig, ein geeignetes Big Data-Konzept für sich zu identifizieren und auf Basis der individuellen Bedürfnisse die richtigen Technologien einzuführen. Wer sich mit den beschriebenen Technologien ausführlicher auseinandersetzen möchte, dem sei das Whitepaper „Die 10 wichtigsten Big Data-Technologien“ empfohlen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44091132 / Infrastruktur)