Hortonworks und das Release Data Platform 2.1

Hadoop - das Big-Data-Betriebssystem

| Redakteur: Ulrike Ostler

Jetzt kommt Echtzeit

Deutlich wird der Unterschied etwa beim Andocken von SQL-basierten Abfrage-Tools, beziehungsweise Hive/Stringer (siehe: Abbildung 10). Hive, 2007 von Facebook entwickelt und längst ein Apache-Projekt, an dem für die aktuelle Version 145 Entwickler aus 44 unterschiedlichen Unternehmen mitgearbeitet haben, erlaubt SQL-Abfragen sowohl in der Batch-Verarbeitung als auch in interaktiven Modi. Hier sind Performance-Verbesserungen bis zum Hundertfachen möglich.

Die SQL-Extensions, an denen etwa Microsoft mit einer großen Mannschaft beteiligt hat, erlauben trotzdem ein so genanntes schema on read., also ein Auswertungsmuster, das beim Lesen der Daten entsteht und nicht wie bei herkömmlichen Datawarehouse beim Schreiben (siehe: Abbildung 9). Das Projekt „Tez“, von Hortonworks gestartet, erlaubt etwas, dass über das Caching von Datensätzen die „Anlaufzeiten“ minimiert und über Container , JBMs weiter verwendet werden also mehrere Anfragen in derselben Session laufen können. Das Splitten von Tabellen etwa findet vorab statt.

Conolly beschreibt die Entwicklung als eine „Evolution“ von MapReduce, zumal der Code von 2006 wieder verwendet wurde. Allerdings lassen sich mit Hive nun Abfragen über Hunderte von Nodes konsistent und schnell verarbeiten. „Stinger“, gedacht für interaktive Abfragen, ist in den Hadoop-2.x-Versionen um über 330.00 Codezeilen reicher.

Was wird aus den Data Warehouses?

Ob die SQL-Erweiterungen nun ein weiterer Sargnagel des bisherigen Data-Warehousing sind? Forrester-Analyst Gaultieri sagt: „81 Prozent aller Unternehmen glauben an Hadoop“. Doch sei Hadoop nicht Big Bata, vielmehr eine Big-Data-Technik, bestehend aus einem File-System und aus einem Tool-Framework für die Datenverarbeitung, eben ein Betriebssytem.

Doch wichtig sei es im Kopf zu behalten, dass in in der herkömmlichen Art und Weise der Analyse, Menschen bereits vorab entscheiden mussten, welche Daten später relevant sein könnten und mit welchem Modell sie untersucht werden sollten. Jetzt entstehen riesige Datenseen (Data Lakes), über die Algorithmen laufen, um Datenmodelle zu finden. Der Prozess ist quasi auf den Kopf gestellt. Die Datenmenge oder auch die multistrukturierten Datentypen bilden lediglich die Grundlage. Ein Ersatz bisheriger Technik ist seiner Interpretation zufolge also lediglich ein Startpunkt.

Hortonworks allerdings weist selbst darauf hin, dass ein Hadoop-Cluster doch zunächst einmal günstiger kommt. Die Relation bezogen auf ein Terabyte Roh-Daten: ab 100.000 Dollar bei konvergenten Systemen, ab 20.000 Dollar bei Massiv-Parallelen Systemen und ab 40.000, eher ab 80.000 Dollar bei SAN-Systemen, 5.000 Dollar beim Einsatz von Hadoop (siehe: Abbildung 5).

Der Technology Evangelist bei SAP

Timo Elliot, Technology Evangelist bei SAP, jedenfalls pflichtet der Sichtweise von Hortonworks bei. Er sieht Hadoop-Cluster vor allem in Ergänzung zum In-Memory-Computing mit HANA. Er sagt: „ Auch traditionelle Datenbank-Technik“ wird nicht einfach verschwinden, so wird es im Transaktionsbereich ziemlich nahtlose Übergänge von der einen zur anderen Technik geben.“ SAP bietet neben HAN noch die Opensource-Datenbank „SAP MaxDB“ und „Sybase IQ“ an.

Dennoch: Im ERP-Umfeld würden die meisten Firmen vermutlich zu HANA-ähnlichen Infrastrukturen wechseln. Doch zugleich suchten sie nach Möglichkeiten, HANA einfacher und billiger zu unterstützen. „Wir streben jedenfalls eine Integration auf einem sehr tief reichenden Level an.“

Als größtes Hindernis, Kunden an Hadoop zu gewöhnen, nennt er übrigens, dass es Open Source sei, also genau den Umstand, der das Framework für SAP und andere OEMs so attraktiv macht.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42635438 / Infrastruktur)