Suchen

Hortonworks und das Release Data Platform 2.1

Hadoop - das Big-Data-Betriebssystem

Seite: 4/4

Firmen zum Thema

Jetzt kommt Echtzeit

Deutlich wird der Unterschied etwa beim Andocken von SQL-basierten Abfrage-Tools, beziehungsweise Hive/Stringer (siehe: Abbildung 10). Hive, 2007 von Facebook entwickelt und längst ein Apache-Projekt, an dem für die aktuelle Version 145 Entwickler aus 44 unterschiedlichen Unternehmen mitgearbeitet haben, erlaubt SQL-Abfragen sowohl in der Batch-Verarbeitung als auch in interaktiven Modi. Hier sind Performance-Verbesserungen bis zum Hundertfachen möglich.

Bildergalerie

Bildergalerie mit 15 Bildern

Die SQL-Extensions, an denen etwa Microsoft mit einer großen Mannschaft beteiligt hat, erlauben trotzdem ein so genanntes schema on read., also ein Auswertungsmuster, das beim Lesen der Daten entsteht und nicht wie bei herkömmlichen Datawarehouse beim Schreiben (siehe: Abbildung 9). Das Projekt „Tez“, von Hortonworks gestartet, erlaubt etwas, dass über das Caching von Datensätzen die „Anlaufzeiten“ minimiert und über Container , JBMs weiter verwendet werden also mehrere Anfragen in derselben Session laufen können. Das Splitten von Tabellen etwa findet vorab statt.

Conolly beschreibt die Entwicklung als eine „Evolution“ von MapReduce, zumal der Code von 2006 wieder verwendet wurde. Allerdings lassen sich mit Hive nun Abfragen über Hunderte von Nodes konsistent und schnell verarbeiten. „Stinger“, gedacht für interaktive Abfragen, ist in den Hadoop-2.x-Versionen um über 330.00 Codezeilen reicher.

Was wird aus den Data Warehouses?

Ob die SQL-Erweiterungen nun ein weiterer Sargnagel des bisherigen Data-Warehousing sind? Forrester-Analyst Gaultieri sagt: „81 Prozent aller Unternehmen glauben an Hadoop“. Doch sei Hadoop nicht Big Bata, vielmehr eine Big-Data-Technik, bestehend aus einem File-System und aus einem Tool-Framework für die Datenverarbeitung, eben ein Betriebssytem.

Hadoop Summit 2014 in Amsterdam

Bildergalerie mit 33 Bildern

Doch wichtig sei es im Kopf zu behalten, dass in in der herkömmlichen Art und Weise der Analyse, Menschen bereits vorab entscheiden mussten, welche Daten später relevant sein könnten und mit welchem Modell sie untersucht werden sollten. Jetzt entstehen riesige Datenseen (Data Lakes), über die Algorithmen laufen, um Datenmodelle zu finden. Der Prozess ist quasi auf den Kopf gestellt. Die Datenmenge oder auch die multistrukturierten Datentypen bilden lediglich die Grundlage. Ein Ersatz bisheriger Technik ist seiner Interpretation zufolge also lediglich ein Startpunkt.

Hortonworks allerdings weist selbst darauf hin, dass ein Hadoop-Cluster doch zunächst einmal günstiger kommt. Die Relation bezogen auf ein Terabyte Roh-Daten: ab 100.000 Dollar bei konvergenten Systemen, ab 20.000 Dollar bei Massiv-Parallelen Systemen und ab 40.000, eher ab 80.000 Dollar bei SAN-Systemen, 5.000 Dollar beim Einsatz von Hadoop (siehe: Abbildung 5).

Der Technology Evangelist bei SAP

Timo Elliot, Technology Evangelist bei SAP, jedenfalls pflichtet der Sichtweise von Hortonworks bei. Er sieht Hadoop-Cluster vor allem in Ergänzung zum In-Memory-Computing mit HANA. Er sagt: „ Auch traditionelle Datenbank-Technik“ wird nicht einfach verschwinden, so wird es im Transaktionsbereich ziemlich nahtlose Übergänge von der einen zur anderen Technik geben.“ SAP bietet neben HAN noch die Opensource-Datenbank „SAP MaxDB“ und „Sybase IQ“ an.

Dennoch: Im ERP-Umfeld würden die meisten Firmen vermutlich zu HANA-ähnlichen Infrastrukturen wechseln. Doch zugleich suchten sie nach Möglichkeiten, HANA einfacher und billiger zu unterstützen. „Wir streben jedenfalls eine Integration auf einem sehr tief reichenden Level an.“

Als größtes Hindernis, Kunden an Hadoop zu gewöhnen, nennt er übrigens, dass es Open Source sei, also genau den Umstand, der das Framework für SAP und andere OEMs so attraktiv macht.

Artikelfiles und Artikellinks

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de (ID: 42635438)