Suchen

Apache Hive in Version 1.0 erschienen Der SQL-Nachbrenner für HDFS

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Nach rund sechs Jahren Entwicklungszeit kann das Apache-Hive-Team eine symbolträchtige Version 1.0 seiner im Hadoop-Ökosystem nicht mehr wegzudenkenden SQL-ähnlichen Abfragesprache präsentieren.

Firma zum Thema

Apache Hive – die SQL-Schnittstelle für Big Data – erreicht die Versionsnummer 1.0
Apache Hive – die SQL-Schnittstelle für Big Data – erreicht die Versionsnummer 1.0
(Bild: Hortonworks)

Hive, seit 2008 ein Open-Source-Projekt der Apache Software Foundation (ASF), liegt ab sofort in einer stabilen Version 1.0 vor. Seit 2010 ist Hive ein Top-Level-Projekt der Apache Software Foundation. Neben zahlreichen Fehlerkorrekturen finden sich in den Release Notes auch zwei echte Neuerungen. So ist der HiveMetaStoreClient ab sofort als öffentliches API zugänglich und Release Builds sollen ab sofort auf Abhängigkeiten zu Snapshots überprüft werden.

Hive – Hadoops Data-Warehouse-Schnittstelle

Apache Hive spielt im Hadoop-Ökosystem seit langem eine zentrale Rolle und ergänzt Hadoop quasi um eine Data-Warehouse-Komponente in Form der Abfragesprache HiveQL. Bei HiveQL handelt es sich um eine auf SQL beruhende Abfragesprache, die Entwicklern eine mit SQL vergleichbare Syntax in Abfragen zur Verfügung stellt. So lassen sich in Hadoops HDFS-Filesystem ablegte Daten via SQL extrahieren oder bearbeiten. Hive wurde erstmals 2008 von Facebook offiziell präsentiert und der Open-Source-Gemeinschaft übergeben. Hive ist Teil aller namhaften Hadoop-Distributionen und hat sich laut Hortonworks – hier eine der zentralen DataAccess-Komponenten von YARN – zum De-facto-Standard für interaktives SQL im Zusammenhang mit HDFS entwickelt.

Hive, der Quasi-SQL-Standard in YARN
Hive, der Quasi-SQL-Standard in YARN
(Bild: Hortonworks)

Hortonworks Hive-Turbo

Erst im September vergangenen Jahres hatte Hortonworks seine Pläne zur weiteren Beschleunigung von Apache Hive im Rahmen des Projektes „Stinger.next“ erläutert und Phase 1 gestartet, nachdem im April 2013 das Stinger-Projekt erfolgreich etabliert werden konnte, das Hive um einen Faktor 100 beschleunigen können soll.

Stinger.next soll laut Hortonworks einen Echtzeitzugriff auf SQL-Daten ermöglichen und Hive um Transaktionsfähigkeiten erweitern. Mit Reaktionszeiten im Echtzeitbereich soll Hive endgültig zum alternativlosen SQL-Standard in Big-Data-Dimensionen mutieren. Da Phase 1 von Stinger.next vor dem Abschluss steht, soll noch im ersten Halbjahr 2015 Phase 2 zusammen mit Hive 1.1 folgen, die nach der sogenannten Interactive Era im Rahmen der Sub Second Era unter anderem eine Hive-Spark-Machine-Learning-Integration bringen soll.

Artikelfiles und Artikellinks

(ID:43200011)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist