Suchen

Self-service Data Exploration MapR nutzt Drill 1.2

Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

MapR Technologies, Anbieter der um Enterprise-Storage- und Echtzeit-Datenanalyse-Fähigkeiten erweiterten Hadoop-Distribution MapR, integriert die neue Version 1.2 von Apache Drill. Ergänzend stellt MapR sein umfassendes SQL-basiertes Test-Framework unter eine Open-Source-Lizenz.

Firmen zum Thema

Drill 1.2 macht MapR-Distribution performanter und vielseitiger
Drill 1.2 macht MapR-Distribution performanter und vielseitiger
(MapR)

Kunden und Partner sollen mit der Integration von Drill 1.2 in MapR noch schneller und einfacher Einblicke in geschäftsrelevante Daten aus Hadoop oder anderen Datenquellen gewinnen können. Drill ist ein maßgeblich von Googles Dremel beeinflusstes Open Source Framework zur Datenanalyse.

Neuerungen in Drill 1.2

Drill 1.2 erscheint etwa ein halbes Jahr nach Drill 1.0 und ein Jahr, nachdem Drill zum Top-Level-Projekt aufgestiegen ist. Die neue Version bringt erweiterte SQL-Funktionen sowie Performanceverbesserungen mit und ist zudem besser in die Data-Warehouse-Komponente von Hadoop – Apache Hive – integriert. Die Neuerungen im Detail:

  • Die Entwickler setzten mit Drill 1.2 ihre Bemühungen zur Bereitstellung einer ANSI-SQL-konformen Analyse fort. Das erlaubt es Unternehmen unter anderem, existierende BI/Analytics-Tools um eine SQL-kompatible Analyse zu ergänzen.
  • Zu den neu unterstützten SQL-Funktionen gehören z. B. Lead, Lag, First Value, NTILE und Last Value. Ferner erweitern die Entwickler die zahlreichen bereits mit Apache Drill 1.1 eingeführten Aggregated Window Functions.
  • Darüber hinaus ermöglicht Drill 1.2 eine höhere Performance und Skalierbarkeit für interaktive Workloads. Einige Funktionen profitieren dabei von einer neuen Metadaten-Cache-Technologie, die Abfragen mit Tausenden von Dateien beschleunigt.
  • Erweiterte Pushdown-Funktionen für zahlreiche Datentypen erlauben zudem schnelle Abfragen auf Basis von HBase und MapR-DB.
  • Dank der besseren Hive-Integration können Unternehmen nun gleichzeitig Hive für ETL (Extract, Transform und Load) und Drill in einem Cluster für interaktive Abfragen nutzen. Dabei optimiert ein Parquet-Reader, der den Hive Serializer/Deserializer (SerDe) ersetzt, das Lesen von HBase- und Hive-Tabellen.

Drill 1.2 ist nicht nur ab sofort in der Hadoop-Distribution von MapR enthalten, sondern lässt sich wie üblich auch direkt vom Apache-Projekt herunterladen.

Test Framework

MapR hat außerdem ein umfassendes SQL-Test-Framework an die Drill-Community übergeben, das Entwicklern mehr als 10.000, über Monate entwickelte Tests zur Verfügung stellt. Diese sollen dazu dienen, die Enterprise-Qualitäten des Drill-Projekts durch die Beschleunigung von Community-getriebenen Innovationen voranzubringen.

(ID:43683062)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist