Spaltenorientierte Datenspeicherung für Hadoop

Apache Parquet wird Top-Level-Projekt

| Autor / Redakteur: Thomas Drilling / Nico Litzel

Parquet: Spaltenorientiertes Speicherformat für Hadoop
Parquet: Spaltenorientiertes Speicherformat für Hadoop (Bild: Apache Software Foundation, Twitter)

Die Apache Software Foundation (ASF) hat das das Open-Source-Projekt Parquet, ein spaltenorientiertes Speicherformat für das Hadoop-Ökosystem, zum Top-Level Projekt befördert.

Das quelloffene Parquet fungiert als spaltenorientiertes Speichersystem für das Hadoop-Ökosystem und wurde von der Apache Software Foundation aus dem Incubator der Stiftung jetzt zum Top-Level-Projekt befördert.

Mehr Effizienz bei verschachtelten Namensräumen

Parquet versteht sich als alternatives Speicherformat für das Hadoop-Ökosystem. Parquet wurde von Grund auf für den Umgang mit verschachtelten Datenstrukturen entwickelt und nutzt den „Record-shredding-and-assembly“-Algorithmus, wie er in Dremel beschrieben ist. Die Parquet-Entwickler glauben, dass sich dieser Ansatz besser zur „Verflachung“ verschachtelte Namensräume eignet und letztendlich die Latenz beim Datenzugriff verringert.

Da das Format spaltenorientiert funktioniert, ermöglicht es sehr effiziente Kompressions- und Codierungsverfahren zur Reduzierung des Speicherbedarfs. Parquet ist sehr flexibel und funktioniert über das von der jeweiligen Big-Data-Anwendung verwendete Verarbeitungs-Framework (MapReduce, Apache Spark, Scalding, Cascading, Crunch, Kite), Datenmodell (Apache Avro, Apache Thrift, Protocol Buffers, POJOs) und Abfrage-Engine (Apache Hive, Impala, HAWQ, Apache Drill, Apache Tajo, Apache Pig, Presto, Apache Spark SQL) hinweg.

Weitere Informationen

Weitere Details zu den in Parquet verwendeten Algorithmen stellt die Apache Software Foundation in der Dokumentation sowie im „alten“ GitHub-Repositorium des Projekts zur Verfügung. Seit dem Wechsel zur Apache Software Foundation steht die aktuelle Version 1.6 allerdings im zentralen Maven-Repository der Foundation zum Herunterladen zur Verfügung. Auf Github finden sich nur noch ältere Versionen. Ebenfalls sehr aufschlussreich ist eine Video-Präsentation vom letztjährigen Hadoop-Summit.

Prominente Nutzer

Twitter gehört wie Netflix und Cloudera (Impala) zu den Early Adoptors von Parquet
Twitter gehört wie Netflix und Cloudera (Impala) zu den Early Adoptors von Parquet (Bild: Twitter)

Zu den prominentesten Nutzern von Parquet gehören Netflix, Cloudera und Twitter. Laut Chris Aniszczyk, Open-Source-Leiter von Twitter, konnte Parquet in einigen Fällen die Speicheranforderungen für große Datensätze um ein Drittel reduzieren. Bei Netflix kommt Parquet laut Daniel Weeks, Software Engineer bei Netflix, als primäres Storage-Format für Data Warehousing zum Einsatz. Mehr als sieben Petabyte des zehn Petabyte umfassenden Warehouses bei Netflix seien Daten im Parquet-Format, auf das Netflix mit einer breiten Palette an Anwendungen zugreife, darunter Apache Hive, Apache Pig, Apache Spark, PigPen, Presto und natives MapReduce.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 43360836 / Infrastruktur)