Kommentar von Bernard Doering, Cloudera

Neue Lösungen machen Hadoop unternehmensreif

| Autor / Redakteur: Bernard Doering / Nico Litzel

Der Autor: Bernard Doering ist Regional Director Central Europe bei Cloudera
Der Autor: Bernard Doering ist Regional Director Central Europe bei Cloudera (Bild: Cloudera)

Mit Big Data lassen sich Daten analysieren, um daraus Neues zu lernen, Theorien mit Fakten zu untermauern oder neue Produkte und vor allem Dienstleistungen zu entwickeln. Analysen versprechen Erkenntnisse für klügere geschäftliche Entscheidungen, Wettbewerbsvorteile, bessere Kundenbeziehungen sowie ganz neue Produkte. Basis für jedes Big-Data-Projekt ist jedoch zuerst einmal das Handling der riesigen Datenmengen.

Dafür benötigt man ein Gerüst, um das sich Anwendungen und Erweiterungen herum gruppieren (Framework). Als Framework hat sich die Apache Hadoop Software aufgrund ihrer Flexibilität und nahezu grenzenlosen Skalierbarkeit mittlerweile zum De-facto-Standard bei großen, vor allem unstrukturierten Daten entwickelt, während die klassischen relationalen Datenbank-Management-Systeme (RDBMS) sich mehr auf transaktionsorientierte Prozesse fokussieren. Hadoop ist eher im dispositiven Bereich für die Datenauswertung geeignet, aber neue Entwicklungen wie Spark, Impala oder Kudu öffnen für die Hadoop Software immer neue Anwendungsbereiche.

Hadoop im Wandel – Apache Spark im Kommen

Seit den Anfängen mit HDFS und MapReduce hat sich Hadoop von einer stark spezialisierten Nischenanwendung zu einem breiten Ökosystem entwickelt, das von einer aktiven Community und starken Unternehmen wie Cloudera gleichermaßen getragen wird. Immer neue Entwicklungen werden konzeptioniert und umgesetzt, welche zum Teil sogar die etablierte technische Basis ergänzen und irgendwann sogar ablösen werden.

Spark wurde beispielsweise als Framework für Cluster-Computing an der Berkeley-Universität entwickelt und ist seit 2013 ein Apache-Projekt, mittlerweile auf Top-Level. Apache Spark nutzt wie Hadoop ein Cluster, also einen Netzwerkverbund aus Rechnern, setzt aber anders als MapReduce auf In-Memory-Verarbeitung im Arbeitsspeicher der Cluster-Knoten. Wenn die Datenmengen dazu zu groß werden, weicht Spark auf Festplattenspeicher aus. Das ermöglicht eine erheblich schnellere Verarbeitung bis hin zu Echtzeit-Datenanalysen.

Zudem kann Spark nicht nur HDFS-Daten verarbeiten, sondern auch Daten aus relationalen (beispielsweise Hive) und NoSQL-Datenbanken. Insbesondere die Zunahme maschinengenerierter Daten, etwa aus dem Internet der Dinge, schafft einen immer größeren Bedarf für Echtzeit-Datenanalyse und hier ist Spark unübertroffen. Spark hat das Zeug dazu, MapReduce in Rente zu schicken.

Kudu für noch mehr Datenanalyse

Bis vor Kurzem waren Entwickler gezwungen, sich zwischen schneller Analyse mit HDFS oder effizienten Updates mit HBase zu entscheiden. Seit der Zunahme an Streaming-Daten ist jedoch die Nachfrage nach einer Kombination der beiden Funktionen gewachsen, um damit Echtzeit-Analyseanwendungen für veränderliche Daten zu erstellen. Gemeinsam mit Intel haben wir daher Kudu entwickelt, um der sich verändernden Hardware-Landschaft voraus zu sein und um Innovationen bei persistenten Speichern zu nutzen.

Kudu ist eine spaltenbasierte native Hadoop-Speicher-Option, welche sowohl wahlfreien Zugriff mit niedriger Latenzzeit als auch Analysen mit hohem Durchsatz unterstützt. Es ergänzt die Kapazitäten von HDFS und HBase, indem es gleichzeitig schnelles Einfügen und Aktualisieren sowie effiziente spaltenweise Scans bietet. Es ist insbesondere auf große Datenströme in Echtzeit optimiert, wie sie beispielsweise durch Internet-der-Dinge-Anwendungen anfallen.

Durch die Integration in das Hadoop-Ökosystem können Anwendungen wie Apache Spark oder Apache Solr direkt auf die Daten zugreifen. Die Architektur von Kudu vereinfacht die Entwicklerarbeit beim Erstellen von Analyseanwendungen, indem sie häufige Anwendungsfälle wie Zeitreihenanalyse, Maschinendatenanalyse und Online-Reporting unterstützt. All dies vereinfacht Echtzeit-Anwendungsfälle in Hadoop-Architekturen und trägt zur Akzeptanz von Hadoop im Markt bei. Damit Kudu von der großen Entwicklergemeinde im Open-Source-Umfeld profitieren kann, hat Cloudera Kudu an die Apache Software Foundation (ASF) übergeben.

Impala – die analytische Datenbank

Als analytische Datenbank für Hadoop hat Impala seit der Einführung im Jahr 2012 schnell große Verbreitung gefunden. Mittlerweile unterstützt Impala zahlreiche Branchenlösungen und lässt sich mit allen führenden Business-Intelligence-Werkzeugen (BI) integrieren. Ursprünglich hat Impala mit SQL-92 Core-Funktionalität und interaktive SQL-Performance auf Hadoop ermöglicht. Mittlerweile sind die analytischen SQL-Funktionen weiter ausgereift: Sie ermöglichen operative BI- und Data-Discovery-Lösungen mit extrem niedriger Latenz und gleichzeitig die Unterstützung vieler paralleler Anwender, darunter Analysten und gelegentliche Nutzer. Impala 2.0 hat für viele geschäftliche Anwender die Karten neu gemischt, es verbindet weit verbreitete Anwendungsfälle mit dem vielen IT-lern vertrauten Zugriff auf Hadoop.

Impala hat den Fokus weiterhin auf Zuverlässigkeit in großem Maßstab gesetzt und unterstützt immer mehr Kunden, bei denen mehr als Tausend Anwender gleichzeitig Millionen von Abfragen durchführen, die auf Clustern von zehn bis zu mehreren hundert Knoten laufen. Impala steht seit der Veröffentlichung unter Apache-Lizenz und hat sich seitdem zu einem Open-Source-Standard im Hadoop-Ökosystem entwickelt.

Anfang des Jahres wurde Impala für Beiträge der Community geöffnet und seitdem werden die Entwicklungsaktivitäten immer mehr. Google hat Integrationen zwischen Impala und BigTable entwickelt, hinzukommen Beiträge von Arcadia Data, Intel und anderen. Durch die Übergabe des Projektes an ASF kann die heterogene Community von einer gut etablierten Basis ausgehend die Vision von Impala weiter vorantreiben.

Jetzt noch mehr Sicherheit

Damit die Akzeptanz von Hadoop bei Unternehmen weiter wächst, müssen wir in Zukunft mehr über Lösungen und weniger über Technologie reden. Wir haben uns daher das Ziel gesteckt, mit unserer „One-Platform“-Initiative die Hadoop-Technologie Business-tauglich zu machen. Ein Ziel der Initiative ist es, zu gewährleisten, dass Spark auch Petabyte quer durch Tausende Knotenpunkte in mandantenfähigen Clustern bewältigen kann, was verbesserte Verlässlichkeit, Stabilität und Leistung verlangt. Nur dann können zeitkritische Enterprise-Anwendungen in Hadoop laufen.

Besonders Unternehmen aus stark regulierten Branchen wie den Bereichen Finanzdienstleistungen oder Gesundheitswesen haben umfangreiche Sicherheits- und Compliance-Bedürfnisse, denen die IT und damit auch Hadoop & Co. Rechnung tragen müssen. Eine Schlüsselrolle spielt dabei Apache Sentry, der Standard für eine einheitliche Regeldefinition in Hadoop. Es gewährleistet konsistente Regeln über verschiedene Zugangswege hinweg. Manche Zugangswege unterstützen jedoch eher granulare Beschränkungen als andere. Bei den verschiedenen Zugangs-Engines im Hadoop-Ökosystem, wie zum Beispiel Spark, Kudu, Impala oder Solr, ist es eine dauerhafte Herausforderung, diese Regeln konsistent umzusetzen, ohne gleichzeitig den Zugang zu den Daten selbst einzuschränken. Die Neuentwicklung RecordService ergänzt die Regeldefinitionen von Apache Sentry um eine Ebene und vereinfacht Sicherheit mit einer einheitlichen Reihen- und Spaltenebenen-Kontrolle für alle Zugangswege.

Die fein abgestimmte Richtlinienumsetzung erlaubt Unternehmen, die gesamten Fähigkeiten von Hadoop wahrzunehmen, sodass neben höherer Performance und besserer Skalierbarkeit auch die Sicherheit gesteigert werden kann: Damit steht dem Business-Einsatz nichts mehr Weg. 2016 wird das Jahr von Hadoop im Unternehmen.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43808103 / Infrastruktur)