MapR 5.0 MapR bohrt Hadoop-Distribution für Echtzeit-Analysen auf

Von Michael Matzer |

Anbieter zum Thema

MapR Technologies, Anbieter der gleichnamigen Hadoop-Distribution für Unternehmen, bringt nach mehreren Quick Start Solutions nun Version 5.0 auf den Markt. Diese unterstützt unter anderem einen Echtzeit-Zugriff auf Daten, die in Hadoop 2.7 gespeichert werden.

Übersicht zu Hadoop-Distributionen 2015 von Gigaom Research.
Übersicht zu Hadoop-Distributionen 2015 von Gigaom Research.
(Bild: Gigaom Research)

Die neue Version 5.0 erlaubt die automatische Synchronisierung von Storage, Datenbank und Suchindizes in Echtzeit. Diese erfolgt durch die in Version 4.1 eingeführte Tabellenreplizierung und die automatischen Updates von Indizes. Die Tabellenreplizierung erweitert die Verfügbarkeit von großen und schnellen Datensätzen durch eine asynchrone Replizierung in Echtzeit über mehrere dezentrale und produktive Replica-Cluster hinweg.

Des Weiteren bietet diese Funktion ein Disaster Recovery in Echtzeit, um Risiken eines Datenverlusts durch Site-umfassende Ausfälle zu reduzieren. Alle replizierten Live-Daten werden einem zentralen Cluster für hoch skalierbare Analysen verfügbar gemacht. Auch die Tatsache, dass MapR das Filesystem von Hadoop neu geschrieben hat und seinen Unternehmenskunden als leistungsfähiges NFS bereitstellt, beschleunigt das Echtzeit-Computing.

Bildergalerie

Echtzeit-Applikationen für Hadoop

Der in v4.1 eingeführte POSIX-Client soll die Performance durch den parallelisierten Zugriff auf Daten und ihre Komprimierung steigern. Eine C-API für MapR-DB ist ab v4.1 eine Schnittstelle für die in C programmierenden Anwendungsentwickler, die damit Echtzeit-Applikationen für Hadoop schreiben können.

Nach Angaben von Jim Scott, Leiter der Unternehmensstrategie und -Architektur bei MapR, wollen Unternehmen nicht nur auf einem Berg von Hadoop-Daten sitzen, sondern diese gleich für ihre Kundeninteraktionen nutzen.

Die Tage der Stapelverarbeitung sind gezählt, meint auch Carl Olofson, Analyst bei IDC: „Da es als Batch-basiertes Analysesystem für umfangreiche Datenmengen entworfen wurde, wird Hadoop nicht allzu häufig mit Operational Analytics oder Transaktionsverarbeitung in Verbindung gebracht.“ Mit den Neuerungen in MapR 5.0, so Olofson, entwickelt sich Hadoop zu einer vereinheitlichten Plattform sowohl für die Handhabung von aktuellen Geschäftsdaten wie auch für Echtzeit-Analytik.

Apache Hadoop 2.7 und YARN 2.7

Version 5.0 unterstützt Apache Hadoop 2.7 inklusive YARN 2.7. Dadurch sind in YARN-basierenden Anwendungen „rollierende Upgrades“ möglich, die die „rollierenden Upgrades“ ergänzen, die MapR bislang auf Plattform-Ebene unterstützte. Neu ist auch der Support für Docker-basierte App-Container.

Für immer mehr Unternehmen ist es wichtig, die Belange von Data Governance, Compliance und Datensicherheit zu beachten. Hierin unterstützt MapR seine Kunden. Seine Plattform (Filesystem und Datenbank) lässt sich nun mit LDAP, Active Directory und anderen Verzeichnisdiensten integrieren. Neben der gewohnten Authentifizierung mit Benutzername und Kennwort wird nun auch Kerberos-PKI unterstützt. Tatsächlich sollen sich alle Services im Cluster authentifizieren und mit „NSA-starken“ Algorithmen verschlüsseln lassen. Das dürfte man in Fort Meade, wo die NSA sitzt, nicht gerne hören.

Das Auditieren sämtlicher Datenzugriffe und Admin-Aktionen ist nun mithilfe von Logfiles im JSON-Format realisierbar. Mithilfe von SQL und verbreiteten BI-Tools lässt sich die Analyse der Logs vornehmen.

Die SQL Engine Apache Drill, die nun die MapR-Hadoop-Distribution ergänzt, lässt sich schemalos auf Big Data wie etwa IoT-Daten anwenden, das heißt, ohne vorherige Definitionen. Das ist besonders relevant, wenn deutlich erweiterte Benutzerkreise künftig Apache Drill 1.0 verwenden.

Mit Drill Explorer, einem Parser, können auch nicht-technikaffine Mitarbeiter Petabyte von polystrukturierten Daten binnen Sekunden durchsuchen lassen, um etwa IoT-Daten auszuwerten. Diese Datenmengen können auf mehr als 10.000 Servern liegen. Das Ergebnis sind sogenannte „Drill Bits“. Mit MapR lässt sich nun dieser Datenzugriff absichern, sodass nur befugte User auf der Ebene von Feld, Spalte und Zeile aktiv sein können. Natürlich wird jeder Zugriff geloggt.

MapR 5.0 bringt Echtzeit-Datenanalyse über AWS in die Cloud

Über den AWS Marketplace stellt MapR seine Version 5.0 auch in der Public Cloud zur Verfügung. Mithilfe der Templates in AWS Cloudformation sollen Kunden zuverlässige Hadoop-Cluster auf AWS erstellen können, die langlebige Workloads unterstützen. „So zahlen die Kunden nur für das, was sie tatsächlich nutzen“, sagt Steve Wooledge, Produktmarketier bei MapR. Bislang sei MapR auf Elastic MapReduce verfügbar gewesen.

„MapR ist auf AWS, Google und MS Azure verfügbar, meist zusammen mit Hortonworks“, berichtet Fabian Wilckens von MapR Deutschland. „MapR betont die Wahlfreiheit, indem es das ganze Hadoop-Ecosystem unterstützt, also auch Caldera (Impala), Tez (Hardware), HIVE usw.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Neben diesem Public-Cloud-Modell können Kunden bereits Hybrid-Cloud- und On-premise-Modelle nutzen. Alle drei MapR-Editionen – Community, Enterprise und Enterprise Database – sind bereits auf AWS verfügbar. Sie umfassen Support für Apache Spark.

Lösungen für Schnellstarter

Im Juni hat MapR drei Quick Start Solutions (QSS) für Spark vorgestellt. Jede Quick Start Solution ist für ein spezifisches Szenario konstruiert und beinhaltet Ingest-Datenmodule, Starter-Lösungen, zwei bis vier Wochen Beratungsleistung, ein integriertes Training und einen kleinen Hadoop-Cluster, der sich je nach Anforderung einfach erweitern lässt. Die Quick Start Solutions können neben MapR auch über autorisierte Servicepartner weltweit bezogen werden. „Jede QSS bietet ein Paket zum Festpreis von 30.000 US-Dollar“, sagt Wilckens.

Seit Juni sind folgende QSS verfügbar:

  • Echtzeitanalysen von Sicherheitsprotokollen: Kombiniert die MapR-Distribution mit Apache Spark und eignet sich so zur Analyse von Stammdaten und Echtzeitanalysen von großen Volumen an Sicherheitsdaten, um Bedrohungen frühzeitig zu identifizieren. Die Lösung erweitert bestehende Konzepte für Sicherheitsinformation und Eventmanagement (SIEM) durch eine kosteneffiziente Datenspeicherung und Analyseprozesse, um ungewöhnliche Aktivitäten und unbekannte Bedrohungen umgehend zu identifizieren. Diese QSS macht Splunk Konkurrenz, wie Wilckens sagt, sei aber nicht so teuer.
  • Zeitreihenanalysen: Verbindet die NoSQL-Datenbank MapR DB mit Spark für ein Echtzeitmonitoring von Daten aus dem Internet of Things.
  • Genom-Sequenzierung: Parallelverarbeitung von Genomdaten mittels Hadoop und Spark bei geringeren Latzenzzeiten verglichen mit High Performance Computing (HPC).

Bereits seit Februar stehen folgende QSS zur Verfügung:

  • Die Data Warehouse Optimization and Analytics Solution bietet Kunden die Flexibilität, Hadoop zusammen mit ihrem Data Warehouse einzusetzen. Transformationen mittels Hadoop helfen, die Gesamtkosten zu reduzieren und zuvor genutzte Speicher- und Rechenkapazitäten verfügbar zu machen. Zudem lassen sich mehr Datentypen und -formen der MapR-Distribution zwecks detaillierterer Analysen hinzuzufügen.
  • Die Recommendation Engine Solution beinhaltet ein Echtzeitangebot für Produkte und Services, welches vergangene Transaktionen, Kundenverhalten und weitere Kundenattribute kombiniert, sodass Unternehmen ihre Umsätze steigern und eine stärkere Kundenbindung erzielen können. Hier kommt Machine Learning zum Tragen.

„Wir haben die besten Verfahren von führenden und etablierten Hadoop-Implementierungen mit einem Set aus empfohlenen Tools und Produkten für das Hadoop-Ecosystem kombiniert, um die Lernkurve für Kunden zu minimieren“, so Dave Jespersen, Vice President of Worldwide Services bei MapR. „Unsere Quick Start Solutions helfen Kunden, Implementierungen zügiger durchzuführen und einen schnelleren ROI zu erzielen.“

Gerade an seinem Ecosystem habe MapR noch bauen müssen, bemängelt der Analyst Noel Yuhanna von der Forrester Group in zwei Reports über NoSQL-Datenbanken und Hadoop-Distributionen. Zwar sei MapR unbestritten sehr für die Anforderungen großer Unternehmen oder Organisationen geeignet, doch hapere es noch an einem ausgedehnten Partner-Ecosystem und dem entsprechenden Marketing.

„Da MapR über keine eigenen Professional Services verfügt, ist es auf ISV als Partner angewiesen“, weiß auch Fabian Wilckens. Aber Gartner-Analyst Mark Beyer vermerkte im Februar 2015 positiv, dass „MapR dieses Problem seit kurzem angeht, indem es Partnerschaften mit Teradata, SAS und HP Vertica eingegangen ist“.

(ID:43573407)