MapR Technologies, Anbieter der gleichnamigen Hadoop-Distribution für Unternehmen, bringt nach mehreren Quick Start Solutions nun Version 5.0 auf den Markt. Diese unterstützt unter anderem einen Echtzeit-Zugriff auf Daten, die in Hadoop 2.7 gespeichert werden.
Übersicht zu Hadoop-Distributionen 2015 von Gigaom Research.
(Bild: Gigaom Research)
Die neue Version 5.0 erlaubt die automatische Synchronisierung von Storage, Datenbank und Suchindizes in Echtzeit. Diese erfolgt durch die in Version 4.1 eingeführte Tabellenreplizierung und die automatischen Updates von Indizes. Die Tabellenreplizierung erweitert die Verfügbarkeit von großen und schnellen Datensätzen durch eine asynchrone Replizierung in Echtzeit über mehrere dezentrale und produktive Replica-Cluster hinweg.
Des Weiteren bietet diese Funktion ein Disaster Recovery in Echtzeit, um Risiken eines Datenverlusts durch Site-umfassende Ausfälle zu reduzieren. Alle replizierten Live-Daten werden einem zentralen Cluster für hoch skalierbare Analysen verfügbar gemacht. Auch die Tatsache, dass MapR das Filesystem von Hadoop neu geschrieben hat und seinen Unternehmenskunden als leistungsfähiges NFS bereitstellt, beschleunigt das Echtzeit-Computing.
Bildergalerie
Echtzeit-Applikationen für Hadoop
Der in v4.1 eingeführte POSIX-Client soll die Performance durch den parallelisierten Zugriff auf Daten und ihre Komprimierung steigern. Eine C-API für MapR-DB ist ab v4.1 eine Schnittstelle für die in C programmierenden Anwendungsentwickler, die damit Echtzeit-Applikationen für Hadoop schreiben können.
Nach Angaben von Jim Scott, Leiter der Unternehmensstrategie und -Architektur bei MapR, wollen Unternehmen nicht nur auf einem Berg von Hadoop-Daten sitzen, sondern diese gleich für ihre Kundeninteraktionen nutzen.
Die Tage der Stapelverarbeitung sind gezählt, meint auch Carl Olofson, Analyst bei IDC: „Da es als Batch-basiertes Analysesystem für umfangreiche Datenmengen entworfen wurde, wird Hadoop nicht allzu häufig mit Operational Analytics oder Transaktionsverarbeitung in Verbindung gebracht.“ Mit den Neuerungen in MapR 5.0, so Olofson, entwickelt sich Hadoop zu einer vereinheitlichten Plattform sowohl für die Handhabung von aktuellen Geschäftsdaten wie auch für Echtzeit-Analytik.
Apache Hadoop 2.7 und YARN 2.7
Version 5.0 unterstützt Apache Hadoop 2.7 inklusive YARN 2.7. Dadurch sind in YARN-basierenden Anwendungen „rollierende Upgrades“ möglich, die die „rollierenden Upgrades“ ergänzen, die MapR bislang auf Plattform-Ebene unterstützte. Neu ist auch der Support für Docker-basierte App-Container.
Für immer mehr Unternehmen ist es wichtig, die Belange von Data Governance, Compliance und Datensicherheit zu beachten. Hierin unterstützt MapR seine Kunden. Seine Plattform (Filesystem und Datenbank) lässt sich nun mit LDAP, Active Directory und anderen Verzeichnisdiensten integrieren. Neben der gewohnten Authentifizierung mit Benutzername und Kennwort wird nun auch Kerberos-PKI unterstützt. Tatsächlich sollen sich alle Services im Cluster authentifizieren und mit „NSA-starken“ Algorithmen verschlüsseln lassen. Das dürfte man in Fort Meade, wo die NSA sitzt, nicht gerne hören.
Das Auditieren sämtlicher Datenzugriffe und Admin-Aktionen ist nun mithilfe von Logfiles im JSON-Format realisierbar. Mithilfe von SQL und verbreiteten BI-Tools lässt sich die Analyse der Logs vornehmen.
Die SQL Engine Apache Drill, die nun die MapR-Hadoop-Distribution ergänzt, lässt sich schemalos auf Big Data wie etwa IoT-Daten anwenden, das heißt, ohne vorherige Definitionen. Das ist besonders relevant, wenn deutlich erweiterte Benutzerkreise künftig Apache Drill 1.0 verwenden.
Mit Drill Explorer, einem Parser, können auch nicht-technikaffine Mitarbeiter Petabyte von polystrukturierten Daten binnen Sekunden durchsuchen lassen, um etwa IoT-Daten auszuwerten. Diese Datenmengen können auf mehr als 10.000 Servern liegen. Das Ergebnis sind sogenannte „Drill Bits“. Mit MapR lässt sich nun dieser Datenzugriff absichern, sodass nur befugte User auf der Ebene von Feld, Spalte und Zeile aktiv sein können. Natürlich wird jeder Zugriff geloggt.
MapR 5.0 bringt Echtzeit-Datenanalyse über AWS in die Cloud
Über den AWS Marketplace stellt MapR seine Version 5.0 auch in der Public Cloud zur Verfügung. Mithilfe der Templates in AWS Cloudformation sollen Kunden zuverlässige Hadoop-Cluster auf AWS erstellen können, die langlebige Workloads unterstützen. „So zahlen die Kunden nur für das, was sie tatsächlich nutzen“, sagt Steve Wooledge, Produktmarketier bei MapR. Bislang sei MapR auf Elastic MapReduce verfügbar gewesen.
„MapR ist auf AWS, Google und MS Azure verfügbar, meist zusammen mit Hortonworks“, berichtet Fabian Wilckens von MapR Deutschland. „MapR betont die Wahlfreiheit, indem es das ganze Hadoop-Ecosystem unterstützt, also auch Caldera (Impala), Tez (Hardware), HIVE usw.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Neben diesem Public-Cloud-Modell können Kunden bereits Hybrid-Cloud- und On-premise-Modelle nutzen. Alle drei MapR-Editionen – Community, Enterprise und Enterprise Database – sind bereits auf AWS verfügbar. Sie umfassen Support für Apache Spark.
Lösungen für Schnellstarter
Im Juni hat MapR drei Quick Start Solutions (QSS) für Spark vorgestellt. Jede Quick Start Solution ist für ein spezifisches Szenario konstruiert und beinhaltet Ingest-Datenmodule, Starter-Lösungen, zwei bis vier Wochen Beratungsleistung, ein integriertes Training und einen kleinen Hadoop-Cluster, der sich je nach Anforderung einfach erweitern lässt. Die Quick Start Solutions können neben MapR auch über autorisierte Servicepartner weltweit bezogen werden. „Jede QSS bietet ein Paket zum Festpreis von 30.000 US-Dollar“, sagt Wilckens.
Seit Juni sind folgende QSS verfügbar:
Echtzeitanalysen von Sicherheitsprotokollen: Kombiniert die MapR-Distribution mit Apache Spark und eignet sich so zur Analyse von Stammdaten und Echtzeitanalysen von großen Volumen an Sicherheitsdaten, um Bedrohungen frühzeitig zu identifizieren. Die Lösung erweitert bestehende Konzepte für Sicherheitsinformation und Eventmanagement (SIEM) durch eine kosteneffiziente Datenspeicherung und Analyseprozesse, um ungewöhnliche Aktivitäten und unbekannte Bedrohungen umgehend zu identifizieren. Diese QSS macht Splunk Konkurrenz, wie Wilckens sagt, sei aber nicht so teuer.
Zeitreihenanalysen: Verbindet die NoSQL-Datenbank MapR DB mit Spark für ein Echtzeitmonitoring von Daten aus dem Internet of Things.
Genom-Sequenzierung: Parallelverarbeitung von Genomdaten mittels Hadoop und Spark bei geringeren Latzenzzeiten verglichen mit High Performance Computing (HPC).
Bereits seit Februar stehen folgende QSS zur Verfügung:
Die Data Warehouse Optimization and Analytics Solution bietet Kunden die Flexibilität, Hadoop zusammen mit ihrem Data Warehouse einzusetzen. Transformationen mittels Hadoop helfen, die Gesamtkosten zu reduzieren und zuvor genutzte Speicher- und Rechenkapazitäten verfügbar zu machen. Zudem lassen sich mehr Datentypen und -formen der MapR-Distribution zwecks detaillierterer Analysen hinzuzufügen.
Die Recommendation Engine Solution beinhaltet ein Echtzeitangebot für Produkte und Services, welches vergangene Transaktionen, Kundenverhalten und weitere Kundenattribute kombiniert, sodass Unternehmen ihre Umsätze steigern und eine stärkere Kundenbindung erzielen können. Hier kommt Machine Learning zum Tragen.
„Wir haben die besten Verfahren von führenden und etablierten Hadoop-Implementierungen mit einem Set aus empfohlenen Tools und Produkten für das Hadoop-Ecosystem kombiniert, um die Lernkurve für Kunden zu minimieren“, so Dave Jespersen, Vice President of Worldwide Services bei MapR. „Unsere Quick Start Solutions helfen Kunden, Implementierungen zügiger durchzuführen und einen schnelleren ROI zu erzielen.“
Gerade an seinem Ecosystem habe MapR noch bauen müssen, bemängelt der Analyst Noel Yuhanna von der Forrester Group in zwei Reports über NoSQL-Datenbanken und Hadoop-Distributionen. Zwar sei MapR unbestritten sehr für die Anforderungen großer Unternehmen oder Organisationen geeignet, doch hapere es noch an einem ausgedehnten Partner-Ecosystem und dem entsprechenden Marketing.
„Da MapR über keine eigenen Professional Services verfügt, ist es auf ISV als Partner angewiesen“, weiß auch Fabian Wilckens. Aber Gartner-Analyst Mark Beyer vermerkte im Februar 2015 positiv, dass „MapR dieses Problem seit kurzem angeht, indem es Partnerschaften mit Teradata, SAS und HP Vertica eingegangen ist“.