Hadoop-Distribution für NoSQL- und Big-Data-Analysen von MapR Solider Unterbau für Hadoop

Autor / Redakteur: Ariane Rüdiger / Nico Litzel

Unternehmen brauchen bei Filesystemen Eigenschaften wie Mandantenfähigkeit oder Hochverfügbarkeit, die HDFS (Hadoop Distributed Filesystem) bis heute nicht besitzt. Das Start-up MapR macht sich nun diese Marktlücke zunutze.

Firmen zum Thema

Die Apache-Projekte laufen auf der MapR-Plattform wie von HDFS gewohnt weiter. Eine Steuerschicht bietet Verwaltungsfunktionen.
Die Apache-Projekte laufen auf der MapR-Plattform wie von HDFS gewohnt weiter. Eine Steuerschicht bietet Verwaltungsfunktionen.
(Bild: MapR)

Datenanalysen in der Cloud sind für viele Unternehmen tabu. Die Vorstellung, ihre Dateninputs oder gar die Ergebnisse könnten in fremde Hände geraten, lässt sie davor zurückschrecken. Andererseits sind leistungsstarke Big-Data-Analyseumgebungen nach wie vor sehr teuer – für viele Unternehmen zu teuer – und damit eigentlich ein ideales Feld der gemeinsamen Infrastrukturnutzung.

Doch Eigenschaften wie Mandantenfähigkeit, um die Daten unterschiedlicher Kunden sicher auseinanderzuhalten, Snapshots und Hochverfügbarkeit, um Datenverluste sicher zu vermeiden oder schnelle Inline-Deduplizierung, um die Datenvolumina ohne Zeitverluste so kompakt wie möglich zu halten, gibt es als Open Source schlicht nicht. Die freie Programmierer-Community tut sich anscheinend recht schwer damit, derart komplexe Funktionen zu realisieren.

Solche Situationen sind der ideale Einstiegspunkt für Marktneulinge, in diesem Fall MapR. Das Unternehmen wurde 2009 gegründet, beschäftigt inzwischen 150 Mitarbeiter, davon zwei in Deutschland, und wird von Venture Capital finanziert. Erst im März konnte MapR die letzte Finanzierungsrunde mit 30 Millionen US-Dollar abschließen. Insgesamt hat das Unternehmen 59 Millionen US-Dollar erhalten.

Filesystem und Verwaltungsfunktionen

MapR hat eine eigene Hadoop-Distribution für NoSQL- und Big-Data-Analysen entwickelt. Sie besteht aus einem geschützten, proprietären Filesystem und Verwaltungsfunktionen. Während der „Oberbau“ des Hadoop-Systems dank entsprechender Schnittstellen mit seinen vielfältigen Projekten für alle möglichen Zwecke weiterhin verwendbar ist wie bisher, sorgt der von MapR runderneuerte Hadoop-Unterbau dafür, dass Big Data für Cloud-Anbieter oder Unternehmen, die ihre eigene Private Cloud bauen wollen, endlich zu einer realistischen Option wird.

Hadoop für Profis

Denn das Start-up MapR hat in seine Software all das integriert, was Profis verlangen: angefangen bei Point-in-Time-Snapshots über Hochverfügbarkeit, Disaster Recovery und Inline-Deduplizierung bis hin zu Mandantenfähigkeit und Funktionen zur Datensicherung. Gerade die beiden letztgenannten Themen dürften, sofern befriedigend gelöst, für die Kunden der zukünftigen Big-Data-Cloud-Provider ein wichtiges Argument sein, ihre Analysen doch einem Dienstleister anzuvertrauen.

Unternehmen, die an den Aufbau einer Private Cloud mit Big-Data-Analysefähigkeiten denken, profitieren ebenfalls. Sie können durch Mandantenfähigkeit beispielsweise die Analysen unterschiedlicher Abteilungen sauber trennen.

Kein Einsatz von proprietären Konnektoren

Hardwarebasis von MapR, das sich als reines Softwareunternehmen definiert, sind Standard-Intel-Server, als Betriebssystem dient 64-Bit-Linux. Es sind NFS-, ODBC-, LDAP- und REST-Schnittstellen vorhanden, proprietäre Konnektoren sind also nicht erforderlich.

MapR-Systeme bestehen aus mindestens zwei redundanten Knoten – nach oben sind keine Grenzen gesetzt. Sie speichern jedes File auf jeweils drei Knoten, falls ausreichend viele vorhanden sind, oder zumindest auf drei unterschiedlichen Festplatten. Files dürfen bis zu einem Terabyte groß sein. Das System arbeitet mit virtuellen Volumes, deren Größe ebenfalls unbegrenzt ist.

Für Echtzeitanalysen, beispielsweise von Social-Media-Streams, ist wichtig, dass die Daten über NFS direkt in die Analyseknoten gestreamt werden können und sich das zu analysierende Datenmaterial selbsttätig über die vorhandenen Speicherknoten so verteilt, dass es optimal analysierbar ist. Den Suchindex speichert MapR direkt auf Hadoop, was das Suchen stark beschleunigt. MapR ist mit Suchlösungen wie LucidWorks integriert.

Drei Versionen

Derzeit gibt es drei Versionen: eine kostenlos nutzbare, MapR5 und die Profi-Ausgabe MapR 7, die erst jüngst auf den Markt kam. Das Verdienstmodell des Anbieters basiert auf einer vierstelligen monatlichen Mietgebühr pro Knoten und Monat. Das sichert dem Startup einen berechenbaren Einnahmenstrom und dem Kunden, dass er sich um Softwarewartung und Updates nicht kümmern muss.

Schon 1.000 Kunden nutzen MapR, allerdings viele die kostenlose Variante. Zwei Kunden, die Zeljko Dodlek, Sales Director für den deutschsprachigen Raum, jedoch nicht nennen darf, sitzen in Deutschland. Großes Interesse gibt es laut dem Manager vonseiten aller Cloud-Provider, die jetzt schon Big-Data-Services anbieten oder in Zukunft daran denken. „Wir reden hier beinahe mit jedem“, behauptet Dodlek. Auch Partner unter den Integratoren, die das Produkt beispielsweise durch spezialisierte Analyselösungen anreichern könnten, gibt es schon: Die MapR-Distributionen vertreiben Norcom, Cimt und Comsystem.

(ID:39604780)