Der Google-Ritterschlag, die YARN-Integration und schlüsselfertige Hadoop-Anwendungen Das MapR-Technologies-Update

Redakteur: Ulrike Ostler

Kennen Sie eigentlich MapR Technologies? Im Report „The Forrester Wave, Big Data Hadoop Solutions“ vom Frühjahr dieses Jahres vergaben die Analysten von Forrester Research die höchste Punktzahl für die Hadoop-Disribution. Jetzt erlangt das Unternehmen aus San José als einer der ersten Technologiepartner von Amazon Web Services den Status „Big-Data-Kompetenz “. Und was tut sich sonst?

Anbieter zum Thema

Bei MapR Technologies gibt es viel Neues: frisches Kapital, neue Partnerschaften, In-Memory-Funktionen ...
Bei MapR Technologies gibt es viel Neues: frisches Kapital, neue Partnerschaften, In-Memory-Funktionen ...
(Bild: Ostler)

MapR Technologies Inc., Anbieter einer Distribution für „Apache Hadoop“, hat als einer der ersten Technologiepartner die Kompetenz Big-Data von Amazon Web Services (AWS) zugesprochen bekommen. Am AWS-Partnernetzwerk (APN) teilnehmende Unternehmen, deren Software für AWS validiert ist und die Kundenerfolge sowie technische Fertigkeiten innerhalb des Kompetenzgebiets nachweisen, können diesen Status erlangen.

Amazon EMR nutzt Hadoop vom MapR Technologies fürdie Verteilung von Kundendaten und die Verarbeitung auf einem skalierbaren Cluster aus Amazon EC2-Instances.
Amazon EMR nutzt Hadoop vom MapR Technologies fürdie Verteilung von Kundendaten und die Verarbeitung auf einem skalierbaren Cluster aus Amazon EC2-Instances.
(Bild: Amazon Web Services)

Damit lässt sich MapR per einfacher Auswahl im Dropdown-Menü der AWS-Management-Konsole über den Web-Dienst „Amazon Elastic MapReduce“ (Amazon EMR) nutzen und wird von mehreren AWS-Instanztypen einschließlich der SSD-basierten Instanzklasse „High I/O“ unterstützt.

Frisches Kapital

Doch das sind nicht die einzigen Erfolgsnews, die das Unternehmen jüngst verkünden konnte. So hat das Unternehmen am 1. Juli gemeldet, dass nunmehr eine von Google Capital mit 80 Millionen Dollar angeführte Finanzierungsrunde von insgesamt über 110 Millionen Dollar erfolgreich abgeschlossen ist. Des Weiteren beteiligten sich Qualcomm Incorporated über seine Venture-Investment-Gruppe Qualcomm Ventures sowie bestehende Investoren einschließlich Lightspeed Venture Partners, Mayfield Fund, Nea und Redpoint Ventures an der Runde. Zusätzlich zu der Eigenkapitalfinanzierung sicherte sich MapR unter Führung der Silicon Valley Bank eine Kreditfazilität in Höhe von 30 Millionen Dollar.

Mit den zusätzlichen Finanzmitteln will MapR Technologies seinen Wachstumskurs im Big-Data- und Analytics-Segment fortsetzen, der sich im ersten Geschäftsquartal 2014 in einem dreifach so hohen Auftragseingang gegenüber dem Vergleichszeitraum des Vorjahres widerspiegelt. Zudem soll in zusätzliche Entwicklungsressourcen investiert werden, etwa um Open-Source-Projekte wie Apache Drill, Hadoop 2.2 mit YARN und Apache Spark zu unterstützen.

Neue technische Projekte

So integrierte MapR in seine Distribution bereits explizit YARN sowie den Apache Spark-Stack. Während YARN der Ressourcenverwaltung dient, sorgt das In-Memory-Framework Spark dafür, dass Programme im Speicher erheblich schneller laufen. Es vereinfacht zudem das Schreiben von Anwendungen und ermöglicht Echtzeitdatenanalysen:

  • Leistung: Die von dem In-Memory-Framework Spark genutzte Pipelining-Technik sorgt für eine durchgängig bessere Anwendungsleistung. Bei vielen Applikationen spiegelt sich dies in einer fünf- bis hundertfachen höheren Performance wider.
  • Entwicklerproduktivität: Spark-Jobs lassen sich mit weniger als einem Fünftel der Anzahl an Codezeilen umsetzen. Eine einfache Programmierungsabstraktion ermöglicht Entwicklern Anwendungen zu erstellen, die verteilte Kollektionen von Datensätzen (Resilient Distributed Datasets oder RDDs) in späteren Operationen wiederverwenden. Darüber hinaus können sie die Anwendungen in mehreren Programmiersprachen einschließlich Java, Scala und Python schreiben und denselben Code mehrfach nutzen, zum Beispiel für die Batch-Verarbeitung, interaktive Datenabfragen oder das Stream-Processing.

Dazu Matt Aslett, Forschungsleiter Datenplattformen und Analytic-Lösungen von 451 Research: „Aufgrund der Kombination einer leistungsstarken In-Memory-Datenanalysetechnik mit verschiedenen Rechenmodellen steht inzwischen außer Frage, dass die Datenverarbeitungsplattformen der nächsten Generation zweifelsohne auf Apache Spark basieren werden.“

Tatsächlich setzen Unternehmen Spark bereits heute produktiv in ihren MapR-Umgebungen ein. So können dabei unter anderem davon profitieren, auf betriebliche Daten über die standardmäßig integrierte NFS-Schnittstelle direkt und in Echtzeit zuzugreifen.

In-Memory in Hadoop

Die Spark-Integration den kompletten Spark-Technologie-Stack fußt unter anderem auf einer Zusammenarbeit mit Databricks. Diese ermöglicht es MapR Technologies zum Beispiel, seinen Kunden eine Rundum-die-Uhr-Unterstützung (24 x 7) für Spark anzubieten, die Lösung und damit verbundene Projekte in schnellerem Tempo weiterzuentwickeln sowie weitere innovative Neuerungen zu integrieren.

Außerdem arbeiten die beiden Unternehmen gemeinsam an einer schnellen Weiterentwicklung der Software und weiteren ergänzenden innovativen Neuerungen. Dies soll sich für MapR-Kunden und die Hadoop-Community auch über die kommenden Jahre hinweg auszahlen.

„Dank der Integration des kompletten Spark-Stacks in die MapR-Distribution und die Partnerschaft des Herstellers mit Databricks können Hadoop-Nutzer nun leistungsstarke und flexibel einsetzbare Anwendungen auf Spark-Basis entwickeln“, so Analyst Aslett.

Die MapR-Distribution

Schon jetzt, mit der Integration des kompletten Spark-Stack, einschließlich der inkludierten fünf weiteren Unterprojekte, stimmt die MapR-Distribution nun das Zusammenspiel von mehr als 20 Apache Open-Source-Lösungen aufeinander ab. Damit eignet sie sich die Distribution nun für vielfältige Anwendungszwecke, die von der Batch-Verarbeitung, interaktiven Datenabfragen und –analysen sowie dem Stream-Processing über die Erstellung von Grafiken zur Analyse und Verwaltung der mit Hadoop verarbeiteten unstrukturierten Daten bis hin zum maschinellen Lernen reichen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

MapR ist die einzige Distribution, die Apache Open-Source-Projekte im monatlichen Rhythmus veröffentlicht. Dies ermöglicht Kunden in der Distribution enthaltene Komponenten zu aktualisieren, ohne einen kompletten Cluster-Upgrade durchzuführen. Ihre Open-Source-Projekte lassen sich schneller und mit geringerem Risiko umsetzen, ohne dass es zu Unterbrechungen der betrieblichen Leistung von Cluster-Diensten kommt.

Die neuen Partnerschaften mit HP und TCS

Zu den wichtigen Partnerschaften zählen auch die mit HP und Tata Consultancy Services (TCS). So integriert MapR die leistungsstarke „Vertica“-Analytics-Plattform von HP in seine MapR Hadoop-Distribution. Mit dem Einsatz der interaktiven SQL-auf-Hadoop-Lösung lassen sich strukturierte und semistrukturierte Daten besser untersuchen sowie auswerten, daraus resultierend steigt die Produktivität der mit dieser Aufgabe betrauten Analysten.

Auch die Partnerschaft mit TCS ist es, Unternehmen einfach und schnell wichtige Erkenntnisse auf Basis von Big Data-Analysen bereitzustellen. Die gemeinsam entwickelten Big Data-Angebote sollen Unternehmen helfen, ihre IT-Ausgaben so zu gestalten, dass sie dadurch ihr Geschäftsmodell strategisch neu ordnen können.

Schlüsselfertige Anwendungen

TCS und MapR entwickeln so genannte schlüsselfertige Lösungen. Darunter fallen Empfehlungs-Engines, wie die Optimierung von Lieferketten oder Analysen zur Preisbildung. Zudem wurden weltweit bereits zahlreiche Partner von TCS auf der MapR-Plattform ausgebildet und zertifiziert, um bei Kunden geschäftskritische Anwendungsfälle zu begleiten und operative Unterstützung zu gewährleisten.

Hier ein Überblick über die gemeinsamen Angebote:

1. TCS Data Analytics Angebote:

  • „TCS Perivista“ – einheitliche Ansicht interner und externer Daten für Kunden
  • „TCS Sensor Data Analytics“ – Empfangen, Speichern und Analyse von Sensor- oder Log-Daten

2. TCS Data Management Angebote:

  • „TCS Data Migration Tool“ – Schneller und sicherer Datentransfer zwischen Hadoop und Unternehmensquellen
  • „TCS Active Archive“– Archivierung durch Hadoop-Speicher und damit Vorbereitung der Daten für die Analyse
  • „TCS BigData Desktop“ – Management von Daten und Metadaten, ausführbar durch Hadoop-Cluster auf dem eigenen Desktop

Artikelfiles und Artikellinks

(ID:42865610)