Big Data und Start-ups

Big Data inspiriert eine neue Gründergeneration

| Autor / Redakteur: Ariane Rüdiger / Nico Litzel

Die Basho-Datenplattform entlastet Anwender von der Arbeit mit fehleranfälligen Tools wie Zookeeper.
Die Basho-Datenplattform entlastet Anwender von der Arbeit mit fehleranfälligen Tools wie Zookeeper. (Bild: Basho)

Business Analytics und Big Data inspirieren eine neue Generation von Gründern, die sich Gedanken um verschiedene Aspekte des Themas machen und sie in Form neuer Produkte gießen. Zwei Beispiele sind Basho und Jut – die einen versuchen sich in Datenbanktechnologie, die anderen helfen Anwendern bei der Analyse.

Seit Technologien wie Hadoop, IoT und Social Media einerseits massenweise Daten, andererseits die nötigen Mittel zu ihrer Analyse versprechen, inspiriert das auch eine neue Gründergeneration. Wie üblich sitzt einer ihrer Schwerpunkte im Silicon Valley. Zwei Beispiele zeigen, welche Ideen die neuen Softwareschmieden ausbrüten. In beiden Fällen geht es darum, Kunden die Datenanalyse zu erleichtern und sie durch innovative Serviceplattformen von Infrastrukturaufgaben zu entlasten.

Die in einer schicken Büroetage mitten in Downtown San Francisco residierende Jut hat sich um einen der ehemaligen Gründer von Riverbed herum formiert und bringt gerade ihr erstes Produkt heraus. Das Problem: „Big-Data-Infrastrukturen sind für viele Firmen zu teuer und zu aufwendig, genauso wie die entsprechenden Analysetechnologien“, sagt Steve McCanne, CEO. Zudem würden schon kleine Veränderungen an der eigenen Big-Data-Plattform große Kosten verursachen und unverhältnismäßig lange dauern.

Die Lösung: ein „Operational Data Hub“ in einer gesicherten Web-Umgebung. Dieser Hub dient als Zugang zu allen möglichen Datenarten. Darunter können sich bestehende Datenbanken genauso befinden wie permanent einfließende Datenströme, etwa aus dem Internet of Things oder sozialen Medien. Alle diese Datenarten werden unter einer einheitlichen Sicht korreliert.

Juttle steuert den Datenfluss

Ausschlaggebend für das Funktionieren dieses Hubs sei der optimierte Datenfluss, der denn auch die Basis der Engine des Hubs bilde. Dafür sorgt Juttle, eine Sprache, die den Datenfluss steuert und in der die Abfragen formuliert werden, ohne beim Fragen nähere Vorgaben zu den Datenquellen zu machen.

Der Datenhub vereinheitlicht die Datentypen aller einbezogenen Daten, egal ob strukturiert oder unstrukturiert, gestreamt oder als Stapel vorhanden. Dazu kommen im Backend diverse Technologien aus der offenen Welt, etwa Cassandra oder Elastic Search. „Wir sind eine Mischung zwischen Google Dataflow und Tableau“, scherzt McCanne. Weitere Methoden können dem Backend einfach hinzugefügt werden. Die Datenverarbeitung verschiedener Daten lässt sich aufteilen, zusammenführen, einzelne Abfragen lassen sich später wiederverwenden.

Mit Juttle eine Rechercheanfrage zu stellen, etwa nach den Events der vergangenen Woche, sei relativ einfach. gebe aber nicht vor, welche Datenbestände oder Methoden das System zur Beantwortung verwenden solle, erklärt der Manager. Statt ausgebildeter Datenanalysten sollen beispielsweise Mitarbeiter aus dem IT-Betrieb auch mit Juttle zurechtkommen.

Derzeit kommt die bevorzugte Kundschaft von Jut aus der Softwareentwicklung. Verbesserungen dort schlagen auf die gesamte Organisation durch. Später will Jut seine Aktivitäten auch auf andere Bereiche ausdehnen. Derzeit ist die Nutzung der Jut-Datenplattform kostenlos, sie befindet sich im Beta-Stadium. Später soll soll sich der Preis nach Milliarden Datenpunkten pro Monat richten. Ein Datenpunkt ist dabei eine Datei. Es wird eine Basis- und eine Professional-Version geben. Die pro-Variante soll für eine Milliarde Datenpunkte monatlich (das sind rund 200 Datenpunkte pro Sekunde) 250 US-Dollar im Monat kosten.

Basho: Ersatz für weniger leistungsfähige Open-Source-Tools

Basho, gegründet 2008, brachte 2011 die verteilte NoSQL-Datenbank Riak KV (Key-value Store) auf den Markt. Heute umfasst das Produktspektrum daneben noch die Objekt- und Cloud Storage Software Riak S2 und einen Kern, der in beiden Applikationen steckt. Ganz neu ist die Basho Data Platform, ein Webservice, der im Mai 2015 angekündigt wurde.

Nach eigenen Angaben hat die Firma bereits mehr als 200 Unternehmenskunden, darunter angeblich ein Drittel der Fortune 50. Sie beschäftigt weltweit 120 Mitarbeiter und unterhält ein europäisches Büro in London. Die Zentrale befindet sich in Bellevue, Washington. Das Unternehmen befindet sich in privaten Händen von Investoren, Venture Capital ist nicht beteiligt.

Basho stützt sein Geschäft darauf, dass die Datenbankboliden wie Oracle oder DB2 für flexible oder Unternehmen, die innovative Analysen durchführen wollen, schlicht zu träge und zu teuer sind. Kriterien für eine Datenbank seien für viele nicht mehr ein klangvoller Name, sondern Resilienz und Wiederherstellbarkeit, horizontale Skalierbarkeit, die Speicherung unstrukturierter Daten und die Möglichkeit, Daten zu lokalisieren.

Typische Anwendungsfelder

Zum Kundenkreis gehören etwa Microsoft oder das Medienunternehmen Comcast oder der nationale britische Gesundheitsdienst NHS. Typische Anwendungsfelder sind die Speicherung und Analyse von Anwender-, Session-, Profil-, Echtzeit- oder Logdaten.

Riak-Produkte basieren auf einer Ring-Architektur aus miteinander vernetzten, verteilten Knoten, von denen jeder schreibt und liest. Master-Knoten gibt es nicht. Die Knoten können einfach hinzugefügt oder entfernt werden. Ringe skalieren nahezu linear, Ausfälle einzelner Komponenten richten keinen Schaden an.

Das Gesamtsystem ist fehlertolerant, jeder Ring oder lokale Cluster speichert drei Kopien aller Daten auf unterschiedlichen Knoten. Ringe befinden sich jeweils an einem Ort, können aber ortsübergreifend in einem sogenannten Multicluster verbunden werden. Daten werden stets in einem usernahen Ring gehalten.

Sieben Abfrageclients

Riak KV hat eine Http- und eine Protokollpuffer-Schnittstelle, die auf dem Core der Datenbank aufliegen. Das Unternehmen hat sieben Abfrageclients, nämlich Java, Ruby, Python, Erlang, .net, Node.js und PHP zertifiziert, demnächst folgt Go. Weitere wurden von Open-Source-Communities entwickelt, etwa für C und C++, Clojure, Lisp, Haskell, Go, Perl oder Scala. Die innerhalb von RIAK erlaubten Datentypen konfligieren nicht. Die einzelnen Key-value-Paare sind in zusammengehörigen „Buckets“ organisiert, die wiederum verschiedene Typen aufweisen können.

Im Kern des Objektspeichers Riak S2 stecken ebenfalls ringförmig vernetzte Riak-Knoten, auf die die Daten in 1-Megabyte-Stücken verteilt und repliziert werden. Das Aufbrechen großer Objekte in dieses Format übernehmen vorgelagerte Riak CS Nodes, auf denen wiederum eine S3- und eine Reporting-API liegen.

Basho Data Platform

Neu ist die Basho Data Platform, mit denen der Hersteller seine Kunden von den Mühen des Aufbaus und Betriebs eigener Big-Data-Umgebungen befreien möchte. Sie müssen beispielsweise diverse Cluster für verschiedene Anwendungen halten, manuell zwischen den Applikationen synchronisieren, das unzuverlässige Zookeeper für das Management von Spark-Clustern verwenden und so weiter.

Die Basho-Plattform macht einen Teil dieser Aufgaben überflüssig: Auf ihrer untersten Schicht liegen die verschiedenen Datenspeicher, die entweder von Basho selbst oder von Drittherstellern stammen und von Basho integriert wurden. Darüber liegen die sogenannten Core-Services: Replikation, Synchronisation, Message Routing, Clustermanagement, Logging und Analyse der Cluster und ein interner Datenspeicher, der das Gesamtsystem beschleunigen soll.

Das Clustermanagement automatisiert das Clustermanagement von Riak KV/S2, Spark und Redis. Zookeeper wird dadurch überflüssig. Das Messaging-System transportiert Nachrichten zwischen den einzelnen Clustern eines Gesamtsystems. Die oberste Ebene bilden die Service-Instanzen. Sie umfassen Dienste wie Spark, Redis oder Solr und können ebenfalls von Drittanbietern ergänzt werden. Zu den Kunden von Basho gehört beispielsweise der NHS (Nationaler Gesundheitsdienst) in Großbritannien.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43523693 / Infrastruktur)