Brian Gentile, TIBCO Analytics, zu den Trends 2015 Mehrwert durch schnelle Datenströme und Mehrdimensionalität

Autor / Redakteur: Brian Gentile / Nico Litzel |

Immer mehr Unternehmen erkennen den Mehrwert von Big Data. Um diesen voll auszuschöpfen, müssen Datenströme dabei noch schneller und genauer werden. Gleichzeitig spielt die Mehrdimensionalität der Daten eine wichtige Rolle.

Anbieter zum Thema

Der Autor: Brian Gentile ist Senior Vice President und General Manager von TIBCO Analytics
Der Autor: Brian Gentile ist Senior Vice President und General Manager von TIBCO Analytics
(Bild: TIBCO)

Nie zuvor hatten Unternehmen so viele Daten zur Verfügung wie heute. Diese können ihnen helfen, den Umsatz zu steigern, Kosten zu sparen, Kunden an sich zu binden oder die Effizienz zu erhöhen. Um aus dem theoretischen Potenzial jedoch einen praktischen Nutzen zu gewinnen, müssen Unternehmen planvoll vorgehen. Sie brauchen genaue Informationen darüber, in welchen Feldern die Daten angewendet werden sollen.

Noch wichtiger ist die Frage, wie schnell die Daten angewendet werden müssen, um den gewünschten Mehrwert zu schaffen. Hier kommt etwas ins Spiel, das wir bei TIBCO Jaspersoft als „Data Velocity Spectrum“ bezeichnen. Das berücksichtigt die Tatsache, dass manche Daten ein äußerst begrenztes „Haltbarkeitsdatum“ haben, also sehr schnell verarbeitet werden müssen. Andere dagegen benötigen einen gewissen Reife-, Definitions- und Dimensionierungsprozess, um ihren ganzen Wert zu offenbaren.

Wir erwarten, dass 2015 das Jahr des Data Velocity Spectrum wird – nicht zuletzt, da Unternehmen aller Branchen über noch mehr technologische Möglichkeiten verfügen, um auf jeder Wellenlänge dieses Spektrums erfolgreich agieren zu können.

Wie schnell müssen Ihre Daten angewendet werden?

Wenn die verfügbaren Daten möglichst schnell eingesetzt werden müssen, weil sie sonst an Aussagekraft verlieren, hängt der Mehrwert in erster Linie von ihrer „Transaktionsorientiertheit“ ab. Entsprechend muss die Informationsarchitektur auf Geschwindigkeit und Aktualität ausgerichtet sein.

Wenn dagegen eine breite Datenbasis in Verbindung mit flexibler Anwendung für ganz unterschiedliche Analysezwecke im Vordergrund steht, wird der Mehrwert überwiegend durch die „Mehrdimensionalität“ der Daten erzielt. In diesem Fall sollte die Informationsarchitektur auf Reichhaltigkeit und variable Definierbarkeit ausgelegt sein.

Bei der Entwicklung analytischer Informationssysteme wurden in der Vergangenheit lediglich Teilausschnitte dieses Spektrums ins Visier genommen, denn mehr als solche ließen sich mit allgemein verfügbarer Technologie nicht genauer betrachten. Hinzu kam, dass selbst Best-Practice-Anwendungen dieser Technologien merkliche Nachteile mit sich brachten.

Bisher nur Teilausschnitte

So wurden häufig umfassende, mehrdimensionale Abfrageumgebungen komplett offline und unter Verwendung von stark transformierten Daten konzipiert – Data-Warehouse-Experten dürften in diesem Zusammenhang an ETL denken. Oder es wurden Echtzeit-Datenfeeds – meist mittels Enterprise Service Bus-Technologie – in hoch spezialisierte operative Dashboards eingespeist, die mit geringer Latenzzeit eine Reihe von Entscheidungen ermöglichten. In jedem Fall ist festzuhalten: Wo immer Persistenz benötigt wurde, wurde ein relationales Datenbank-Managementsystem (RDBMS) eingesetzt.

In den vergangenen 25 Jahren bildeten relationale Datenbanken wie etwa Excel-Tabellen das Fundament für die verschiedenen Ansprüche an die Datenaktualität und damit für praktisch jede transaktionale oder analytische Anwendung von Daten. Mit

steigender Nachfrage nach reichhaltigen und damit mehrdimensionalen Daten wurden neuartige Data-Warehouse-Technologien auf das klassische RDBMS aufgesetzt – das geschah auf Basis neuer Indexierungssysteme, gespeicherter Prozeduren und optimierter Abfrageprozessoren. Gestillt wurde der Hunger nach einer Mehrdimensionalität der Daten meist mit einer OLAP-Engine, die auf ein Standard-RDBMS aufgesetzt wurde, so dass sich ein ROLAP-System ergab.

Modernste Technologien als Entwicklungshelfer

Die Abhängigkeit von einer einzigen relationalen Datenbank-Engine ging erst zurück, als immer mehr Alternativen auf den Markt kamen, die für einzelne Ausschnitte des Spektrums besser geeignet waren und für die neuen Analyseaufgaben in den Unternehmen eingesetzt werden konnten.

Um die Nachfrage nach einer besseren Transaktionsorientiertheit und einer Aktualität der Daten zu befriedigen, werden heutige Datenbank-Tools üblicherweise durch Streaming-Technologien ergänzt, sodass die Unternehmen kontinuierlich und ohne Verzögerung auf Datenfeeds verschiedenster Typen aus allen verfügbaren Quellen zugreifen können. Technologien wie Apache Storm, Amazon AWS Kinesis und TIBCO Streambase ermöglichen einen solchen verzögerungsfreien Zugriff mit sofortiger Verarbeitung.

Gestreamte Datenfeeds bilden heute die Basis für transaktionale und analytische Datenanwendungen. Sie ermöglichen etwa die Definition maßgeschneiderter Regeln, bei denen Echtzeitdaten für Instant-Einblicke sorgen. Damit können Betrugsversuche erkannt, der Sicherheitsstatus überwacht, Servicerouten optimiert und Handelstransaktionen weltweit abgewickelt werden.

NoSQL-Datastores drängen auf den Markt

Dazu kommt, dass nun eine breite Palette von NoSQL-Datastores auf den Markt drängt – und statt einer einzigen Datenbankoption damit nun zahlreiche Technologien zur Auswahl stehen. Von Key Value Stores (Redis, Cassandra) und dokumentenorientierten Datenbanken (MongoDB, CouchDB) bis zu BigTable-Strukturen (HBase), Graphdatenbanken (Neo4J) und In-Memory-Datenbank-Caches und -Engines (TIBCO ActiveSpaces, Gemfire) gibt es eine Fülle an leistungsfähigen Optionen. Hier die richtige Wahl zu treffen, ist nicht immer einfach. Dennoch ist die Entwicklung hin zu mehr Optionen zu begrüßen, da sich mit ihr die besonderen Anforderungen einzelner Unternehmen über das gesamte Data Velocity Spectrum hinweg besser erfüllen lassen.

Hadoop mit seinen Komponenten für die Verarbeitung von Unterprozessen hat sich in vielerlei Hinsicht zum neuen Standard beim Data Warehousing entwickelt, mit dem die notwendige Mehrdimensionalität der Daten erreicht werden kann und die vielen verschiedenen Datentypen mit ihren hohen Volumen und komplexen Strukturen unterstützt werden. Gleichzeitig wird ein Großteil der herkömmlichen OLAP-Technologien nun durch die Kombination aus einer Analysedatenbank mit exklusiver Parallelverarbeitung (Vertica, Netezza, Greenplum) und einer modernen Business Analytics-Plattform auf In-Memory-Basis (TIBCO Jaspersoft, TIBCO Spotfire) ersetzt – verbunden mit einer deutlichen Kosten- und Zeitersparnis. Eine hohe Definierbarkeit und Dimensionierbarkeit von Daten war also noch nie einfacher oder günstiger zu haben als heute.

Fazit

Gewinner dieser Entwicklung sind die Geschäftsanwender und Technologieexperten. Ihnen steht eine Vielzahl neuer, hoch spezialisierter Technologien zur Verfügung, die die wachsenden Anforderungen an das Aktualitätsspektrum der Daten erfüllen. 2015 wird das Jahr sein, in dem es erstmals gängige Praxis sein wird, Informationsarchitektur und Technologie auf den Bedarf im untersuchten Datenspektrum abzustimmen. Letztlich profitieren die Unternehmen, die möglichst früh auf den anfahrenden Zug aufspringen.

(ID:43169769)