Kommentar von Dimitri Marx, Elastic Die Zukunft der Daten – groß, schnell und überall

Autor / Redakteur: Dimitri Marx / Nico Litzel

Heute tut man sich vermutlich schwer, moderne Unternehmen zu finden, deren zu verarbeitendes Datenvolumen schrumpft. Die meisten Firmen stehen eher der Aufgabe gegenüber, Daten schneller zu verarbeiten und mehr praxisrelevante Erkenntnisse nahezu in Echtzeit zu liefern.

Anbieter zum Thema

Der Autor: Dimitri Marx ist Solutions Architect bei Elastic
Der Autor: Dimitri Marx ist Solutions Architect bei Elastic
(Bild: Elastic)

Unternehmen werden mit Daten überschwemmt, aus denen sie gerne Erkenntnisse ziehen würden. Diese Herausforderung wird wohl auch nie verschwinden, denn wenn sich unsere Fähigkeiten zur Datenverarbeitung verbessern, wächst damit auch das menschliche Verlangen nach der Erforschung neuer Datenquellen zur Suche und Analyse.

In diesem Rahmen dringt die groß angelegte Datenanalyse in immer mehr und neue Geschäftsbereiche vor. Geschäftsführung, Vertrieb, Marketing, Kundenbetreuung, Finanzwesen, Betrieb, Logistik und fast alle sonstigen Bereiche eines modernen Unternehmens haben jetzt Zugang zu wachsenden Daten-Schatztruhen, aus denen sie wertvolle Wettbewerbsvorteile erschließen, Geschäftsprozesse verbessern und neue Anwendungen entwickeln können.

Die Datenanalyse wandelt sich vom Reich der Datenforscher zum alltäglichen Unternehmenswerkzeug. Sie ist inzwischen so allgegenwärtig in modernen Unternehmen, dass sie schlicht normal geworden ist. Das erzeugt neue Herausforderungen für die Entwicklung von Werkzeugen und Software für die Datenanalyse. Die Aufgabe besteht immer öfter darin, hochkomplexe Technologien für immer mehr neue Endanwender einfach und intuitiv zu gestalten. Neben der Skalierung wird die Nutzbarkeit jetzt zur essenziellen Eigenschaft.

Der Kern bleibt die Suche

Datenanalyse läuft unabhängig davon, ob ein „Big” davorsteht, auf die Suchleistung hinaus. Ziel ist es, Erkenntnisse und Wissen aus den Daten ziehen. Noch vor einem Jahrzehnt hätte man mit dem Begriff „Suche“ beim durchschnittlichen Anwender wahrscheinlich nicht sonderlich viel Aufregung erzeugen können. Heute vereinfachen Open-Source-Technologien wie Elasticsearch die Abbildung neuer Problemfelder als „Suche“ und haben so die Überwindung dieser gedanklichen Barriere möglich gemacht.

Bei Elastic verzeichnen wir einen explosiven Anstieg von Anwendungsfällen, bei denen unsere Technologien nicht unbedingt für die üblichen Zwecke genutzt werden. Unsere Anwender entdecken immer wieder neue, innovative Anwendungsmöglichkeiten für Elasticsearch. Das ist vermutlich auch das Gütesiegel eines großartigen Open-Source-Projekts: Anwender können damit ein Kreativitätsniveau erreichen, dass sie sich nie hätten träumen lassen.

„Big“ Data ist schon fast per Definition heterogen. Der Name „Elasticsearch“ verweist auf diese flexible Kombination aus Freitextsuche, strukturierter Suche und Analyse. Es sollte egal sein, ob die Daten aus üblichen Webseiten/Word-Dokumenten oder in gewissem Maße aus einem Foursquare-Standort, einem Bankgeschäft, einem Webserver-Log oder Kennzahlen bestehen. Alle genannten sind praktisch eine Kombination aus strukturierten und unstrukturierten Daten, welche unabhängig von Form oder Volumen untersucht und durchsucht werden sollen. Obwohl der Dateninhalt selbst interessant ist, werden die Daten bei funktionierender Suche zu einem gewissen Grad irrelevant.

Die Zukunft der Suche

In den vergangenen Jahrzehnten wurden alle Trends in der Datenanalyse für Unternehmen größtenteils durch Fortschritte in der Suchtechnologie ermöglicht, die neue und leistungsfähigere Anwendungen für die Suche erschlossen hat. Sei es die Möglichkeit, über zahllose Dimensionen oder Facetten eines Datensatzes nach Zusammenhängen zu suchen, unstrukturierte Daten oder schlicht größere Volumina zu durchsuchen. Neue Datenspeicher- und Indexierungstechnologien haben sicherlich einen Beitrag geleistet, der aber größtenteils zu leistungsstärkeren Suchmethoden führte.

Die neuesten Datentechnologien wie Graph und maschinelles Lernen sind im Grunde auch nur fortschrittlichere Suchanwendungen. Mit Graph können Anwender nach neuen Verbindungen den Daten suchen, ohne dabei den zugrundeliegenden Datensatz strukturieren zu müssen. In einer Welt, in der die Technologie fast überwältigende Suchmöglichkeiten liefert, bietet dieses Verfahren eine schnellere und leistungsfähigere Methode zur Erforschung von Daten und zur Erschließung wichtiger Trends und Zusammenhänge. Es ist eine Form der Meta-Analyse, mit der festgestellt wird, welche Trends tiefgreifender analysiert oder überwacht werden müssen.

Selbst maschinelles Lernen basiert im Kern auf der Suche. Suchtechnologien werden schon lange verwendet, um das Verhalten von Daten im Zeitverlauf zu verfolgen und wichtige Hinweise auf schwerwiegende Ereignisse zu ermitteln. Ein häufiger Anwendungsfall liegt im IT-Betrieb, wo die Analyse historischer Logs von Anwendungen, Servern und Netzwerken verwendet wird, um Hinweise auf einen bevorstehenden Systemausfall zu finden.

Bisher brauchten Unternehmen fähige Datenforscher, die Statistikmodelle entwickelten und Grenzwerte für jeden ermittelten Indikator festlegten. Das war eine komplexe und aufwendige Aufgabe, die dennoch auf hohem Niveau zu Falsch-positiv-Ergebnissen (False Positives) führte, wenn die Modelle zur Echtzeit-Datenüberwachung eingesetzt wurden.

Schranken fallen

Die Folge davon ist, dass die Verhaltensanalyse auf große, geschäftskritische Rechenzentren und Bereiche mit hohen Umsätzen wie den Finanzhandel beschränkt war. Aber maschinelles Lernen und insbesondere Tools zur Verhaltensanalyse legen immer weiter an Leistung und Kapazitäten zu, sodass inzwischen maschinelle Lernmodelle mit wesentlich höherer Genauigkeit bereits automatisch erzeugt werden können. Software-Tools können Unternehmen jetzt schon die Analysekapazitäten bieten, für die vor drei oder vier Jahren noch ein Team studierter Datenforscher notwendig gewesen wäre. Das eröffnet unglaubliche neue, auf Suche basierende Anwendungen für alle Geschäftsbereiche.

Das Volumen der zu analysierenden Daten wird in keinem Unternehmen jemals schrumpfen. Größe ist aber nur eine Dimension: „Big“ Data wird größer, schneller (Echtzeit) und vorhersagbar; die Analyse lernt selbst, wie sie Daten verstehen kann, und diese gesamte Technologie liegt nun in den Händen von viel mehr Anwendern im gesamten Unternehmen.

(ID:44678556)