Volume, Velocity und Variety Zahl und Vielfalt von Datenquellen erst machen den Big-Data-Bestand aus
Für reibungslose Big-Data-Analysen sind Such- und Analysetechniken für strukturierte und nicht-strukturierte Daten erforderlich: 80 bis 90 Prozent des Big-Data-Bestandes in Unternehmen sind unstrukturiert! Zur Analyse unstrukturierter Daten braucht ein Unternehmen daher semantische Analysetools in verschiedenen Sprachen.
Anbieter zum Thema

Eine Keyword-Suche reicht für relevante und vollständige Ergebnisse nicht aus, denn inhaltlich äquivalente Texte, in denen eingegebene Schlüsselwörter nicht vorkommen, werden so nicht gefunden. Wenn die Such- und Analysetechniken im Kundenverkehr eingesetzt werden sollen, kommt man an einer Realtime-Suche nicht vorbei. Das 360-Grad-Bild eines Kunden muss in weniger als zwei Sekunden zur Verfügung stehen, auch wenn es aus Big-Data-Beständen von mehr als 20 Applikationen zusammengesetzt werden muss.
Welchen Business-Nutzen hate eine Big-Data-Analyse?
Wie geht man nun am besten bei der Einführung von Technologien für Big-Data-Analysen vor? Generell gilt: Wenn zuerst die gesamte IT oder gar das gesamte Unternehmen neu organisiert werden soll, wird aus den Projekten nie etwas. Andererseits sollte sich ein Unternehmen zunächst einige Gedanken über den generellen Business-Nutzen einer Big-Data-Analyse machen.
Für viele ist Big Data noch eine Art Nirwana. Der Anwender muss sich vorab im Klaren darüber sein, welche Daten vorhanden sind und welche Informationen daraus generiert werden können. Gibt es nur einige wenige Datenbanken im Unternehmen, ist nicht unbedingt gleich von einem Big-Data-Szenario zu sprechen. Gemeinhin werden Big-Data-Bestände durch die drei „V“ charakterisiert: Volume, Velocity (Geschwindigkeit), Variety (Vielfalt).
Unternehmen müssen sich fragen: Geben die vorhandenen Daten statistisch überhaupt etwas her, um darüber Analysen zu fahren? Auch Big-Data-Analysen liefern nicht unbedingt statistisch wertvolle Daten, wenn die Stichprobe nicht repräsentativ sowohl in Bezug auf die Menge wie auf die Neutralität ist.
Wo liegen die wertvollsten Informationen?
In welchen Datenquellen liegen die potenziell wertvollsten Informationen? Wobei wertvoll hier an den Zielen des Suchenden festzumachen ist: Wer viele und sehr unterschiedliche Fragen stellt, muss auch viele Datenquellen miteinbeziehen. Für welches Unternehmensziel und welche Anwendergruppe wäre eine Big-Data-Analyse überhaupt wertvoll? Je mehr unterschiedliche Gruppen in Big Data-Projekte einbezogen werden, desto „vollständiger“ muss der Datenpool sein, der bearbeitet wird.
Das Patentrezept für den Erfolg eines Big-Data-Analyseprojekts gibt es nicht. Denn das Spektrum ist noch zu groß: Zu hohe Vielfalt in den Daten, den Organisationen, den Zielsetzungen, zu viel Verwirrung in der Sprache und in der Sache. Des einen „Big Data“ ist des anderen „Normalvolumen“. Das Gleiche gilt für „Vielfalt“ und „Geschwindigkeit“, also die Grundbegriffe der Big-Data-Welt.
Wichtige Voraussetzungen
Für die Extraktion werthaltiger Informationen aus dem Big-Data-„Wust“ sind verschiedene Voraussetzungen erforderlich:
- Datensilos müssen überwunden werden. Ohne Einbeziehung aller relevanten Daten kann es keine relevanten Ergebnisse geben. Dafür muss eine Big-Data-Analyse-Software über Konnektoren verfügen, welche Daten aus den verteilten Datensilos extrahieren und analysieren können.
- Unstrukturierte Daten sind einzubeziehen. Dazu müssen Begriffe extrahiert und Verknüpfungen zwischen diesen hergestellt werden. Aus den unstrukturierten Daten sollte automatisch eine Struktur erzeugt werden, damit auch klassische BI-Tools „gefüttert“ werden können.
- Skalierbarkeit muss sichergestellt werden, um Ergebnisse in Echtzeit zur Verfügung stellen zu können. Bei überbordenden Datenmengen werden sonst die Antwortzeiten inakzeptabel lang.
Ratschläge
Das Analystenhaus IDC hat nach Analyse eines Big-Data-Projektes beim Pharmakonzern AstraZeneca folgende Ratschläge zusammengestellt:
- Einen aussagekräftigen Prototyp realisieren. AstraZeneca entwickelte zunächst eine einfache Version der Analysesoftware, um deren Funktionsweise in einem abgegrenzten aber ausreichend großen Teilbereich zu testen.
- Wann immer möglich, eine agile Entwicklungsmethodik und agile Strategien anwenden – zur Entwicklung von Applikationen auf der Basis einer Such- & Analyse-Plattform. So können Projektentwicklung und spätere Nutzung des Systems nahe an den Bedürfnissen der späteren Anwender gehalten werden.
- Software- und Servicepartner aussuchen, die den Anforderungen und Bedürfnissen genügen. Bei AstraZeneca fiel die Wahl auf Spezialisten für die IT-Aufbereitung von Pharma-Ontologien und auf Web-Spezialisten für die Gestaltung des User Interface (eher unerwartet, aber sehr populär bei den Anwendern).
- Ausreichende technische Ressourcen einsetzen und managen, um den größtmöglichen Effekt zu erzielen. Auch wenn der Index einer Suchmaschine sehr komprimiert ist im Vergleich zur ursprünglichen Datenmenge, ist es doch ratsam, von der Grid-Architektur Gebrauch zu machen und das Grid auf die oft rasant wachsende Datenmenge und die Anzahl der Anwender auszulegen.
Mit Anschaffung neuer Big-Data-Analyse-Techniken muss nicht das bisher aufgebaute BI-Instrumentarium abgelöst werden. Es geht eher darum, eine agile Lösung zu finden, die Daten aus vielen Quellen recherchiert, versteht, analysiert und so aufbereitet, dass sie von (vielen) unterschiedlichen Applikationen genutzt werden können (Stichwort Unified Information Access). Ziel ist es, darüber neue Werte zu schaffen, Kosten zu senken oder auch die Kundenzufriedenheit zu steigen.
Designed für Hochleistungs-Inhaltsanalysen in allen Branchen, bietet Sinequa hierfür eine leistungsstarke Plattform, um suchbasierte Anwendungen (SBA) zu erstellen, sogenannte „Info-Apps“. AstraZeneca etwa hat mit der Software eine regelrechte „AppFactory“ aufgesetzt, die dem Pharmakonzern eine bisher ungeahnte Agilität beim Erstellen von Business-Anwendungen verschafft.
Die Einrichtung von Applikationen für die verschiedensten Anwenderbedürfnisse auf der Basis eines „Rich Index“ ist somit im Wochen- anstatt im Jahresrhythmus möglich. „Altsysteme“ wie transaktionelle Systeme des bisherigen BI-Instrumentariums können bzw. sollten daher weiter eingesetzt werden. Nicht mehr aktiv genutzte Altsysteme (einschließlich „fossilisierter“ transaktioneller Systeme) können durch Suchtechnologie abgelöst werden („Dekommissionierung“).
(ID:43337583)