Suchen

Kommentar von Owen Cole, Extrahop Networks Big Data trotzt geringer Leitungskapazität

| Autor / Redakteur: Owen Cole / Nico Litzel

Mit der innovativen Wire-Data-Analyse, einer Technologie, bei der Daten in ihrem Fluss zwischen Anwendungen und Internet-of-Things-Geräten durch das Netzwerk analysiert werden, bietet sich für Big-Data-Projekte ein neuer interessanter Ansatz.

Einsatzgebiete von Wire-Data-Analysen im Überblick
Einsatzgebiete von Wire-Data-Analysen im Überblick
(Bild: Extrahop Networks)

Big Data, das ist eine ziemlich schwammige Bezeichnung. Die Einsatzgebiete reichen vom Verstehen von Einkaufsmustern bei Online-Käufern bis hin zur Bestimmung des Energieverbrauchs für Versorgungsunternehmen. Gemeinsam ist allen die grundlegende Anforderung: Daten sammeln und analysieren, um neue Erkenntnisse zu gewinnen. In vielen Fällen ist das herkömmlich strukturierte Datenbankmodell ungeeignet, um diese Aufgaben zu übernehmen. Große Datenmengen kommen in ganz verschiedenen Formen vor, sind oft unstrukturiert und manchmal auch schwer zu sortieren.

Herkömmliche Vorgehensweise

In vielen Projekten ist allein schon das Datenvolumen problematisch. Beispielsweise ist die Erkennung betrügerischer Muster in Millionen von Kreditkartentransaktionen pro Sekunde ein Big-Data-Problem, das ohne leistungsstarke Computer- und Speicherplattformen nur schwer zu handhaben ist. Um diese Herausforderungen zu meistern, haben sich Unternehmen für Technologien wie Hadoop und MapReduce entschieden. Hadoop ist ein Software-Framework für intensive Speicher- und Rechenprozesse mit großen Datenmengen. MapReduce ist ein Programmiermodell für parallele Berechnungen über mehrere Petabyte große Datenmengen auf Computerclustern.

Bildergalerie

Beide Technologien sind jahrelang von Big-Data-Pionieren wie Google eingesetzt worden und werden inzwischen auch bei Big-Data-Herausforderungen in der Finanz-, Gesundheits- und Medienbranche genutzt. Jedoch stößt das grundlegende Konzept zur Sammlung von Daten und ihrer massenhaften Verarbeitung an seine Grenzen.

Obwohl Hadoop bei der Verarbeitung unglaublich effizient ist, benötigt es Computercluster und große Pools zur Datenspeicherung, die mit einem Daten-Workflow gespeist werden müssen. Auch wenn Hadoop und MapReduce in den letzten Jahren unternehmens- und bedarfsorientierter geworden sind, sind diese Systeme immer noch komplex. Manche Daten sind schwierig zu sammeln oder lassen sich nur schwer in den Hadoop- oder MapReduce-Workflow überführen.

Beispiel Masernepidemie

Nehmen wir das Beispiel Gesundheit. Wir wollen wissen, ob es einen ernsten und dauerhaften Ausbruch von Masern in einer bestimmten Region gibt. Das Sortieren der Daten von Ärzten, Krankenhäusern, gesetzlichen oder privaten Gesundheitsdienstleistern ist eine Herausforderung, denn die zugrunde liegenden Systeme jeder Organisation stellen nicht unbedingt Berichte im vergleichbaren Formaten rechtzeitig zur Verfügung. Die Daten sind an unterschiedlichen Lokationen gespeichert. Sie in Echtzeit zusammenzuführen, ist kompliziert.

Ein anderes Beispiel, das die Schwierigkeiten bei der Sammlung großer Datenmengen gut darstellt, ist das Internet der Dinge. Verteilte Geräte senden potenziell wertvolle Informationen in unterschiedlichen Datenformaten an mehrere Service Provider über verschiedene Links.

Erkenntnissgewinn schon bei der Datenübertragung

Anstatt alle Daten vor der Verarbeitung in einen einzigen „Behälter“ zu füllen, untersucht eine innovative Lösung die Daten auf ihrem Weg vom Ausgangs- zum Endpunkt. Während ihres Flusses durch das Netzwerk werden kontinuierlich Einsichten gewonnen. Diese Wire-Data-Technologie stammt von Unternehmen, die versuchen, die Performance einer Anwendung zu verstehen. Sie untersuchen die Daten auf ihrem Weg von den Systemen zu den Endanwendern. Wenn man in der Lage ist, den Kommunikationsfluss zwischen beispielsweise einer Datenbank und einem Frontend-System zu verstehen, kann Wire Data Anomalien und Trends feststellen, um die Performance zu managen und Fehler zu beseitigen.

Die Technologie schaut in die IP-Pakete hinein und rekonstruiert jedes inhaltliche Teilstück eines Informationsflusses. Anstelle von nur einer Anwendung oder einem Anwender assimiliert die Wire-Data-Monitoring-Technologie Millionen Pakete pro Sekunde über tausende Individualtransaktionen hinweg. Die Daten können dann entweder in strukturierten oder nicht-strukturierten Datenbanken gespeichert oder zur Analyse in einen Hadoop-Cluster übertragen werden.

Sobald es zu Problemen mit großen Datenmengen kommt, helfen Leitungsdaten auf unterschiedliche Art und Weise. Sie optimieren zahlreiche Infrastrukturen, die bei vielen Big-Data-Projekten zum Einsatz kommen. Das kann sich auch auf die Netzwerk- und Speicherinfrastruktur ausweiten, um Performance-Verbesserungen zu messen und Unternehmen zu helfen, ihre Performance auf Vordermann zu bringen, Engpässe zu beseitigen sowie bestehende Kapazitäten besser zu nutzen. Wie bei vielen Technologien, die erfunden wurden, um ein bestimmtes Problem zu lösen und sich dann weiterentwickelten, so wird auch die Wire-Data-Technologie jetzt für Herausforderungen genutzt, die normalerweise ein Big-Data-Problem sind.

Den Informationsfluss verstehen

Das Gesundheitswesen ist ein gutes Beispiel dafür, wo die Wire-Data-Analyse für große Datenmengen anfängt, innovativ zu werden. In vielen Ländern gibt es unterschiedliche Organisationen aus dem öffentlichen und privaten Sektor, gemeinnützige und nicht staatliche Organisationen. Die Branche wird zwar immer abhängiger von IT-Systemen, aber es ist offenkundig schwer, breit ausgelegte Analysen von einfachsten Dingen wie Patientenaufnahme, Behandlungsprogrammen und Servicequalität durchzuführen. Daneben gibt es die Anforderung, persönliche Gesundheitsdaten vor neugierigen Blicken zu schützen. Auch das Sammeln von Daten an einer einzigen Stelle ist eine echte Herausforderung.

Eine kleine Gruppe von Pionieren arbeiten in den USA mit der Wire-Data-Analyse, um den HL7 (Health Level 7)-Standard abzufragen. Fast jedes Unternehmen oder jede Organisation im Gesundheitswesen vertraut auf diesen Standard zum Austausch von Informationen zwischen Systemen und Anwendungen. Diese HL7-Nachrichten werden für die Patientenaufnahme, die Gebührenabrechnung, die Laborergebnisse, die Verschreibung von Arzneimitteln und für andere wichtige Dinge genutzt. Sie bilden einen gemeinsamen Standard zwischen verschiedenen Systemen.

Unternehmen wie ExtraHop haben die Möglichkeit, diese HL7-Nachrichten auf ihrem Weg durch das Netzwerk des Gesundheitswesens zu prüfen und zu verstehen. Die Übertragungsdaten werden in Echtzeit analysiert. Sie werden dann in einem anderen Datenbanksystem archiviert, um über Analysen weitere tiefe Einsichten über Trends und Anomalien zu gewinnen.

Begonnen hat alles mit Testinstallationen bei ein paar Gesundheitsdienstleistern. Da Wire-Data-Systeme HL7 verstehen, somit keine Änderungen in den Arbeitsabläufen verlangen und verschiedene Systeme unterstützen, sind sie einfach zu implementieren. So können einzelne Gesundheitsdienstleister Daten über verschiedene Standorte, Systeme und Arbeitsprozesse hinweg korrelieren, um wertvolle Einsichten zu erlangen. Das reicht vom Verstehen von Verzögerungen in den Behandlungszyklen über das Entdecken von falschen Versicherungspraktiken bis hin zu prognostizierten Lagerbeständen von Verbrauchsgütern für die medizinische Versorgung.

Sobald mehr Gesundheitsdienstleister diese Systeme übernehmen, wird erwartet, dass die Sichtung der gesammelten Daten noch mehr regionale und nationale Besonderheiten aufdeckt. Zum Beispiel gilt das für die Wirkung von medizinischen Aufklärungsprogrammen, entsprechenden Impfraten oder Remissionsraten für verschiedene Programme in der Krebsbehandlung. Die tatsächliche Innovation ist, dass die Pilotprojekte, die Wire Data nutzen, keine Installation von großen Clustern zur Datenverarbeitung, keine komplexe Programmierung oder unpraktische neue Workflows verlangen. Wire Data versteht existierende Arbeitsabläufe und hört, versteht und rekonstruiert die Informationen, während sie durch die Systeme fließen.

Fazit

Obwohl die Wire-Data-Technologie noch überwiegend als bevorzugtes Application-Performance-Management-System zum Einsatz kommt, werden die kleinen Datenpakete, die durch die Leitungen fließen, immer wichtiger für die Big-Data-Pioniere.

Artikelfiles und Artikellinks

(ID:43396356)