Kommentar von Eduard Leibham, Procon IT

So nutzen Sie Social-Media-Daten

| Autor / Redakteur: Eduard Leibham / Nico Litzel

Der Autor: Eduard Leibham ist Berater bei Procon IT
Der Autor: Eduard Leibham ist Berater bei Procon IT (Bild: Procon IT)

Jeden Tag generieren Social-Media-Kanäle riesige Datenmengen. Diese liefern zum einen wertvolle Informationen über die Bedürfnisse und Wünsche von Kunden, zum anderen können Unternehmen die Daten für die Analyse von Wettbewerbern nutzen. Das bietet ein enormes Potenzial für Competitive Intelligence (CI). Wer weiß, wie Kunden und Wettbewerber agieren, kann seine Services und Produkte darauf ausrichten. Zudem lassen sich Markttrends identifizieren oder die Markenwahrnehmung messen.

Um das Potenzial von „Big Social Data“ auszuschöpfen, bedarf es entsprechender Technologien und eines performanten Systems. Abhängig vom Ziel, das Unternehmen mit der Auswertung von Social-Media-Daten verfolgen, müssen Metriken und Daten definiert und ausgewertet werden. Das funktioniert nur mit einem Konzept: Wofür wird das System verwendet? Für welchen Zweck werden die Daten ausgewertet? Daraus ergeben sich dann die Anforderungen an die Rechenleistung. Um große Datenmengen verschiedener Formate schnell verarbeiten zu können, müssen bestehende Systeme durch neue, skalierbare Technologien ersetzt werden.

Performante Technologie ist die Basis

Die größten Herausforderungen bei „Big Social Data“ sind die riesigen Datenmengen sowie die Vielfalt und Schnelllebigkeit der Posts. Deshalb bedarf es einer leistungsstarken und stabilen Systemarchitektur. Diese sollte maßgeschneidert und anpassbar sein, sodass sie sich mit beliebigen Schnittstellen im Unternehmen integrieren lässt. Eine mögliche Systemarchitektur könnte mit einer Kombination von Hadoop, Hive und Spark realisiert werden. Durch die Verwendung von Hadoop ist eine horizontale Skalierung der Hardware möglich. Das heißt, dass die Speicherung und Verarbeitung der Daten auf mehrere Rechner verteilt ist.

So entsteht ein performanter Rechencluster, der alle verfügbaren Ressourcen nutzen kann, um die großen Datenmengen schnell zu verarbeiten. Hive erweitert Hadoop um Data-Warehouse-Funktionalitäten, sodass sich Ergebnisse strukturiert abspeichern lassen. Zur Verarbeitung der Daten wird Spark verwendet. Spark nutzt den Arbeitsspeicher der Rechner im Cluster um damit Aufgaben der Anreicherung und Bereinigung wie ETL (Extract, Transform, Load) bzw. ELT (Extract, Load, Transform) sowie die Anwendung komplexer Modelle aus dem Machine-Learning-Bereich performant „In-Memory“ durchzuführen.

Umsetzung von CI am Beispiel Facebook

Zur Auswertung von Social-Media-Daten bedarf es vordefinierter Metriken. Beispielsweise lässt sich für Facebook-Posts die Gesinnung nach einzelnen Reaktionstypen, wie Like, Love, Haha, Wow, Sad und Angry bestimmen. Darüber hinaus ist es möglich, positive bzw. negative Äußerungen automatisiert aus Texten zu erfassen und zu betrachten.

  • 1. Auswertung nach Äußerung: Die benötigten Daten können mithilfe von Facebook-Bibliotheken, wie „restFB“, automatisch gesammelt und durch Filterungs- und Vorbereitungsverfahren bereinigt werden. Dazu empfiehlt es sich, Texte nach Präpositionen, Konjunktionen, Sonderzeichen sowie Pre- und Suffixen zu filtern. Die bereinigten Post-Texte bzw. Kommentare können mithilfe von Spark-Bibliotheken in eine maschinenlesbare und somit berechenbare Form umgewandelt werden. Spark bietet durch die integrierte Machine-Learning-Library verschiedene Möglichkeiten zur automatischen intelligenten Textverarbeitung, beispielsweise um damit eine Klassifizierung nach positiver oder negativer Äußerung im Text umzusetzen. Hierfür ist eine klassifizierte Trainingsmenge an User-Kommentaren zum Training zu übergeben, damit daraus automatisiert ein Modell erzeugt werden kann. Aus dem Modell kann anschließend automatisch abgeleitet werden, ob neue Kommentare als positiv oder negativ zu klassifizieren sind. Herausforderungen bleiben in diesem Feld sprachliche Tücken, wie die Identifikation von Ironie.
  • 2. Auswertung nach Themengebiet: Post-Texte können auch vollautomatisiert ohne Trainingsdaten mit dem Latent-Dirichlet-Allocation-Verfahren (LDA) nach Themengebiet geclustert werden. Dabei wird die Annahme getroffen, dass jeder Facebook-Post mehrere endliche Themen in unterschiedlichen Proportionen enthält. Jedes Wort ist hierfür einem oder mehreren Themen zugeordnet. Die Anzahl der Themen wird zu Beginn festgelegt und spiegelt Ähnlichkeiten zwischen zwei Posts wider. Ziel ist es, Modelle zu schaffen, die sowohl beim Erfassen der Themengebiete als auch bei der Zuordnung der Themen eine hohe Erfolgsquote erzielen. Ist dies der Fall, so werden die Modelle gespeichert und können zur automatischen Erkennung und Verarbeitung unbekannter Daten verwendet werden. Diese Themengebiete können anschließend in strukturierter Form im Hive-Data-Warehouse gespeichert werden. Die Speicherung von weiteren strukturierten Daten, wie die Anzahl der Likes oder die Anzahl der Reaktionen, ist ebenfalls möglich. Sind die Daten gesammelt und ausgewertet, müssen sie in einem letzten Schritt für den Business User zur Analyse visualisiert werden. Dazu eignet sich beispielsweise Tableau Desktop, das direkt an das Big-Data-Backend angebunden wird. Der Business User kann sich damit nach dem Self-Service-Prinzip visuelle Dashboards erstellen und die gewünschten Informationen aus den Social-Media-Daten ziehen.

Zukunftsvision Social Bots

Die Zukunftsvision eines Systems geht noch viel weiter: Mit „Social Bots“ könnten Wettbewerber- und Kundenmeinungen auf Social-Media-Plattformen automatisch gefunden werden. Einzelne Arbeitsschritte, wie der Erkenntnisgewinn und die sich daraus ergebenden Handlungen, würde das autonom agierende System übernehmen. Bots könnten durch automatisch erstellten Benachrichtigungen mit der Social Media Community in Dialog treten und Produktangebote über Social Media individuell steuern oder in Echtzeit auf Kunden-Feedbacks reagieren. Auch wenn die Technologie für ein solches System schon verfügbar ist, bleibt es trotzdem noch eine Zukunftsvision. Denn beispielsweise Facebook limitiert noch aktuell das Echtzeit-Streaming und die Echtzeit-Analyse von Daten.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45190985 / Analytics)