Welche Informationen über uns gesammelt werden – Teil 1

Wie Big-Data-Analyse den US-Geheimdiensten hilft

Seite: 2/3

Firma zum Thema

Analyse und Verknüpfung von Datenströmen

Das wissenschaftliche Spezialgebiet wird als „Complex Event Processing (CEP)“ bezeichnet. Bernhard Seeger, Professor im Fachbereich Mathematik und Informatik der Universität Marburg erläutert: „Ähnlich wie bei RSS-Feeds abonniert die CEP-Anwendung Datenströme bei einer oder mehreren unabhängigen Informationsquellen.“ Die Datenströme bestehen aus einer potenziell unendlichen Folge zeitlich geordneter Elemente bzw. Events.

Die relevanten „Ereignisse“ können von RetrievalWare „in bestimmte Ansichten abgebildet werden, die die personalisierten Wissensbedürfnisse, Rollen und Perspektiven eines jeden Nutzers wiederspiegelt“, heißt es in Conervas „FORM 10-K“-Bericht an die US-Börsenaufsicht SEC. Das polyglotte System beherrsche 45 Sprachen und sei dazu in der Lage, Bilder, Audio- und Videoinhalte sowie 200 weitere Datenformate zu verarbeiten. Es kooperiert mit Systemen wie Lotus Notes, Microsoft Exchange, Microsoft SQL Server, Oracle, DB2, Sybase, Informix, Teradata und „jeder ODBC- kompatiblen Datenbank“.

Im sogenannten „FileRoom“ lassen sich gescannte Dokumente, Bilder und Texte laden, indexieren und verwalten. Graphiken, Diagramme, handschriftliche Notizen und Unterschriften in den Suchtreffern sind sofort zugänglich. Der „Screening Room“ erlaubt es unter anderem, die Inhalte analoger und digitaler Videos „leistungsfähig“ zu erschließen. Er bietet skalierbaren Zugang, Suche und Abruf von Videoinhalten von jedem Arbeitsplatz.

In Verbindung mit ‚RetrievalWare Search’ ist es möglich, Videoinhalte zu erfassen, verschlüsseln, analysieren, katalogisieren, durchzustöbern und aufzurufen – und zwar alles in ‚Echtzeit’: In dem Augenblick, in dem das Video verfügbar ist, wird es auch schon im Screening Room verarbeitet – Untertitel genauso wie gesprochene Konversationen. Hinzu kommen die Metadaten über Firmen-Netze. Die Anwender können aus den Videos heraus „einfach“ „intelligente“ Video-Drehbücher erstellen und in jedem Standard-Video-Dateiformat abspielen. Dadurch sollen sich die Inhalte beim nächsten Mal präzise und automatisch durchpflügen, durchsuchen und aufrufen lassen ohne das Material insgesamt erneut ansehen zu müssen.

Informationsgewinnung im Internets

RetrievalWare soll bereits vor acht Jahren über vier Millarden Dokumente indexiert haben. In der Wahl seiner Quellen ist das System flexibel: „Der RetrievalWare Profiling Server filtert, speichert und verteilt eingehende Daten von vielen Quellen einschließlich Echtzeit News-Feeds, relationalen Datenbanken, Papierablagen und dem RetrievalWare Internet Spider“, wie es in dem SEC-Bericht heißt.

Der Internet-Spider wiederum ist ein multimedialer, Hochleistungs-Webcrawler, mit dessen Hilfe sich die Such-Fähigkeiten von RetrievalWare ergänzen lassen – unabhängig davon, ob es als Einzelplatz-System betrieben oder in einer anderen Anwendung integriert ist. Das wirkt komfortabel – jede Veränderung im Netz wird verfolgt – und zwar ebenfalls „in Echtzeit“: In dem Augenblick, in dem die Internetseite geändert wird, nimmt RetrievalWare davon Notiz, aktualisiert das Profil und informiert einem Bericht der Washington Post zufolge den zuständigen Sachbearbeiter. Neben HTML-basierten Webseiten durchpflügt er auch PDF-Dokumente und multimediale Inhalte einschließlich Audio, Video und Bildern.

Auf verbaler Ebene kann das System ebenfalls glänzen: Die Englische Sprachversion des semantischen Basisnetzes von RetrievalWare bietet 500.000 Wortbedeutungen, 50.000 Sprachphrasen und 1,6 Millionen Wortkombinationen. Die Anwender stellen umgangssprachliche Suchanfragen, die automatisch erweitert werden, um verknüpfte Ausdrücke und Konzepte zu finden. Auf diese Weise soll die Wahrscheinlichkeit erhöht werden, relevante Ergebnisse zu erhalten.

Außerdem bietet RetrievalWare fachspezifische Komponenten an – etwa für die Disziplinen Biologie, Chemie, EDV, Elektronik, Finanzwissenschaft, Lebensmittelwissenschaft, Geographie, Geologie, Gesundheitswissenschaft, Informationswissenschaft, Recht, Mathematik, Medizin, Militär, Öl, Erdgas, Pharmazie, Physik, Kunststoffe und Telekommunikation. Für andere Fächer ließen sich unternehmensspezifische semantische Netze mit Hilfe von Convera entwickeln.

(ID:42675186)