Welche Informationen über uns gesammelt werden – Teil 1 Wie Big-Data-Analyse den US-Geheimdiensten hilft

Autor / Redakteur: Joachim Jakobs / Stephan Augsten

„Um die Nadel zu finden, benötigt man den Heuhaufen“, so die angebliche Überzeugung von Keith Alexander, Direktor der National Security Agency (NSA). Doch welche Daten tragen die US-Geheimdienste überhaupt zusammen? Und wie schaffen sie es, den Berg an Informationen nach relevanten Hinweisen zu durchforsten?

Firmen zum Thema

Die IT eröffnet vielfältige Möglichkeiten, Informationen über einzelne Personen zusammenzutragen.
Die IT eröffnet vielfältige Möglichkeiten, Informationen über einzelne Personen zusammenzutragen.
(Bild: kebox - Fotolia.com)

Ira Hunt, Chef-Techniker der Central Intelligence Agency (CIA) hat sich konkret dazu geäußert, an welchen Informationen US-Geheimdienste interessiert sind – und zwar an allen: „Mehr ist immer besser […]. Da man Punkte, die man nicht besitzt, nicht verknüpfen kann, versuchen wir grundsätzlich alles zu sammeln und behalten es für immer. Wir sind nicht mehr weit davon entfernt, in der Lage zu sein, jede von Menschen verursachte Information zu verarbeiten.“ Ist Hunt womöglich nur ein Großmaul?

Für den Verschlüsselungsexperten Bruce Schneier offenbar nicht. Nach Durchsicht der Snowden-Dokumente meinte er, man könne unterstellen, dass alles gesammelt wird: „Computer generieren Transaktionsdaten als Abfallprodukt ihrer Rechnerei. Und da so ziemlich alles, was wir tun, mit Hilfe von Computern geschieht, produzieren wir mit allem […] personenbezogene Daten.“ Ob Surf- oder Einkaufsverhalten, Kommunikation, Standort oder auch bargeldlose Zahlung: „Wir wissen, dass alles von der NSA gesammelt und in Datenbanken wie PRISM gespeichert wird.“

Damit führen die USA heute weltweit fort, was sie vor gut zehn Jahren mit ihrem „Total Information Awareness Program“ (TIA) im eigenen Land begonnen haben: Die möglichst vollständige Beobachtung kommerzieller Aktivitäten und privater Kommunikation. Nach Angaben der New York Times gehörten dazu auch Anträge für Reisepässe, Führerscheine, Mautabrechnungen, Gerichtsentscheidungen und Scheidungsurkunden, Beschwerden neugieriger Nachbarn an die Bundespolizei, die „lebenslängliche Papierspur“ (belastender) Dokumente sowie die jüngsten Aufnahmen geheimer Überwachungskameras.

Weiter notierte die Zeitung im Jahr 2002: „Dazu sollen in TIA-Architekturen entwickelt werden, um existierende Datenbanken in einer ‚virtuellen, zentralen gewaltigen Datenbank’ zusammenzuführen. Die US-Streitkräfte erheben entsprechend in ihrer Militärdoktrin „Joint Vision 2020“ eine „Full Spectrum Dominance“: Nicht nur zu Wasser, zu Lande und in der Luft, sondern auch im Weltraum und im Cyberspace erheben die Vereinigten Staaten Anspruch auf die Vorherrschaft. Schließlich bedeutet Wissen für die US-Strategen Macht. Konsequenterweise wollen die ‚Sicherheitsbehörden’ auch wissen, was auf den Servern von US-Anwälten gespeichert ist – und dringen auch schon einmal illegal dort ein.

Von vorne bis hinten durchleuchtet

Informationen zur Ausbildung, zu Reisen und zum Gesundheitszustand von Millionen Amerikanern scheinen ebenfalls begehrt zu sein. Zum Gesundheitszustand gehören Patientenakten, Arztrezepte und selbst Erbgutinformationen. Um das Objekt der Begierde kennenzulernen, werden angeblich auch verschlüsselte Patientenakten geknackt. Der frühere US-Präsident Jimmy Carter vertraut auf handschriftliche Briefe, um mit Staatsmännern in aller Welt möglichst unbeobachtet zu korrespondieren – das aber hilft ihm nur begrenzt, weil die US-Post jährlich angeblich 160 Milliarden Briefe fotografiert.

Um jegliche durch Menschen verursachte Information verarbeiten zu können, spannen die USA 2000 Firmen ein. Eine davon ist Convera mit der Suchmaschine ‚RetrievalWare’, die Profile wahlweise von Personen, Objekten oder Orten erstellt. Sie kann dazu nicht nur Textdokumente online und offline nach Schlagworten durchsuchen, sondern auch Zusammenhänge erfassen: „Durch den Gebrauch von stabilen semantischen Netzen und Taxonomien, die viele Sprachen und fachspezifische Interessensgebiete abdecken, erkennt und verarbeitet RetrievalWare Worte, Sätze und Konzepte in ihrem spezifischen Kontext.“

Analyse und Verknüpfung von Datenströmen

Das wissenschaftliche Spezialgebiet wird als „Complex Event Processing (CEP)“ bezeichnet. Bernhard Seeger, Professor im Fachbereich Mathematik und Informatik der Universität Marburg erläutert: „Ähnlich wie bei RSS-Feeds abonniert die CEP-Anwendung Datenströme bei einer oder mehreren unabhängigen Informationsquellen.“ Die Datenströme bestehen aus einer potenziell unendlichen Folge zeitlich geordneter Elemente bzw. Events.

Die relevanten „Ereignisse“ können von RetrievalWare „in bestimmte Ansichten abgebildet werden, die die personalisierten Wissensbedürfnisse, Rollen und Perspektiven eines jeden Nutzers wiederspiegelt“, heißt es in Conervas „FORM 10-K“-Bericht an die US-Börsenaufsicht SEC. Das polyglotte System beherrsche 45 Sprachen und sei dazu in der Lage, Bilder, Audio- und Videoinhalte sowie 200 weitere Datenformate zu verarbeiten. Es kooperiert mit Systemen wie Lotus Notes, Microsoft Exchange, Microsoft SQL Server, Oracle, DB2, Sybase, Informix, Teradata und „jeder ODBC- kompatiblen Datenbank“.

Im sogenannten „FileRoom“ lassen sich gescannte Dokumente, Bilder und Texte laden, indexieren und verwalten. Graphiken, Diagramme, handschriftliche Notizen und Unterschriften in den Suchtreffern sind sofort zugänglich. Der „Screening Room“ erlaubt es unter anderem, die Inhalte analoger und digitaler Videos „leistungsfähig“ zu erschließen. Er bietet skalierbaren Zugang, Suche und Abruf von Videoinhalten von jedem Arbeitsplatz.

In Verbindung mit ‚RetrievalWare Search’ ist es möglich, Videoinhalte zu erfassen, verschlüsseln, analysieren, katalogisieren, durchzustöbern und aufzurufen – und zwar alles in ‚Echtzeit’: In dem Augenblick, in dem das Video verfügbar ist, wird es auch schon im Screening Room verarbeitet – Untertitel genauso wie gesprochene Konversationen. Hinzu kommen die Metadaten über Firmen-Netze. Die Anwender können aus den Videos heraus „einfach“ „intelligente“ Video-Drehbücher erstellen und in jedem Standard-Video-Dateiformat abspielen. Dadurch sollen sich die Inhalte beim nächsten Mal präzise und automatisch durchpflügen, durchsuchen und aufrufen lassen ohne das Material insgesamt erneut ansehen zu müssen.

Informationsgewinnung im Internets

RetrievalWare soll bereits vor acht Jahren über vier Millarden Dokumente indexiert haben. In der Wahl seiner Quellen ist das System flexibel: „Der RetrievalWare Profiling Server filtert, speichert und verteilt eingehende Daten von vielen Quellen einschließlich Echtzeit News-Feeds, relationalen Datenbanken, Papierablagen und dem RetrievalWare Internet Spider“, wie es in dem SEC-Bericht heißt.

Der Internet-Spider wiederum ist ein multimedialer, Hochleistungs-Webcrawler, mit dessen Hilfe sich die Such-Fähigkeiten von RetrievalWare ergänzen lassen – unabhängig davon, ob es als Einzelplatz-System betrieben oder in einer anderen Anwendung integriert ist. Das wirkt komfortabel – jede Veränderung im Netz wird verfolgt – und zwar ebenfalls „in Echtzeit“: In dem Augenblick, in dem die Internetseite geändert wird, nimmt RetrievalWare davon Notiz, aktualisiert das Profil und informiert einem Bericht der Washington Post zufolge den zuständigen Sachbearbeiter. Neben HTML-basierten Webseiten durchpflügt er auch PDF-Dokumente und multimediale Inhalte einschließlich Audio, Video und Bildern.

Auf verbaler Ebene kann das System ebenfalls glänzen: Die Englische Sprachversion des semantischen Basisnetzes von RetrievalWare bietet 500.000 Wortbedeutungen, 50.000 Sprachphrasen und 1,6 Millionen Wortkombinationen. Die Anwender stellen umgangssprachliche Suchanfragen, die automatisch erweitert werden, um verknüpfte Ausdrücke und Konzepte zu finden. Auf diese Weise soll die Wahrscheinlichkeit erhöht werden, relevante Ergebnisse zu erhalten.

Außerdem bietet RetrievalWare fachspezifische Komponenten an – etwa für die Disziplinen Biologie, Chemie, EDV, Elektronik, Finanzwissenschaft, Lebensmittelwissenschaft, Geographie, Geologie, Gesundheitswissenschaft, Informationswissenschaft, Recht, Mathematik, Medizin, Militär, Öl, Erdgas, Pharmazie, Physik, Kunststoffe und Telekommunikation. Für andere Fächer ließen sich unternehmensspezifische semantische Netze mit Hilfe von Convera entwickeln.

Wer sich am Complex Event Processing beteiligt

Die 185 Kunden von RetrievalWare sollen zu 70 Prozent Behörden US-Amerikanischen Ursprungs gewesen sein – unter anderem die Bundespolizei FBI, die Geheimdienste CIA und NSA, das Heimatschutz- und das Verteidigungsministerium. Aber auch „über ein Dutzend ausländische Geheimdienste“. Offenbar war die Anzahl der Kunden nicht ausreichend, um das Unternehmen am Leben zu erhalten: 2007 wurde die Software an den Wettbewerber ‚Fast Search & Transfer’ verkauft, der einige Funktionen in eigene Anwendungen implementiert hat, aber dann selbst 2008 von Microsoft übernommen wurde.

Heute firmiert das Unternehmen als ‚Microsoft Development Center Norway’. Microsoft leistet allerdings heute nur noch Service und Support. Schenkt man Wikipedia Glauben, so ist Convera ein Kind des Risikokapitalgebers In-Q-Tel (IQT). Dieser wiederum gehört zum Geheimdienst CIA. Und In-Q-Tel hält Beteiligungen an dutzenden Firmen wie Convera, die – so Christopher Tucker, Chefstratege von In-Q-Tel bei deren Gründung 2001, „dem Dienst dabei helfen, seine Mission zu erfüllen“. Im Bereich Suchmaschinen sind es PiXlogic, Endeca, Inxight, MetaCarta, Attensity, NetBase, Platfora und Intelliseek.

Die In-Q-Tel Beteiligung Palantir hilft dabei, die gewonnenen Erkenntnisse weiterzuverarbeiten: Seit 2011 kooperieren Palantir und SAP im Dienste der öffentlichen Sicherheit: SAP verkauft Palantirs Software weltweit an die Behörden. Huddle wiederum ermöglicht es, die Daten in der Cloud zu halten. Die Firmen Mohomine und Stratify helfen dabei, die riesigen Datenmassen zu bewältigen.

Visual Sciences will marktführend darin sein, „rechtzeitige, genaue, verständliche und gerichtsfähige Beweise zu liefern, die von unseren Kunden benötigt werden, um belastbare und wirtschaftliche Entscheidungen mit Hilfe ihrer riesigen Datenbestände in Echtzeit zu treffen.“ Dazu gehören die Auswertung von Telefondaten und -gesprächen sowie der Internetaktivitäten. Mit der Analyse von Daten beschäftigen sich außerdem die In-Q-Tel-Beteiligungen Spotfire, ReversingLabs, RecordedFuture, Platfora und Geosemble.

Sicherheitsdienste hören genau hin

Carnegie Speech und der CallMiner analysieren menschliche Sprache. Da ist es konsequent, dass die US-Sicherheitsbehörden neben Kameras auch Mikrofone im öffentlichen Raum installieren – so beispielsweise auch in 55 Bussen in Portland, Oregon. In Washington sollen es 300 Sensoren auf 20 Quadratmeilen (~ 52 km²) sein, 70 Städte beobachteten die Einwohner im Jahr 2012 auf diese Weise.

Aber wie erhalten die belauschten Gespräche eine Bedeutung? Die Menschen auf der Straße sind doch anonym? Da könnten abgehörte Telefonate hilfreich sein – so schreiben Wissenschaftler der Bina Nusantara University in Jarkata in einem Aufsatz: „Die Methoden der Spracherkennung nutzt die allgemein üblichen Schritte: Merkmalserkennung (hier: Belauschen von Gesprächen, Anm. d. Autors), Sprachmusterdatenbank und Mustervergleich.“ Das heißt, die bisher geführten Telefonate des „Verdächtigen“ können als Referenzdaten genutzt werden, um die Zielperson bei ihren Gesprächen in der Öffentlichkeit zu identifizieren.

Genauso eignet sich der Webbrowser Google Chrome für den Mustervergleich: Dessen Mikrofon lässt sich – vom Nutzer unbemerkt – von außen als Wanze nutzen. Die IQT-Firmen Basis Technology, Language Weaver und Lingotek wollen Sprache übersetzen. Deren Branche hat viel vor: Automatische Sprachverarbeitung soll heute in Echtzeit möglich sein; und zwar in „78 Sprachen“, verspricht die Werbung. Der Spielraum der Informationsgewinnung wird dadurch weiter ausgebaut.

Weitere Möglichkeiten entstehen durch die Analyse der bewegten und unbewegten Bilder. Weitere Möglichkeiten der Überwachung bietet beispielsweise auch das Internet der Dinge. Auf die entsprechenden Möglichkeiten konzentrieren wir uns im zweiten Teil dieses Beitrags.

(ID:42675186)