Sophos gibt Denkanstöße

Machine Learning effektiv im Unternehmen einsetzen

| Autor / Redakteur: Martin Hensel / Nico Litzel

Sophos rät dazu, beim Einsatz von Machine Learning den Blick fürs Wesentliche zu schärfen.
Sophos rät dazu, beim Einsatz von Machine Learning den Blick fürs Wesentliche zu schärfen. (Bild: Sophos)

Der IT-Sicherheitsspezialist Sophos hat sich mit dem Trendthema Machine Learning befasst. Er rät, bei aller Begeisterung nicht den Blick für das Wesentliche zu verlieren. Die folgenden fünf Fragen sollten sich Unternehmen für den effektiven Einsatz der Technik stellen.

Das ist eine beeindruckende Erkennungsrate, aber wie sieht es mit False Positives aus, wenn die Erkennungsrate so hoch eingestellt ist?

Das alleinige Aufführen von Erkennungsraten mit einem Machine-Learning-Algorithmus ist nicht genug. Letztendlich könnte zum Beispiel einfach eine Erkennungsrate von 100 Prozent erreicht werden, indem alle gescannten Dateien als „bösartig“ beurteilt werden. Damit wäre allerdings die False-Positive-Rate, also die fälschliche Einschätzung einer Datei als Malware, auch bei nahezu 100 Prozent. Wer die False-Positive-Rate ignoriert, jagt ständig Phantome im Netzwerk und macht den Nutzern das Leben unnötig schwer. Dieser Zusammenhang wird in der Receiver-Operation-Characteristic-Kurve (ROC) visualisiert und stellt die wahre Erkennungsrate im Verhältnis zu den False Positives dar. Diese sollten Sie sich immer zeigen lassen – sowohl die aktuellen Werte als auch die aus der Vergangenheit.

Wie oft muss das Modell aktualisiert werden und wie stark leidet die Genauigkeit während der Updates?

Der große Vorteil von Machine Learning liegt in der Tatsache, dass ein gut trainiertes Modell sehr verlässlich bislang unerkannte Bedrohungen proaktiv erkennen kann. Es ist allerdings entscheidend für eine gute Technologie, dass sie nicht nur aktuelle Gefahren erkennt, sondern auch eine Charakterisik besitzt, die als „Slow Aging“ bezeichnet wird. Das heißt, dass das Modell neue Gefahren für eine lange Zeit erkennen sollte, ohne ein Update zu benötigen. Gute Machine-Learning-Modelle sollten also eine akzeptable Balance zwischen Erkennungsrate und False-Positive-Rate für Monate aufrecht erhalten können, nicht nur für Wochen oder Tage. Lassen Sie sich also einfach mal die aktuelle ROC-Kurve für das Update von vor sechs Monaten zeigen.

Entscheidet der Machine-Learning-Algorithmus in Echtzeit?

Wenn der Scanprozess für Malware länger dauert als die Zeit, die der Schädling zum Anrichten von Unheil braucht, bedeutet das zwar Erkennung, aber keinen Schutz. Einige Machine-Learning-Varianten werden genutzt, um nach einer Attacke die Daten zu sichten und die sprichwörtliche Nadel im Heuhaufen zu finden. Das mag gut für die Prävention sein. Aber wenn es darum geht, Attacken bereits im Vorfeld zu stoppen, ist ein in Millisekunden statt in Sekunden oder gar Minuten agierender Algorithmus nötig. Eine Lösung sollte im Idealfall im Memory Cache laufen und damit keine wertvolle Zeit mit dem Lesen von Daten verlieren. Sie sollten also überprüfen, ob die angestrebte Lösung in Echtzeit agiert und wie viel Zeit Entscheidungen benötigen. Ebenfalls entscheidend ist die Frage, was mit Performance und Genauigkeit passiert, wenn der Rechner offline ist.

Welches Trainingsset nutzt der Algorithmus?

Die Effizienz jeder Machine-Learning-Technologie hängt entscheidend von den Daten ab, mit denen die Modelle gefüttert werden – das sogenannte Training. Es gilt also das alte Sprichwort „Wo Müll reinkommt, kann auch nichts Gutes rauskommen“. Wenn die gefütterten Daten zu praxisfremd und alt sind beziehungsweise keine realistischen Real-World-Dateien repräsentieren, hat es der Algorithmus schwer, verlässlich mit außerhalb des Labs beheimateten Daten zu arbeiten. Man sollte also genau nachfragen, woher die Trainingsdaten stammen, was sie realistisch macht und wie sie aktuell gehalten werden.

Wie gut kann das Machine-Learning-System skalieren?

Das ständige Sammeln relevanter Trainingsdaten und der Umgang mit einer immer größeren Datenmenge ist schon eine echte Herausforderung. Damit ist es aber noch nicht genug: Denn auch die verwendeten Modelle müssen in der Lage sein, die ständig wachsenden Datenmengen schnell zu verarbeiten, um etwa die Update-Zeiten nicht immer länger werden zu lassen. Auf der anderen Seite muss das Data Set, das als Grundlage für ein Machine-Learning-Modell dient, möglichst konstant in der Größe sein, auch wenn das Trainings-Set exponentiell wächst. Sonst wird die Runtime-Performance immer schlechter. Skalierbarkeit hat also mehrere Variablen, von der Größe des Trainingsets über den Zeitfaktor bis zum Erhalt eines kompakten Runtime Data Sets - ohne die Erkennungsrate zu gefährden. Lassen Sie sich historische Statistiken zeigen, um zu sehen, wie sich Trainings- und Runtime-Performance entwickelt haben.

„Traditionelle signaturbasierte Anti-Virenprogramme bieten heute keinen zuverlässigen Schutz gegen moderne Malware“, erklärt Michael Veit, IT-Security-Experte von Sophos. „NextGen-Endpoint-Security-Lösungen mit Machine-Learning-Technologien schaffen hier Abhilfe, da die Malware nicht mehr aufgrund der Ähnlichkeit mit bekannten Malwaresignaturen erkennt, sondern durch die Analyse der Eigenschaften einer Datei. Wenn sich Unternehmen vor dem Einsatz mit diesen Technologien intensiv auseinandersetzen, sind sie in der Lage, eine moderne, sichere IT-Struktur aufzubauen“, ergänzt er.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45472066 / Künstliche Intelligenz)