Kommentar von Abe Kleinfeld GridGain Systems Günstige ML-Anwendungen mit In-Memory Computing
In der digitalen Welt wächst der Druck. Um wettbewerbsfähig zu bleiben, müssen Unternehmen digitale Unternehmen werden. Sie müssen die Fähigkeit entwickeln, riesige Datenmengen in Echtzeit zu verarbeiten, zu analysieren und darauf zu reagieren.
Anbieter zum Thema

Um dies erfolgreich zu tun, muss die Zeit von der Datenverarbeitung zur Analyse und zur Entscheidung drastisch verkürzt werden. Durch eine In-Memory-Computing-Plattform mit Machine-Learning-(ML)-Funktionalitäten werden Verzögerungen beseitigt, die durch zeitaufwendige ETL-Prozesse (Extract, Transform, Load) entstehen.
Warum, das zeigen folgende Anwendungen:
- Aufdecken von Finanzbetrug: Um betrügerischen Kreditanfragen erfolgreich entgegenzuwirken, müssen Banken so schnell wie möglich neue Betrugsvorgänge erkennen. Großbanken fordern Kreditkartenunternehmen oft auf, ihre Fraud-Detection-Modelle stündlich zu aktualisieren. Wenn die Daten, die erst mittels ETL-Prozess in die Analysedatenbank übertragen werden müssen, nur nachts das Machine-Learning-Modell updaten können, ist die Bank einen ganzen Tag lang anfällig für neue Betrugsvektoren – und so weit über das von Karten ausstellenden Banken geforderte SLA hinaus.
- Informationssicherheit: Predictive Analytics für Netzwerk- und Datensicherheit ist eine effektive Strategie, erfordert aber ein ständig aktualisiertes Modell der normalen Netzwerkaktivität, um eine neue anomale Bedrohung zu erkennen. Da sich die normale Aktivität in großen Netzwerken schnell verändern kann, beispielsweise durch neue Gerätetypen, Endpoints oder Protokolle, können weniger häufige Aktualisierungen zu einer erhöhten Anfälligkeit führen.
- Empfehlungen: Für eine Verbesserung hin zu relevanteren Empfehlungen im E-Commerce und von Publikationen braucht es ebenfalls Machine-Learning-Modelle. Modelle, die mit Daten aus dem Browserverlauf von Tausenden oder sogar Millionen von Website-Besuchern sowie deren Kaufverhalten, Produktinformationen, Verfügbarkeitsdaten sowie Trendinformationen aus Social Media gespeist werden. Für eine optimale Leistung muss das ML-Modell, das die Empfehlungen gibt, regelmäßig auf der Grundlage der neuesten Daten aus den verschiedensten Quellen aktualisiert werden. Nicht aktuelle Aktualisierungen sorgen für weniger relevante Empfehlungen.
- Spamfilter der nächsten Generation: Ein einfacher regelbasierter Spamfilter wird von Spammern leicht überlistet. Sie passen ihre ungewünschten Nachrichten einfach an diese Regeln an. Ein Spamfilter der nächsten Generation hingegen, der auf einem sich ständig aktualisierenden Machine-Learning-Modell basiert, passt seine Kriterien automatisch an den Inhalt der Nachrichten, den Metadaten und den Benutzerinteraktionen an. So kann er Spamnachrichten identifizieren und blockieren.
Datenunternehmen sind heutzutage riesigen Datenmengen und immer höherer werdenden Geschwindigkeitsanforderungen ausgesetzt. Dabei spielt die Häufigkeit, mit der das Machine-Learning-Modell aktualisiert wird, mittlerweile oft eine entscheidende Rolle für den Geschäftserfolg. Die häufige Aktualisierung eines ML-Modells kann ein Continuous-Learning-Framework mit folgenden Komponenten erfordern:
- Eine verteilte In-Memory-Computing-Plattform, die die erforderliche Geschwindigkeit und Skalierbarkeit bietet, um die riesigen Datenmengen in Echtzeit zu verarbeiten, zu analysieren und darauf zu reagieren, während gleichzeitig die Notwendigkeit von ETL-Prozessen wegfällt.
- Die Machine-Learning-Algorithmen laufen verteilt auf der In-Memory-Computing-Plattform. Dadurch können sie direkt auf die riesigen Mengen der Betriebsdaten zugreifen und jederzeit das Modell anpassen, ohne die Systemleistung zu beeinträchtigen.
In-Memory-Computing – mehr Geschwindigkeit und höhere Skalierbarkeit
Die meisten Unternehmen erreichen ihre selbstgesteckten Ziele im Zuge der digitalen Transformation nicht, da in ihren parallel aufgebauten Infrastrukturen und Datenbankmodellen die notwendige Geschwindigkeit und Skalierbarkeit fehlt. Der ETL-Prozess, der erforderlich ist, um Daten periodisch von der OLTP-Datenbank (Online Transactional Processing) in die OLAP-Datenbank (Online Analytical Processing) zu verschieben, führt zu Verzögerungen. Das Ziel, die Aufnahme, Analyse und Weiterverarbeitung der Daten in Echtzeit zu erreichen, wird dadurch vereitelt.
Eine neue Generation von In-Memory-Computing-Plattformen hingegen kann als System mit hybrider transaktionaler/analytischer Verarbeitung (Hybrid Transactional/Analytical Processing, HTAP) fungieren und macht eine Trennung von transaktionalen und analytischen Datenbanken überflüssig. Eine In-Memory-Computing-Plattform, die auf einem Cluster von Commodity-Servern verteilt ist, bündelt die verfügbaren CPUs und RAMs. Sie verteilt Daten und Berechnungen im gesamten Cluster. Der Cluster kann On-Premise, in einer öffentlichen oder privaten Cloud- sowie in einer hybriden Umgebung verteilt werden.
In-Memory-Computing-Plattformen können als ein In-Memory-Datagrid (IMDG) eingesetzt werden, das zwischen einer bestehenden Anwendung und einer Datenbank eingefügt wird – ohne dass die bestehende Datenbank ausgetauscht werden muss. Sobald die Daten aus der zugrunde liegenden Datenbank in das IMDG geladen wurden, verarbeitet es alle Lese- und Schreibvorgänge. Neue Transfers werden vom Application Layer an das IMDG gesendet, das sie dann in die zugrunde liegende Datenbank schreibt und so Konsistenz und Verfügbarkeit der Daten sicherstellt. Durch das Halten aller Daten im RAM und die massiv parallele Verarbeitung im gesamten verteilten Cluster können Prozesse bis zu 1.000-mal schneller ablaufen, da die Anwendung nicht ständig auf die plattenbasierte Datenbank zugreifen muss.
Die verteilte Architektur von In-Memory-Computing-Plattformen ermöglicht es, die CPU-Leistung und den RAM des Clusters durch Hinzufügen von weiteren Knoten spielend einfach zu skalieren. In-Memory-Computing-Plattformen können automatisch zusätzliche Knoten erkennen und die Daten weiterverteilen. So stellen sie sicher, dass die gesamte CPU und der RAM des Clusters optimal genutzt werden. Gartner bezeichnet ein HTAP-System mit Continuous Learning „In-Process HTAP“. Die Analysten gehen davon aus, dass bis 2020 In-Memory-Computing bei nahezu allen Mainstream-Produkten eine Rolle spielt.
Artikelfiles und Artikellinks
Link: GridGain Systems im Web
(ID:46045071)