Kommentar von Anthony Costa, Nvidia Generative KI transformiert die Biologie

Von Anthony Costa 4 min Lesedauer

Anbieter zum Thema

Die Einführung von ChatGPT hat Generative KI und die möglichen Anwendungen in vielen Branchen bekannt und interessant gemacht. Während die Potenziale der Künstlichen Intelligenz in der Arzneimittelforschung bereits genutzt werden, spielen generative KI-Modelle in der Biologie trotz der theoretischen Möglichkeiten bislang eine untergeordnete Rolle. Das ändert sich nun.

Der Autor: Anthony Costa ist Global Lead, Life Sciences Alliances, Nvidia(Bild:  Nvidia)
Der Autor: Anthony Costa ist Global Lead, Life Sciences Alliances, Nvidia
(Bild: Nvidia)

Die Ergebnisse früher Versuche machen deutlich, dass der Übergang zu generativen Modellen die Biologie-Branche entscheidend verändern wird. Die Anwendung von LLMs (Large Language Models) für Target ID sowie generative Lead-Identifizierung erhöhen unser allgemeines Verständnis der Biologie signifikant. Das wirkt sich positiv auf die Entwicklung neuer Wirkstoffe aus. Eine qualitativ hochwertigere Arzneimittel- und auch Target-Darstellung erlauben eine präzisere Identifikation von Eigenschaften und Wechselwirkungen neuer Präparate.

Suboptimaler Status quo

Die Beschleunigung und qualitative Aufwertung vorklinischer Arzneimittelentwicklung ermöglicht unmittelbar die Erschließung neuer, besserer und lebensrettender Therapien. Die herkömmliche Arzneimittelforschung ist zeitaufwendig und teuer. Nach der Target-Identifizierung und -Optimierung liegt die Chance, das Neuprodukt erfolgreich auf den Markt zu bringen, bei weniger als zehn Prozent.

Selbst kleinste Verbesserungen auf dem Weg zur Lead-Optimierung und zu einer höheren Erfolgs-Wahrscheinlichkeit im klinischen Bereich sind von entscheidender Bedeutung, um die Behandlungschancen der tausenden heute noch als unheilbar geltenden Krankheiten zu steigern.

LLMs lernen die Sprache der Biologie

Aktuelle generative KI-Modelle verstehen die Sprache der Biologie, Chemie und Genomik. Sie machen sich dabei viele der Tools zunutze, die in den vergangenen Jahren entwickelt wurden und zum Aufkommen von ChatGPT und anderen LLMs geführt haben. Obwohl diese Modelle auch schon vorher auf biopharmazeutische Sequenzdaten angewandt wurden (z. B. wurde die ESM-Modellfamilie mit zahllosen Protein-Sequenzdaten trainiert), bestand das entscheidende Moment doch im dokumentierten Erfolg von DeepMinds AlphaFold – es zeigte, was die Tools wirklich können.

Seither kann das exponentielle F&E-Wachstum in diesem Bereich kaum noch ignoriert werden. Nahezu jede Woche gibt es neue hochmoderne Architekturen, Modelle und Ansätze, die der Industrie von der Wissenschaft zur Verfügung gestellt werden. Erst kürzlich wurde DiffDock vorgestellt – das erste funktionsfähige KI-basierte Tool zum Andocken kleiner Moleküle an Proteine. Dieses Modell beschleunigt die Docking-Workflows um ein Vielfaches – was seinerseits zu günstigeren und effizienteren Screening-Workflows für kleine Moleküle führt.

Integration von Generativer KI in die Genomforschung

Ein wegweisendes Beispiel für den Einsatz von Generativer KI in der Genomforschung ist das GenSLMs-Modell. Das Large Language Model für genomische Daten wurde von Forschern des Argonne National Laboratory, der University of Chicago, Nvidia und weiteren Partnern entwickelt. Es ist in der Lage, Gene sequenziell zu generieren, die realen Varianten von SARS-CoV-2, dem Virus hinter COVID-19, stark ähneln. Es wurde anhand eines Datensatzes von Nukleotidsequenzen – den Bausteinen von DNs und RNS – trainiert.

Der generative Prozess des Modells ist unkonkret und enthält keine spezifischen Informationen oder Einschränkungen darüber, wie eine neue COVID-Variante aussehen sollte. Die KI ist imstande, die Arten von Genmutationen in aktuellen COVID-Stämmen vorherzusagen – obwohl sie während des Trainings nur die Alpha- und Beta-Varianten gesehen hat. GenSLMs kann nicht nur seine eigenen Sequenzen erzeugen, sondern auch verschiedene COVID-Genomsequenzen klassifizieren und clustern, indem es zwischen Varianten unterscheidet.

Ein wesentliches Merkmal von GenSLMs ist die Fähigkeit, lange Nukleotidketten auf die gleiche Weise zu interpretieren, wie ein auf englischen Text trainiertes LLM einen Satz interpretieren würde. Dadurch kann das Modell die Beziehung zwischen verschiedenen Bereichen des Genoms verstehen, das bei Coronaviren aus etwa 30.000 Nukleotiden besteht.

Ein Verständnis dafür, wie verschiedene Teile des Genoms gemeinsam evolvieren, liefert Hinweise darauf, wie das Virus potenziell neue Schwachstellen oder Resistenzformen entwickeln kann. Das Verständnis des Modells dafür, welche Mutationen in einer Variante besonders stark sind, kann den Wissenschaftlern bei nachgelagerten Aufgaben helfen, zum Beispiel bei der Bestimmung, wie ein bestimmter Stamm das menschliche Immunsystem umgehen kann.

Das Modell wurde auf mehr als 110 Millionen prokaryotischen Genomsequenzen trainiert und mit einem globalen Datensatz von rund 1,5 Millionen viralen COVID-Sequenzen unter Verwendung von Open-Source-Daten des Bacterial and Viral Bioinformatics Resource Center feinabgestimmt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

In Zukunft kann dieses System auch auf die Genome anderer Viren oder Bakterien abgestimmt werden, um neue Forschungsanwendungen zu entwickeln.

Ein Erfolgsrezept

Jeder Schritt im Rahmen der KI-gestützten Arzneimittelentwicklung kann mittels der KI-Technologie erheblich beschleunigt werden. LLMs sichten die gesamte verfügbare Literatur, um neue behandelbare Targets zu finden. Generative Modelle, die auf Basis der Daten von kleinen Molekülen und Proteinen trainiert wurden, bieten Tools zur Generierung möglicher neuer Arzneimittel-Kandidaten anhand definierter Eigenschaften. Diese wurden kürzlich im Rahmen einer gemeinsamen Studie von Nvidia und Evozyne synthetisiert und validiert.

Representation Learning Workflows, wie sie etwa von ESM-Modellen im Protein-Design unterstützt werden, bieten die bestgeeigneten Tools zur Prognose von Eigenschaften, die es bis dato in diesem Bereich gibt. Sie tragen unmittelbar zur Performance-Maximierung von Instrumenten wie AlphaFold und ESMFold bei. Die Anwendung solcher Modelle in der Genomik haben zum ersten wirklich generalisierbaren Modell für Aufgaben wie die Genexpressions-Prognose, wie sie kürzlich von Nvidia, der TU München und InstaDeep (jetzt: BioNTech) veröffentlicht wurde, geführt.

Fazit

Wir stehen an einem Wendepunkt, was den Einsatz von KI in der frühen Arzneimittelforschung betrifft. Gleiches gilt für klinische Studien. Wenn wir erst über generative und prognosefähige Tools für Wirkstoffe und ihre Targets verfügen, wird sich vor allem folgende Frage stellen: Wie können wir eine klinische Studie effektiver strukturieren, sodass sich die Erfolgschancen der entsprechenden Wirkstoffe maximieren?

Heute werden Tools zur Integration multimodaler Patientendaten, elektronischer Krankenakten sowie weiterer relevanter Informationen im Bereich Genomik, Biologie und Gesundheit entwickelt, um mehr Patienten für klinische Studien zu gewinnen bzw. dafür zu sorgen, dass diese die entsprechenden Studien selbst finden können.

Generative KI hat die Fähigkeit, komplexe Zusammenhänge in natürlicher Sprache zu verstehen – mittlerweile haben das Millionen von Menschen weltweit begriffen. Der Einfluss Generativer KI auf die Biologie und die Arzneimittelentwicklung wird schon bald das Leben vieler Menschen zum Positiven verändern.

Artikelfiles und Artikellinks

(ID:49826050)