Generative KI transformiert die Biologie

Kommentar von Anthony Costa, Nvidia Generative KI transformiert die Biologie

19.01.2024 Von Anthony Costa 4 min Lesedauer

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Die Einführung von ChatGPT hat Generative KI und die möglichen Anwendungen in vielen Branchen bekannt und interessant gemacht. Während die Potenziale der Künstlichen Intelligenz in der Arzneimittelforschung bereits genutzt werden, spielen generative KI-Modelle in der Biologie trotz der theoretischen Möglichkeiten bislang eine untergeordnete Rolle. Das ändert sich nun.

Der Autor: Anthony Costa ist Global Lead, Life Sciences Alliances, Nvidia(Bild: Nvidia) — Der Autor: Anthony Costa ist Global Lead, Life Sciences Alliances, Nvidia
(Bild: Nvidia)

Die Ergebnisse früher Versuche machen deutlich, dass der Übergang zu generativen Modellen die Biologie-Branche entscheidend verändern wird. Die Anwendung von LLMs (Large Language Models) für Target ID sowie generative Lead-Identifizierung erhöhen unser allgemeines Verständnis der Biologie signifikant. Das wirkt sich positiv auf die Entwicklung neuer Wirkstoffe aus. Eine qualitativ hochwertigere Arzneimittel- und auch Target-Darstellung erlauben eine präzisere Identifikation von Eigenschaften und Wechselwirkungen neuer Präparate.

Suboptimaler Status quo

Die Beschleunigung und qualitative Aufwertung vorklinischer Arzneimittelentwicklung ermöglicht unmittelbar die Erschließung neuer, besserer und lebensrettender Therapien. Die herkömmliche Arzneimittelforschung ist zeitaufwendig und teuer. Nach der Target-Identifizierung und -Optimierung liegt die Chance, das Neuprodukt erfolgreich auf den Markt zu bringen, bei weniger als zehn Prozent.

Selbst kleinste Verbesserungen auf dem Weg zur Lead-Optimierung und zu einer höheren Erfolgs-Wahrscheinlichkeit im klinischen Bereich sind von entscheidender Bedeutung, um die Behandlungschancen der tausenden heute noch als unheilbar geltenden Krankheiten zu steigern.

LLMs lernen die Sprache der Biologie

Aktuelle generative KI-Modelle verstehen die Sprache der Biologie, Chemie und Genomik. Sie machen sich dabei viele der Tools zunutze, die in den vergangenen Jahren entwickelt wurden und zum Aufkommen von ChatGPT und anderen LLMs geführt haben. Obwohl diese Modelle auch schon vorher auf biopharmazeutische Sequenzdaten angewandt wurden (z. B. wurde die ESM-Modellfamilie mit zahllosen Protein-Sequenzdaten trainiert), bestand das entscheidende Moment doch im dokumentierten Erfolg von DeepMinds AlphaFold – es zeigte, was die Tools wirklich können.

Seither kann das exponentielle F&E-Wachstum in diesem Bereich kaum noch ignoriert werden. Nahezu jede Woche gibt es neue hochmoderne Architekturen, Modelle und Ansätze, die der Industrie von der Wissenschaft zur Verfügung gestellt werden. Erst kürzlich wurde DiffDock vorgestellt – das erste funktionsfähige KI-basierte Tool zum Andocken kleiner Moleküle an Proteine. Dieses Modell beschleunigt die Docking-Workflows um ein Vielfaches – was seinerseits zu günstigeren und effizienteren Screening-Workflows für kleine Moleküle führt.

Integration von Generativer KI in die Genomforschung

Ein wegweisendes Beispiel für den Einsatz von Generativer KI in der Genomforschung ist das GenSLMs-Modell. Das Large Language Model für genomische Daten wurde von Forschern des Argonne National Laboratory, der University of Chicago, Nvidia und weiteren Partnern entwickelt. Es ist in der Lage, Gene sequenziell zu generieren, die realen Varianten von SARS-CoV-2, dem Virus hinter COVID-19, stark ähneln. Es wurde anhand eines Datensatzes von Nukleotidsequenzen – den Bausteinen von DNs und RNS – trainiert.

Der generative Prozess des Modells ist unkonkret und enthält keine spezifischen Informationen oder Einschränkungen darüber, wie eine neue COVID-Variante aussehen sollte. Die KI ist imstande, die Arten von Genmutationen in aktuellen COVID-Stämmen vorherzusagen – obwohl sie während des Trainings nur die Alpha- und Beta-Varianten gesehen hat. GenSLMs kann nicht nur seine eigenen Sequenzen erzeugen, sondern auch verschiedene COVID-Genomsequenzen klassifizieren und clustern, indem es zwischen Varianten unterscheidet.

Ein wesentliches Merkmal von GenSLMs ist die Fähigkeit, lange Nukleotidketten auf die gleiche Weise zu interpretieren, wie ein auf englischen Text trainiertes LLM einen Satz interpretieren würde. Dadurch kann das Modell die Beziehung zwischen verschiedenen Bereichen des Genoms verstehen, das bei Coronaviren aus etwa 30.000 Nukleotiden besteht.

Ein Verständnis dafür, wie verschiedene Teile des Genoms gemeinsam evolvieren, liefert Hinweise darauf, wie das Virus potenziell neue Schwachstellen oder Resistenzformen entwickeln kann. Das Verständnis des Modells dafür, welche Mutationen in einer Variante besonders stark sind, kann den Wissenschaftlern bei nachgelagerten Aufgaben helfen, zum Beispiel bei der Bestimmung, wie ein bestimmter Stamm das menschliche Immunsystem umgehen kann.

Das Modell wurde auf mehr als 110 Millionen prokaryotischen Genomsequenzen trainiert und mit einem globalen Datensatz von rund 1,5 Millionen viralen COVID-Sequenzen unter Verwendung von Open-Source-Daten des Bacterial and Viral Bioinformatics Resource Center feinabgestimmt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

In Zukunft kann dieses System auch auf die Genome anderer Viren oder Bakterien abgestimmt werden, um neue Forschungsanwendungen zu entwickeln.

Ein Erfolgsrezept

Jeder Schritt im Rahmen der KI-gestützten Arzneimittelentwicklung kann mittels der KI-Technologie erheblich beschleunigt werden. LLMs sichten die gesamte verfügbare Literatur, um neue behandelbare Targets zu finden. Generative Modelle, die auf Basis der Daten von kleinen Molekülen und Proteinen trainiert wurden, bieten Tools zur Generierung möglicher neuer Arzneimittel-Kandidaten anhand definierter Eigenschaften. Diese wurden kürzlich im Rahmen einer gemeinsamen Studie von Nvidia und Evozyne synthetisiert und validiert.

Representation Learning Workflows, wie sie etwa von ESM-Modellen im Protein-Design unterstützt werden, bieten die bestgeeigneten Tools zur Prognose von Eigenschaften, die es bis dato in diesem Bereich gibt. Sie tragen unmittelbar zur Performance-Maximierung von Instrumenten wie AlphaFold und ESMFold bei. Die Anwendung solcher Modelle in der Genomik haben zum ersten wirklich generalisierbaren Modell für Aufgaben wie die Genexpressions-Prognose, wie sie kürzlich von Nvidia, der TU München und InstaDeep (jetzt: BioNTech) veröffentlicht wurde, geführt.

Fazit

Wir stehen an einem Wendepunkt, was den Einsatz von KI in der frühen Arzneimittelforschung betrifft. Gleiches gilt für klinische Studien. Wenn wir erst über generative und prognosefähige Tools für Wirkstoffe und ihre Targets verfügen, wird sich vor allem folgende Frage stellen: Wie können wir eine klinische Studie effektiver strukturieren, sodass sich die Erfolgschancen der entsprechenden Wirkstoffe maximieren?

Heute werden Tools zur Integration multimodaler Patientendaten, elektronischer Krankenakten sowie weiterer relevanter Informationen im Bereich Genomik, Biologie und Gesundheit entwickelt, um mehr Patienten für klinische Studien zu gewinnen bzw. dafür zu sorgen, dass diese die entsprechenden Studien selbst finden können.

Generative KI hat die Fähigkeit, komplexe Zusammenhänge in natürlicher Sprache zu verstehen – mittlerweile haben das Millionen von Menschen weltweit begriffen. Der Einfluss Generativer KI auf die Biologie und die Arzneimittelentwicklung wird schon bald das Leben vieler Menschen zum Positiven verändern.

Artikelfiles und Artikellinks

Link: Webseite von Nvidia

(ID:49826050)