Kommentar von Christian Tressel, BI X Wenn Sprachmodelle Proteine analysieren

Von Christian Tressel 4 min Lesedauer

Anbieter zum Thema

Für die medizinische Forschung spielen Data Science und KI inzwischen eine entscheidende Rolle. Mit digitalen Lösungen lassen sich Krankheiten besser verstehen, die Medikamentenentwicklung beschleunigen und Behandlungsmöglichkeiten schneller zugänglich machen.

Der Autor: Christian Tressel ist Chief Operating Officer der BI X GmbH, dem Digitallabor von Boehringer Ingelheim(Bild:  Boehringer Ingelheim)
Der Autor: Christian Tressel ist Chief Operating Officer der BI X GmbH, dem Digitallabor von Boehringer Ingelheim
(Bild: Boehringer Ingelheim)

Um digitale Innovationen für die Gesundheit von Menschen und Tieren zu entwickeln, hat Boehringer Ingelheim im Jahr 2017 sein Digitallabor BI X gegründet. An den BI-X-Standorten Ingelheim und Shanghai arbeitet ein internationales, interdisziplinäres Team an der Zukunft der digitalen Medizinforschung. Allein in Ingelheim sind 70 Mitarbeiterinnen und Mitarbeiter aus 26 Nationen beschäftigt. Angelehnt an die Gesamtstrategie des Unternehmens ist es dabei von zentraler Bedeutung, technische, medizinische und pharmazeutische Kompetenzen zusammenzuführen und weiterzubilden, um noch bessere, integrierte Lösungen für Boehringer Ingelheim entwickeln zu können.

BI X verfolgt dabei drei strategische Ziele: Zum einen die Erforschung und Entwicklung von digitalen Produkten und Services, zum anderen die digitale Transformation des Pharmaunternehmens selbst und den Aufbau von Wissen rund um neue Technologien wie beispielsweise generative Künstliche Intelligenz (KI).

Viele Produktentwicklungen von BI X basieren auf KI: Dank neuer Entwicklungen im Bereich der Large Language Models (LLM) und generativer KI ist es nun möglich, diese Machine-Learning-Modelle auch immer stärker in die Medizinforschung und -entwicklung einzubeziehen. Durch sie lässt sich eine größere Anzahl medizinischer Daten noch besser nutzen. Dabei arbeitet BI X intensiv mit Partnern aus der akademischen Forschung zusammen sowie mit Start-ups und Unternehmen, die bereits Lösungen entwickelt und diese zum Teil schon in den Markt eingeführt haben.

Mithilfe von Künstlicher Intelligenz generierte Texte und Bilder, aber auch die KI-gestützte Analyse von Proteinen: Das sind die jüngsten Entwicklungen im Bereich generativer KI und Large Language Models. Sie eröffnen dem Digitallabor BI X neue Möglichkeiten, die Medizinforschung auf ein neues Level zu heben und das Leben von Patientinnen und Patienten zu verbessern.

Trainiert auf Aminosäuresequenzen

Proteine statt Sprache: In einem Pilotprojekt aus der Immunologie-Forschung im Bereich Onkologie werden LLMs zur Verarbeitung von natürlicher Sprache trainiert, allerdings nicht mithilfe von Textdaten. Stattdessen werden Proteine bzw. Aminosäuresequenzen als Trainingsdaten verwendet, um LLMs für die Verarbeitung eben solcher Daten zu nutzen. Das funktioniert, weil Proteine aus einer Sequenz von Aminosäuren bestehen, ähnlich wie Sätze in natürlicher Sprache aus einer Sequenz von Wörtern bestehen – sozusagen aus einer „Language of Life“. Die Modelle sollen zum einen spezifische Membrananker innerhalb von Aminosäuresequenzen erkennen und zum anderen die Proteine innerhalb einer Zelle lokalisieren.

Wurde ein solches Protein identifiziert, dann lassen sich, nach einigen weiteren Schritten, passende Antikörper entwickeln. Sie docken an unsere körpereigenen Immunzellen sowie an die identifizierten Proteine auf der Oberfläche der Tumorzelle an und ermöglichen so eine gezieltere Krebstherapie.

Perspektivisch soll die Anzahl der Laborversuche zur Identifikation der passenden Proteine reduziert werden. Solche Versuchsreihen sind zwingend notwendig, jedoch äußerst zeitintensiv und teuer. Durch eine vorgeschaltete Untersuchung mit den auf Proteine trainierten LLMs ist es möglich, nur vielversprechende Kandidaten in die Laborversuche zu geben. Obwohl es sich aufgrund limitierter Datenvolumina noch nicht um empirisch validierte Ergebnisse handelt, erzielt der Pilot bereits positive Ergebnisse: In neun von zehn Fällen eines Testdatensatzes identifiziert das Modell die gesuchten Membrananker zuverlässig und ebnet somit den Weg für die Entwicklung neuer Antikörper für die gezielte Krebstherapie.

Wertvolle Daten mit enormem Lösungspotenzial

In einem anderen Projekt greift BI X für seine Analysen auf Daten und Biomaterialien aus Biobanken zurück. Ihr Potenzial für die Medizinforschung ist außerordentlich: Sie enthalten unter anderem klinische Daten, wie Diagnosen oder Blutwerte, sowie genetische Information von gesunden wie auch erkrankten Probanden.

Biobanken sind zentraler Bestandteil der Forschung im Bereich Drug Discovery, einer sehr frühen, jedoch elementaren Phase der Medikamentenentwicklung. Mittels statistischer Modelle und KI lassen sich Krankheitsmechanismen (Targets) in den Daten identifizieren, auf deren Basis sich Moleküle schaffen lassen, die wiederum in der Entwicklung von Wirkstoffen und Medikamenten münden. Dank der rasanten Entwicklungen im Bereich der Künstlichen Intelligenz hat BI X im Jahr 2023 innerhalb von nur zwei Quartalen eine beeindruckende Anzahl von Targets für Laborvalidierungen vorgeschlagen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die ersten dieser Targets wurden inzwischen erfolgreich im Labor validiert. Für diese digitale Lösung wurden bislang nur Daten aus einer einzigen Biobank analysiert. Die Ergebnisse zeigen aber schon das enorme Potenzial, dass in der Verwendung der Lösung auf weiteren Biobanken liegt.

Fehlende Daten selbst generieren

Stehen zukünftig mehr geeignete Daten zur Verfügung, erwartet BI X noch bessere Ergebnisse. Viele Daten müssen jedoch erst generiert werden, wobei Datenzugang und Datenstrukturierung kompliziert und zeitintensiv sein können. Für Situationen, in denen keine geeigneten Daten vorliegen, hat BI X bereits einen möglichen Lösungsansatz entwickelt, der Projekte und Machbarkeitsstudien beschleunigt: Anstatt im Vorfeld der Datenanalyse aufwendige vorbereitende Projekte aufzusetzen, um Daten zu recherchieren, zu bereinigen und zu katalogisieren, identifizieren Data Scientists zunächst die Bereiche, in denen noch keine Daten vorliegen. Anschließend entwickeln sie Wege, die fehlenden Daten auf unkompliziertem Weg selbst zu generieren. Das spart Zeit und stellt gleichzeitig sicher, dass die erzeugten Daten den Anforderungen des Projekts entsprechen.

Ein Beispiel für einen solchen Lösungsansatz ist das Aufsetzen einer Datenbank mit physiologischen Messgrößen, das „Living Lab“. Diese Messgrößen sind vor allem in der Medizinforschung, bei präventiven medizinischen Lösungen und in der Diagnostik ein wichtiges Zukunftsthema. Ziel von BI X ist es, im Living Lab umfassende Daten von gesunden Probandinnen und Probanden non-invasiv über externe Geräte wie Apple Watches, Fitness-Armbänder, Ringe, Westen oder EKGs zu erfassen und anschließend zu visualisieren. Anschließend beginnt die KI-gestützte Suche nach Korrelationen der Daten mit Symptomen. So sollen zum einen digitale Lösungen entstehen, die in internen Medizinprozessen wie klinischen Studien eingesetzt werden können. Zum anderen sollen präventive Lösungen entwickelt werden, um die Früherkennung von Krankheiten voranzutreiben.

Artikelfiles und Artikellinks

(ID:49960615)