Wenn Sprachmodelle Proteine analysieren

Kommentar von Christian Tressel, BI X Wenn Sprachmodelle Proteine analysieren

10.05.2024 Von Christian Tressel 4 min Lesedauer

Anbieter zum Thema

Boehringer Ingelheim Pharma GmbH & Co. KG

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

INFOMOTION GmbH

Fivetran Germany GmbH

Für die medizinische Forschung spielen Data Science und KI inzwischen eine entscheidende Rolle. Mit digitalen Lösungen lassen sich Krankheiten besser verstehen, die Medikamentenentwicklung beschleunigen und Behandlungsmöglichkeiten schneller zugänglich machen.

Der Autor: Christian Tressel ist Chief Operating Officer der BI X GmbH, dem Digitallabor von Boehringer Ingelheim(Bild: Boehringer Ingelheim) — Der Autor: Christian Tressel ist Chief Operating Officer der BI X GmbH, dem Digitallabor von Boehringer Ingelheim
(Bild: Boehringer Ingelheim)

Um digitale Innovationen für die Gesundheit von Menschen und Tieren zu entwickeln, hat Boehringer Ingelheim im Jahr 2017 sein Digitallabor BI X gegründet. An den BI-X-Standorten Ingelheim und Shanghai arbeitet ein internationales, interdisziplinäres Team an der Zukunft der digitalen Medizinforschung. Allein in Ingelheim sind 70 Mitarbeiterinnen und Mitarbeiter aus 26 Nationen beschäftigt. Angelehnt an die Gesamtstrategie des Unternehmens ist es dabei von zentraler Bedeutung, technische, medizinische und pharmazeutische Kompetenzen zusammenzuführen und weiterzubilden, um noch bessere, integrierte Lösungen für Boehringer Ingelheim entwickeln zu können.

BI X verfolgt dabei drei strategische Ziele: Zum einen die Erforschung und Entwicklung von digitalen Produkten und Services, zum anderen die digitale Transformation des Pharmaunternehmens selbst und den Aufbau von Wissen rund um neue Technologien wie beispielsweise generative Künstliche Intelligenz (KI).

Viele Produktentwicklungen von BI X basieren auf KI: Dank neuer Entwicklungen im Bereich der Large Language Models (LLM) und generativer KI ist es nun möglich, diese Machine-Learning-Modelle auch immer stärker in die Medizinforschung und -entwicklung einzubeziehen. Durch sie lässt sich eine größere Anzahl medizinischer Daten noch besser nutzen. Dabei arbeitet BI X intensiv mit Partnern aus der akademischen Forschung zusammen sowie mit Start-ups und Unternehmen, die bereits Lösungen entwickelt und diese zum Teil schon in den Markt eingeführt haben.

Mithilfe von Künstlicher Intelligenz generierte Texte und Bilder, aber auch die KI-gestützte Analyse von Proteinen: Das sind die jüngsten Entwicklungen im Bereich generativer KI und Large Language Models. Sie eröffnen dem Digitallabor BI X neue Möglichkeiten, die Medizinforschung auf ein neues Level zu heben und das Leben von Patientinnen und Patienten zu verbessern.

Trainiert auf Aminosäuresequenzen

Proteine statt Sprache: In einem Pilotprojekt aus der Immunologie-Forschung im Bereich Onkologie werden LLMs zur Verarbeitung von natürlicher Sprache trainiert, allerdings nicht mithilfe von Textdaten. Stattdessen werden Proteine bzw. Aminosäuresequenzen als Trainingsdaten verwendet, um LLMs für die Verarbeitung eben solcher Daten zu nutzen. Das funktioniert, weil Proteine aus einer Sequenz von Aminosäuren bestehen, ähnlich wie Sätze in natürlicher Sprache aus einer Sequenz von Wörtern bestehen – sozusagen aus einer „Language of Life“. Die Modelle sollen zum einen spezifische Membrananker innerhalb von Aminosäuresequenzen erkennen und zum anderen die Proteine innerhalb einer Zelle lokalisieren.

Wurde ein solches Protein identifiziert, dann lassen sich, nach einigen weiteren Schritten, passende Antikörper entwickeln. Sie docken an unsere körpereigenen Immunzellen sowie an die identifizierten Proteine auf der Oberfläche der Tumorzelle an und ermöglichen so eine gezieltere Krebstherapie.

Perspektivisch soll die Anzahl der Laborversuche zur Identifikation der passenden Proteine reduziert werden. Solche Versuchsreihen sind zwingend notwendig, jedoch äußerst zeitintensiv und teuer. Durch eine vorgeschaltete Untersuchung mit den auf Proteine trainierten LLMs ist es möglich, nur vielversprechende Kandidaten in die Laborversuche zu geben. Obwohl es sich aufgrund limitierter Datenvolumina noch nicht um empirisch validierte Ergebnisse handelt, erzielt der Pilot bereits positive Ergebnisse: In neun von zehn Fällen eines Testdatensatzes identifiziert das Modell die gesuchten Membrananker zuverlässig und ebnet somit den Weg für die Entwicklung neuer Antikörper für die gezielte Krebstherapie.

Wertvolle Daten mit enormem Lösungspotenzial

In einem anderen Projekt greift BI X für seine Analysen auf Daten und Biomaterialien aus Biobanken zurück. Ihr Potenzial für die Medizinforschung ist außerordentlich: Sie enthalten unter anderem klinische Daten, wie Diagnosen oder Blutwerte, sowie genetische Information von gesunden wie auch erkrankten Probanden.

Biobanken sind zentraler Bestandteil der Forschung im Bereich Drug Discovery, einer sehr frühen, jedoch elementaren Phase der Medikamentenentwicklung. Mittels statistischer Modelle und KI lassen sich Krankheitsmechanismen (Targets) in den Daten identifizieren, auf deren Basis sich Moleküle schaffen lassen, die wiederum in der Entwicklung von Wirkstoffen und Medikamenten münden. Dank der rasanten Entwicklungen im Bereich der Künstlichen Intelligenz hat BI X im Jahr 2023 innerhalb von nur zwei Quartalen eine beeindruckende Anzahl von Targets für Laborvalidierungen vorgeschlagen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Die ersten dieser Targets wurden inzwischen erfolgreich im Labor validiert. Für diese digitale Lösung wurden bislang nur Daten aus einer einzigen Biobank analysiert. Die Ergebnisse zeigen aber schon das enorme Potenzial, dass in der Verwendung der Lösung auf weiteren Biobanken liegt.

Fehlende Daten selbst generieren

Stehen zukünftig mehr geeignete Daten zur Verfügung, erwartet BI X noch bessere Ergebnisse. Viele Daten müssen jedoch erst generiert werden, wobei Datenzugang und Datenstrukturierung kompliziert und zeitintensiv sein können. Für Situationen, in denen keine geeigneten Daten vorliegen, hat BI X bereits einen möglichen Lösungsansatz entwickelt, der Projekte und Machbarkeitsstudien beschleunigt: Anstatt im Vorfeld der Datenanalyse aufwendige vorbereitende Projekte aufzusetzen, um Daten zu recherchieren, zu bereinigen und zu katalogisieren, identifizieren Data Scientists zunächst die Bereiche, in denen noch keine Daten vorliegen. Anschließend entwickeln sie Wege, die fehlenden Daten auf unkompliziertem Weg selbst zu generieren. Das spart Zeit und stellt gleichzeitig sicher, dass die erzeugten Daten den Anforderungen des Projekts entsprechen.

Ein Beispiel für einen solchen Lösungsansatz ist das Aufsetzen einer Datenbank mit physiologischen Messgrößen, das „Living Lab“. Diese Messgrößen sind vor allem in der Medizinforschung, bei präventiven medizinischen Lösungen und in der Diagnostik ein wichtiges Zukunftsthema. Ziel von BI X ist es, im Living Lab umfassende Daten von gesunden Probandinnen und Probanden non-invasiv über externe Geräte wie Apple Watches, Fitness-Armbänder, Ringe, Westen oder EKGs zu erfassen und anschließend zu visualisieren. Anschließend beginnt die KI-gestützte Suche nach Korrelationen der Daten mit Symptomen. So sollen zum einen digitale Lösungen entstehen, die in internen Medizinprozessen wie klinischen Studien eingesetzt werden können. Zum anderen sollen präventive Lösungen entwickelt werden, um die Früherkennung von Krankheiten voranzutreiben.

Artikelfiles und Artikellinks

Link: Webseite von BI X

(ID:49960615)