COVID-19 Knowledge Graph – Daten verknüpfen, gemeinsam forschen

Kommentar von Dirk Möller, Neo4j COVID-19 Knowledge Graph – Daten verknüpfen, gemeinsam forschen

05.05.2020 Von Dirk Möller

Anbieter zum Thema

Neo4j Germany GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

QUNIS GmbH

Fivetran Germany GmbH

In der medizinischen Forschung und bei der Entwicklung von Medikamenten sind Graphdatenbanken bereits weit verbreitet. Wie relevant die Technologie angesichts der Coronavirus-Krise werden könnte, zeigt das Projekt COVID*Graph.

Der Autor: Dirk Möller ist Area Director of Sales CEMEA, Neo4j(Bild: Steffen Urban) — Der Autor: Dirk Möller ist Area Director of Sales CEMEA, Neo4j
(Bild: Steffen Urban)

Wissenschaftler, Entwickler und Data Scientists begannen Anfang März mit dem Aufbau eines Knowledge-Graphen, in dem Forschungsdaten über COVID-19 aus unterschiedlichen öffentlichen Quellen in einer Datenbank zentral verknüpft und abgefragt werden können. Unterstützt wird das gemeinnützige Projekt u. a. vom Deutschen Zentrum für Diabetesforschung (DZD) sowie den Datenanalytik- und Graph-Experten u. a. von Kaiser & Preusse, Prodyna, Structr und yworks.

Ziel ist es, Forschenden einen freien und unkomplizierten Zugriff auf die weltweit wachsende Datenmenge rund um COVID-19 zu ermöglichen. Wichtige Erkenntnisse über Verbreitung und Krankheitsverlauf des Virus sollen so möglichst schnell geteilt werden, um Krankheitsmechanismen zu verstehen und letztendlich der Entwicklung von Medikamenten und Impfstoffen einen Schritt näher zu kommen.

Zentrales Datenmanagement in der Graphdatenbank

Dazu werden wissenschaftliche Publikationen und Forschungsarbeiten in die Graphdatenbank Neo4j integriert, um einen COVID-19-Wissens-Hub zu schaffen. Verknüpft werden öffentlich zugängliche Datenquellen zum Coronavirus, aktuelle und bestehende Patentschriften, demografische Statistiken sowie Datensätze aus Genom- und molekularbiologischen Datenbanken. Das Verknüpfen großer Datensätze und ihre Auswertung erlaubt neue Einblicke und liefert Forschern Ansätze und Hypothesen für ihre weitere Arbeit.

„Der COVID*Graph ist die Datengrundlage, mit der Forscher und Wissenschaftler schnell und ohne große technische Vorkenntnisse arbeiten können. Dafür sorgt die anschauliche Visualisierung und das intuitive Modell aus Knoten und Kanten“, erklärt Dr. Martin Preusse, Gründer von Kaiser & Preusse und Mitinitiator des COVID*Graph-Projekts. „Momentan besteht die Aufgabe darin, die Prozesse, die bei einer Infektion mit dem Coronavirus im menschlichen Körper ablaufen, zu verstehen. Warum ist dieses Virus so ansteckend? Warum kommt es zu so starken Komplikationen? Und warum sind bestimmte Risikogruppen besonders betroffen? Jedes Muster und jede Auffälligkeit innerhalb der Daten könnte einen neuen Hinweis liefern und die Forschung in die richtige Richtung vorantreiben.“

Kanten und Knoten in der Forschung

Knowledge-Graphen sind semantische Wissensdatenbanken, in denen eine große Anzahl heterogener Daten aus unterschiedlichen Quellen gespeichert, verknüpft und abgefragt werden können. Einzelne Daten werden als Knoten dargestellt, die Verbindung zwischen den Knoten als Linien bzw. Kanten. Beiden kann eine beliebige Anzahl von qualitativen oder quantitativen Eigenschaften zugewiesen werden, z. B. der Zeitraum einer Studie. Diese Art der Darstellung gibt auch komplexe Zusammenhänge verständlich und anschaulich wieder und ermöglicht es, Zusammenhänge aufzudecken und Muster zu erkennen.

Screenshot COVID*Graph(Bild: Neo4j) — Screenshot COVID*Graph
(Bild: Neo4j)

Zum Einsatz kommen Knowledge-Graphen in den unterschiedlichsten Branchen und für die verschiedensten Anwendungsfälle. In der medizinischen Forschung schaffen Graphdatenbanken die technologische Grundlage, um einrichtungs- und disziplinübergreifend Erkenntnisse über Krankheiten wie Diabetes, Herz-Kreislauf-Erkrankungen oder Krebs zu gewinnen. Die Vernetzung unabhängiger Datensilos ist hier ein zentrales Thema. Institute und Einrichtungen verfügen über immense heterogene Datenmengen, verteilt auf unterschiedliche Standorte. Dazu gehören neben Daten aus der Grundlagenforschung auch öffentlich zugängliche Informationen aus klinischen Studien, Berichten und internationalen Forschungsvorhaben.

Das ist auch bei COVID-19 der Fall. „Die Familie der Coronaviren ist ja nicht ganz neu. Es gibt bereits sehr viele Arbeiten, die sich mit Ausbreitung und Krankheitsverlauf des Virus beschäftigen. In den letzten Monaten ist hier jedoch in sehr kurzer Zeit, sehr viel zusätzliches Material publiziert worden“, erklärt Dr. Alexander Jarasch, Leiter Bioinformatik und Datenmanagement des Deutschen Zentrum für Diabetesforschung, der das COVID*Graph-Projekt mit ins Leben gerufen hat. „Bei dieser Flut an Daten ist es für Wissenschaftler schwer, den Überblick zu behalten und tatsächliche relevante Informationen für ihre Arbeit herauszufiltern. Hinzu kommt, dass der Großteil der Arbeiten noch von keiner Peer-Group geprüft und diskutiert werden konnte. Mehr Daten heißt also nicht zwangsläufig mehr Wissensgewinn. Daher ist es so wichtig auf eine Technologie zurückgreifen zu können, die beispielsweise Texte selbstständig einliest, vorab kategorisiert, in ein Datenmodell überträgt und komplexe Abfragen erlaubt.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Öffentliche Datensilos vernetzten

Derzeit umfasst der Knowledge-Graph mehr als 10 Millionen Knoten und über 25 Millionen Kanten und bezieht Daten aus unterschiedlichen öffentlichen Datenbanken. Dazu gehören:

COVID-19 Open Research Dataset (CORD-19): Im Kampf gegen COVID-19 hat das Allen Institute for AI mit führenden Forschungsgruppen eine Datenbank mit mehr als 44.000 frei zugänglichen wissenschaftlichen Publikationen über COVID-19 und die Coronaviren-Familie. Über 29.000 der Dokumente liegen als Volltext vor.

Lens COVID-19 Dataset: In der Lens-Datenbank finden sich freie Datensätze von Patentschriften, Metadaten wissenschaftlicher Forschungsarbeiten sowie biologischer Sequenzen aus Patenten. Die Dokumente sind in maschinenlesbarer und explorierbarer Form hinterlegt.

Ensembl Genome Browser: Ensembl ist ein Browser, der sich auf das Genom von Wirbeltieren spezialisiert hat, und vergleichende Forschung im Bereich Genomik, Evolution, Sequenzvariation und Transkriptionsregulation unterstützt. Ensembl annotiert Gene, berechnet Multiple Sequenzalignments, prognostiziert Regulationsabläufe und sammelt Krankheitsdaten. Zu den Ensembl-Tools gehören BLAST, BLAT, BioMart und der Variant Effect Predictor (VEP) für alle unterstützten Arten.

NCBI Gene Database: Gene integriert Informationen von einer Vielzahl von Arten. Ein Datensatz kann die Nomenklatur, Referenzsequenzen (RefSeqs), Karten, Pfade, Variationen, Phänotypen und Links zu genom-, phänotyp- und lokusspezifischen Ressourcen weltweit umfassen.

Gene Ontology Resource: Die Wissensdatenbank für Gen-Ontologie (GO) ist die weltweit größte Quelle für Informationen über die Funktionen von Genen. Dieses Wissen ist sowohl menschenlesbar als auch maschinenlesbar und bildet die Grundlage für die rechnergestützte Analyse von groß angelegten molekularbiologischen und genetischen Experimenten in der biomedizinischen Forschung.

2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository / Johns Hopkins CSSE: Die 2019-nCoV Datenbank liefert die Daten der COVID-19 Weltkarte der John-Hopkins-Universität, die die Ausbreitung des Coronavirus in Echtzeit visualisiert. Neben dem Center for Systems Science and Engineering wird das Projekt vom ESRI Living Atlas Team sowie vom Labor für angewandte Physik der (JHU APL) der Universität unterstützt.

United Nations World Population Prospects 2019: Der UN-Report (Version 26) liefert die offiziellen Zahlen der Weltbevölkerung aus 2019 zur Verfügung. Erstellt wurde die Statistik von der Abteilung Bevölkerung des Departements für wirtschaftliche und soziale Angelegenheiten.

Unterstützung & Anwendungsfälle gesucht

Der COVID-19-Knowledge-Graph ist jedoch keine Ist-Aufnahme, sondern soll sich ständig weiterentwickeln. Neue Datensätze werden kontinuierlich eingepflegt. Vor kurzem wurde ein interaktiver Browser in Kombination mit neuen Visualisierungsmöglichkeiten entwickelt, um die Daten anschaulich aufzubereiten. COVID-19 relevante Patente können mittlerweile auch über ein Dashboard durchsucht werden. Die Visualisierungs-App ermöglicht es, wissenschaftliche Arbeiten und Publikationen, die sich gegenseitig referenzieren, von den gleichen Autoren geschrieben wurden oder über die gleichen Gene sprechen, iterativ zu erforschen. Für die Publikationen können Abstracts und Volltext, soweit verfügbar, direkt in der App eingesehen werden.

Die Visualisierungs-App ermöglicht es, wissenschaftliche Arbeiten und Publikationen iterativ zu erforschen.(Bild: Neo4j) — Die Visualisierungs-App ermöglicht es, wissenschaftliche Arbeiten und Publikationen iterativ zu erforschen.
(Bild: Neo4j)

Im nächsten Schritt geht es dem Team darum, relevante Use Cases ausfindig zu machen und diese gemeinsam mit Entwicklern und Wissenschaftlern in der Praxis zu testen. Die potenziellen Anwendungsfälle sind vielfältig. So lässt sich beispielsweise eine Liste von Genen (Gensymbol) gemäß ihrer Häufigkeit in Publikationen und/oder Patentschriften erstellen. Anwender können zudem die transkribierten Proteine eines bestimmten Gens identifizieren sowie alle Publikationen/Patente bestimmen, die dieses Protein erwähnen. Das gleiche gilt für Erwähnungen von bestimmten Virustypen wie H1N1 oder Mers-COV. Wissenschaftler, Forscher und Entwickler sind eingeladen sich am Projekt zu beteiligen und die Initiatoren über die COVID*Graph Webseite zu kontaktieren.

Artikelfiles und Artikellinks

Link: COVID*Graph

(ID:46545605)