Kommentar von Dirk Möller, Neo4j COVID-19 Knowledge Graph – Daten verknüpfen, gemeinsam forschen

Von Dirk Möller |

Anbieter zum Thema

In der medizinischen Forschung und bei der Entwicklung von Medikamenten sind Graphdatenbanken bereits weit verbreitet. Wie relevant die Technologie angesichts der Coronavirus-Krise werden könnte, zeigt das Projekt COVID*Graph.

Der Autor: Dirk Möller ist Area Director of Sales CEMEA, Neo4j
Der Autor: Dirk Möller ist Area Director of Sales CEMEA, Neo4j
(Bild: Steffen Urban)

Wissenschaftler, Entwickler und Data Scientists begannen Anfang März mit dem Aufbau eines Knowledge-Graphen, in dem Forschungsdaten über COVID-19 aus unterschiedlichen öffentlichen Quellen in einer Datenbank zentral verknüpft und abgefragt werden können. Unterstützt wird das gemeinnützige Projekt u. a. vom Deutschen Zentrum für Diabetesforschung (DZD) sowie den Datenanalytik- und Graph-Experten u. a. von Kaiser & Preusse, Prodyna, Structr und yworks.

Ziel ist es, Forschenden einen freien und unkomplizierten Zugriff auf die weltweit wachsende Datenmenge rund um COVID-19 zu ermöglichen. Wichtige Erkenntnisse über Verbreitung und Krankheitsverlauf des Virus sollen so möglichst schnell geteilt werden, um Krankheitsmechanismen zu verstehen und letztendlich der Entwicklung von Medikamenten und Impfstoffen einen Schritt näher zu kommen.

Zentrales Datenmanagement in der Graphdatenbank

Dazu werden wissenschaftliche Publikationen und Forschungsarbeiten in die Graphdatenbank Neo4j integriert, um einen COVID-19-Wissens-Hub zu schaffen. Verknüpft werden öffentlich zugängliche Datenquellen zum Coronavirus, aktuelle und bestehende Patentschriften, demografische Statistiken sowie Datensätze aus Genom- und molekularbiologischen Datenbanken. Das Verknüpfen großer Datensätze und ihre Auswertung erlaubt neue Einblicke und liefert Forschern Ansätze und Hypothesen für ihre weitere Arbeit.

„Der COVID*Graph ist die Datengrundlage, mit der Forscher und Wissenschaftler schnell und ohne große technische Vorkenntnisse arbeiten können. Dafür sorgt die anschauliche Visualisierung und das intuitive Modell aus Knoten und Kanten“, erklärt Dr. Martin Preusse, Gründer von Kaiser & Preusse und Mitinitiator des COVID*Graph-Projekts. „Momentan besteht die Aufgabe darin, die Prozesse, die bei einer Infektion mit dem Coronavirus im menschlichen Körper ablaufen, zu verstehen. Warum ist dieses Virus so ansteckend? Warum kommt es zu so starken Komplikationen? Und warum sind bestimmte Risikogruppen besonders betroffen? Jedes Muster und jede Auffälligkeit innerhalb der Daten könnte einen neuen Hinweis liefern und die Forschung in die richtige Richtung vorantreiben.“

Kanten und Knoten in der Forschung

Knowledge-Graphen sind semantische Wissensdatenbanken, in denen eine große Anzahl heterogener Daten aus unterschiedlichen Quellen gespeichert, verknüpft und abgefragt werden können. Einzelne Daten werden als Knoten dargestellt, die Verbindung zwischen den Knoten als Linien bzw. Kanten. Beiden kann eine beliebige Anzahl von qualitativen oder quantitativen Eigenschaften zugewiesen werden, z. B. der Zeitraum einer Studie. Diese Art der Darstellung gibt auch komplexe Zusammenhänge verständlich und anschaulich wieder und ermöglicht es, Zusammenhänge aufzudecken und Muster zu erkennen.

Screenshot COVID*Graph
Screenshot COVID*Graph
(Bild: Neo4j)

Zum Einsatz kommen Knowledge-Graphen in den unterschiedlichsten Branchen und für die verschiedensten Anwendungsfälle. In der medizinischen Forschung schaffen Graphdatenbanken die technologische Grundlage, um einrichtungs- und disziplinübergreifend Erkenntnisse über Krankheiten wie Diabetes, Herz-Kreislauf-Erkrankungen oder Krebs zu gewinnen. Die Vernetzung unabhängiger Datensilos ist hier ein zentrales Thema. Institute und Einrichtungen verfügen über immense heterogene Datenmengen, verteilt auf unterschiedliche Standorte. Dazu gehören neben Daten aus der Grundlagenforschung auch öffentlich zugängliche Informationen aus klinischen Studien, Berichten und internationalen Forschungsvorhaben.

Das ist auch bei COVID-19 der Fall. „Die Familie der Coronaviren ist ja nicht ganz neu. Es gibt bereits sehr viele Arbeiten, die sich mit Ausbreitung und Krankheitsverlauf des Virus beschäftigen. In den letzten Monaten ist hier jedoch in sehr kurzer Zeit, sehr viel zusätzliches Material publiziert worden“, erklärt Dr. Alexander Jarasch, Leiter Bioinformatik und Datenmanagement des Deutschen Zentrum für Diabetesforschung, der das COVID*Graph-Projekt mit ins Leben gerufen hat. „Bei dieser Flut an Daten ist es für Wissenschaftler schwer, den Überblick zu behalten und tatsächliche relevante Informationen für ihre Arbeit herauszufiltern. Hinzu kommt, dass der Großteil der Arbeiten noch von keiner Peer-Group geprüft und diskutiert werden konnte. Mehr Daten heißt also nicht zwangsläufig mehr Wissensgewinn. Daher ist es so wichtig auf eine Technologie zurückgreifen zu können, die beispielsweise Texte selbstständig einliest, vorab kategorisiert, in ein Datenmodell überträgt und komplexe Abfragen erlaubt.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Öffentliche Datensilos vernetzten

Derzeit umfasst der Knowledge-Graph mehr als 10 Millionen Knoten und über 25 Millionen Kanten und bezieht Daten aus unterschiedlichen öffentlichen Datenbanken. Dazu gehören:

  • COVID-19 Open Research Dataset (CORD-19): Im Kampf gegen COVID-19 hat das Allen Institute for AI mit führenden Forschungsgruppen eine Datenbank mit mehr als 44.000 frei zugänglichen wissenschaftlichen Publikationen über COVID-19 und die Coronaviren-Familie. Über 29.000 der Dokumente liegen als Volltext vor.
  • Lens COVID-19 Dataset: In der Lens-Datenbank finden sich freie Datensätze von Patentschriften, Metadaten wissenschaftlicher Forschungsarbeiten sowie biologischer Sequenzen aus Patenten. Die Dokumente sind in maschinenlesbarer und explorierbarer Form hinterlegt.
  • Ensembl Genome Browser: Ensembl ist ein Browser, der sich auf das Genom von Wirbeltieren spezialisiert hat, und vergleichende Forschung im Bereich Genomik, Evolution, Sequenzvariation und Transkriptionsregulation unterstützt. Ensembl annotiert Gene, berechnet Multiple Sequenzalignments, prognostiziert Regulationsabläufe und sammelt Krankheitsdaten. Zu den Ensembl-Tools gehören BLAST, BLAT, BioMart und der Variant Effect Predictor (VEP) für alle unterstützten Arten.
  • NCBI Gene Database: Gene integriert Informationen von einer Vielzahl von Arten. Ein Datensatz kann die Nomenklatur, Referenzsequenzen (RefSeqs), Karten, Pfade, Variationen, Phänotypen und Links zu genom-, phänotyp- und lokusspezifischen Ressourcen weltweit umfassen.
  • Gene Ontology Resource: Die Wissensdatenbank für Gen-Ontologie (GO) ist die weltweit größte Quelle für Informationen über die Funktionen von Genen. Dieses Wissen ist sowohl menschenlesbar als auch maschinenlesbar und bildet die Grundlage für die rechnergestützte Analyse von groß angelegten molekularbiologischen und genetischen Experimenten in der biomedizinischen Forschung.
  • 2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository / Johns Hopkins CSSE: Die 2019-nCoV Datenbank liefert die Daten der COVID-19 Weltkarte der John-Hopkins-Universität, die die Ausbreitung des Coronavirus in Echtzeit visualisiert. Neben dem Center for Systems Science and Engineering wird das Projekt vom ESRI Living Atlas Team sowie vom Labor für angewandte Physik der (JHU APL) der Universität unterstützt.
  • United Nations World Population Prospects 2019: Der UN-Report (Version 26) liefert die offiziellen Zahlen der Weltbevölkerung aus 2019 zur Verfügung. Erstellt wurde die Statistik von der Abteilung Bevölkerung des Departements für wirtschaftliche und soziale Angelegenheiten.

Unterstützung & Anwendungsfälle gesucht

Der COVID-19-Knowledge-Graph ist jedoch keine Ist-Aufnahme, sondern soll sich ständig weiterentwickeln. Neue Datensätze werden kontinuierlich eingepflegt. Vor kurzem wurde ein interaktiver Browser in Kombination mit neuen Visualisierungsmöglichkeiten entwickelt, um die Daten anschaulich aufzubereiten. COVID-19 relevante Patente können mittlerweile auch über ein Dashboard durchsucht werden. Die Visualisierungs-App ermöglicht es, wissenschaftliche Arbeiten und Publikationen, die sich gegenseitig referenzieren, von den gleichen Autoren geschrieben wurden oder über die gleichen Gene sprechen, iterativ zu erforschen. Für die Publikationen können Abstracts und Volltext, soweit verfügbar, direkt in der App eingesehen werden.

Die Visualisierungs-App ermöglicht es, wissenschaftliche Arbeiten und Publikationen iterativ zu erforschen.
Die Visualisierungs-App ermöglicht es, wissenschaftliche Arbeiten und Publikationen iterativ zu erforschen.
(Bild: Neo4j)

Im nächsten Schritt geht es dem Team darum, relevante Use Cases ausfindig zu machen und diese gemeinsam mit Entwicklern und Wissenschaftlern in der Praxis zu testen. Die potenziellen Anwendungsfälle sind vielfältig. So lässt sich beispielsweise eine Liste von Genen (Gensymbol) gemäß ihrer Häufigkeit in Publikationen und/oder Patentschriften erstellen. Anwender können zudem die transkribierten Proteine eines bestimmten Gens identifizieren sowie alle Publikationen/Patente bestimmen, die dieses Protein erwähnen. Das gleiche gilt für Erwähnungen von bestimmten Virustypen wie H1N1 oder Mers-COV. Wissenschaftler, Forscher und Entwickler sind eingeladen sich am Projekt zu beteiligen und die Initiatoren über die COVID*Graph Webseite zu kontaktieren.

Artikelfiles und Artikellinks

Link: COVID*Graph

(ID:46545605)