Big Data im Darm

Neue Ansätze zur Analyse biomedizinischer Mikrobiomdaten

| Autor / Redakteur: PD Dr. Jens Christian Claussen und Prof. Dr. Marc-Thorsten Hütt* / Nico Litzel

Abb. 1: Illustration von Darmepithelzellen mit wechselwirkenden Mikroorganismen des Mikrobioms.
Abb. 1: Illustration von Darmepithelzellen mit wechselwirkenden Mikroorganismen des Mikrobioms. (Bild: ©Alex - stock.adobe.com)

Das Mikrobiom von gesunden und erkrankten Menschen ist ein Datenpool mit hohem Potenzial. Dabei geht es vor allem auch um das tiefe Verständnis der Interaktionen einer Vielzahl von Bakterienarten untereinander und mit den Darmzellen. Hier sind neue Ansätze der Datenanalyse gefragt.

In den letzten Jahren ist durch eine Vielzahl empirischer Studien deutlich geworden, dass das Ensemble von Mikroorganismen im menschlichen Darm, ihre Wechselwirkungen untereinander und mit den Darmzellen, also das Mikrobiom, von großer klinischer Bedeutung sind.

Es sind (mit heutigen Methoden) etwa N = 500 verschiedene Taxa (auf der phylogenetischen Ebene der Gattung) in einem typischen Mikrobiom nachweisbar. Eine der aktuell wichtigsten öffentlichen Datenbanken zu Mikrobiomzusammensetzungen, das US-amerikanische Human Microbiome Project, enthält zum Beispiel über 2200 Mikrobiome aus Stuhlproben [1]. Zur Zeit werden zudem Mikrobiomzusammensetzungen aus einer Vielzahl klinischer Studien verfügbar, sodass die Rolle des Mikrobioms im klinischen Kontext immer fundierter untersucht werden kann.

Kombinatorisch bestehen damit N(N–1)/2 Interaktionsmöglichkeiten („jeder mit jedem“), die vorliegen oder fehlen und, falls sie vorliegen, zudem positiv (synergetisch) oder negativ (kompetitiv) sein können. Damit sind 3 hoch N(N-1)/2 verschiedene Netzwerke möglich, das wären bereits mehr Möglichkeiten als im Weltall Atome vermutet werden.

Auf einer etwas mikroskopischeren Ebene, nämlich im Metabolismus dieser Mikroorganismen, lassen sich die Interaktionen auf den Austausch von und den Wettbewerb um chemische Stoffe herunterbrechen. Diese Spezies spannen so ein riesiges Netzwerk vieler tausend biochemischer Reaktionen auf. Über Sekretion und Aufnahme chemischer Substanzen sind die Spezies untereinander und mit den sie umgebenden Darmzellen verzahnt. Eine kürzliche Studie [2] schätzt auf der Grundlage der aktuellen (immer noch unvollständigen) Kenntnis metabolischer Reaktionen etwa 2300 solche metabolische Wechselwirkungen als Fundament der beschriebenen mikrobiellen Interaktionsnetzwerke und etwa 700 metabolische Wechselwirkungen der Mikroorganismen mit den menschlichen Darmzellen.

Das Mikrobiom ist also ein komplexes, mit dem Darm verzahntes System, das von hoher Bedeutung für die Gesundheit ist. Und durch die Kombinatorik der Interaktionen, durch die aktuell explodierende Datengrundlage von Mikrobiomzusammensetzungen und durch sein metabolisches Fundament ist das Mikrobiom zudem ein Beispiel für „Big Data“ in der Biologie.

Ergänzendes zum Thema
 
LP-Tipp – zum Mikrobiom

Automatische statistische Mikrobiomanalyse

Moderne Sequenziertechnik hat in der Biologie längst das Zählen und Zeichnen ersetzt – anstelle des Mikroskopierbildes treten 16S rRNA-Sequenzierdaten die mit Standardmethoden in Taxa klassifiziert werden.

Mit den so gewonnenen Häufigkeitstabellen erhält man ein Datenformat, bei dem jede einzelne Probe zu einem Abundanz- oder Häufigkeitsvektor führt. In biomedizinischen Datenbanken werden nun sehr viele dieser Dateneinträge gesammelt und können, bei medizinischen Daten systematisch anonymisiert, nach Phänotypen und weiteren Annotationen selektiert und extrahiert werden. Für jeden dieser Datensätze ergibt sich damit die Möglichkeit, die Auftretensmuster der Mikroorganismen systematisch zu studieren und zu analysieren.

Daraus ergeben sich allerdings einige statistische Fallstricke, denn die feine Auflösung der über 500 Gattungen ergibt bereits 499 x 500 / 2 Paare von Gattungen, deren gemeinsames Auftreten oder deren Verdrängung zu untersuchen wären. Es ist offensichtlich, dass hier eine enorme Zahl von Proben zu vergleichbaren Versuchsbedingungen genommen werden müsste, um über eine klassische Korrelationsanalyse zu signifikanten Ergebnissen zu gelangen. Zudem sind die Mikroorganismen in ihrer Häufigkeit sehr unterschiedlich und gerade die seltener vorkommenden Organismen („the rare biosphere“ [2]) sind medizinisch oft von besonderem Interesse.

Um ein stärkeres statistisches Signal zu erhalten, können die Mikroorganismen aber auf einem höheren taxonomischen Level zusammengefasst werden, etwa Familie, Ordnung oder Stamm (Phylum). Jeder Vergröberungsschritt führt dabei zwar zu einem statistisch stärkeren Signal, jedoch unter Verlust, die Ergebnisse funktionell feiner zu interpretieren. Zum Beispiel würde das bekannte Bakterium Escherichia coli auf dieser Ebene mit anderen Enterobakterien zusammen als ein Taxon betrachtet, die möglicherweise vollkommen andere metabolische Nischen besetzen. Klinisch ist aber von besonderem Interesse, welche Substanzen von den Mikroorganismen im Darm abgebaut werden und welche Stoffe dabei erzeugt werden, die wiederum für den Wirtsorganismus von Bedeutung sind.

Geht man auf die gröbste Ebene, die in solchen Daten typischerweise zur Verfügung steht, das Phylum, findet man daher aus einer Korrelationsanalyse zunächst eine starke Antikorrelation von Bacteriodetes und Firmicutes, was nicht verwunderlich ist, da diese bis zu 90 Prozent der Darmflora bevölkern und alle anderen Stämme fast sicher an den Rand der Beobachtbarkeit drücken. Unter den anderen Bakterienstämmen sind die Korrelationen dann bereits so wenig signifikant, dass die Grenzen dieser statistischen Methodik offensichtlich werden. Da gerade die seltenen Bakterien von besonderem Interesse sind, ist es also eine besondere Herausforderung, aus dieser Art von Daten trotzdem Informationen abzuleiten. Dieser Aufgabenstellung widmet sich unsere Analysemethode.

Eine Schlüsselfrage ist, welche Interaktionen (aus der großen Zahl der Möglichkeiten) in den experimentellen Daten tatsächlich wirksam werden. Diese Frage wurde in einer kürzlich erschienenen Arbeit [3] der Autoren adressiert.

Boole, Informationstheorie und dynamische Netzwerke

Im Gegensatz zu einer Vielzahl von Analysen zu mikrobiellen Interaktionen wird hier nur die Information über das Fehlen oder Vorhandensein eines bestimmten Taxons in einer Probe verwendet. Auf diese Weise liegt der Schwerpunkt der Datenanalyse nicht auf den (starken) Fluktuationen der sehr häufigen Taxa, sondern auf den großen Unterschieden in der Zusammensetzung des individuellen Mikrobioms – und dabei besonders auf den Taxa mit niedriger Häufigkeit.

Es wird also die Eigenschaft einer binären Matrix ausgewertet, in der die Spalten die Taxa und die Zeilen die Proben repräsentieren. Konkret wird gemessen, ob sich Paare binärer Vektoren (Spalten der Ma­trix) für zwei Taxa unter Kombination vereinfachen.

Führt die logische Kombination der Vektoren über ein logisches UND zu einem einfachen Vektor mit unerwartet vielen Nullen, scheint es eine negative Interaktion zwischen den beiden Taxa zu geben. Enthält der resultierende Vektor vereinfacht viele Einsen, so spricht dies für eine positive Interaktion. Das präzise Fundament für diese Betrachtungsweise wird in [3] gelegt. Abbildung 2 illustriert dieses Verfahren an einem Beispiel. Der zugehörige Analysealgorithmus, ESABO (die Abkürzung steht für Entropy Shift of Abundance Vectors under Boolean Operations, also Entropieänderung von Abundanzvektoren unter Booleschen Operationen) wird in dem ergänzenden Material zu [3] zur Verfügung gestellt.

Um zu validieren, dass die ESABO-Methode Interaktionsnetzwerke rekonstruieren kann, wurden zufällige Interaktionsnetzwerke erzeugt [3]. Das dynamische Modell beinhaltet in diesem Fall eine „Mehrheitsabstimmung“ an jedem Knoten des Netzwerks zwischen den positiven und negativen Nachbarn. Dies entscheidet, ob der Knoten im nächsten Zeitschritt an- oder ausgeschaltet wird (Details siehe [3]). Die Auftretensmuster (oder „Proben“), wie sie dann für die ESABO-Analyse verwendet werden, sind die asymptotischen (langzeitstabilen) Zustände des Systems, die aus 1000 zufällig gewählten Anfangskonfigurationen entstehen. Aus den Häufigkeiten der so erzeugten Zustände, die als künstlich simulierte Messwerte betrachtet werden können, wurde mittels der ESABO-Methode das Interaktionsnetzwerk geschätzt und eine insgesamt sehr gute Übereinstimmung gefunden.

Die ESABO-Methode ist durch ihre einfache Berechnungsweise und durch die vorhergehende Reduktion auf binarisierte Daten besonders interessant, wenn es um große Datenmengen geht. Die Zahl der notwendigen Rechenschritte skaliert dabei lediglich vergleichbar mit einer einfachen Korrelationsanalyse.

Forschung und klinische Anwendung verzahnen

Betrachtet man den weiten Bereich der Big Data, sollte man es nicht bei der reinen Datenanalyse und bei dem Sichtbar-Machen von „Mustern“ in den Daten belassen. Auf dem Gebiet der Mikrobiomforschung zeigen sich aktuell deutliche Fortschritte bei dem Versuch, ein tiefes theoretisches Verständnis dieses komplexen und fundamental wichtigen Systems zu erlangen.

Zukünftige Daten werden dabei helfen, die beiden eingangs skizzierten Ebenen – das auf Synergien und Wettbewerb basierende mikrobielle Interaktionsnetzwerk und die durch die Mikroorganismen implementierten metabolischen Wechselwirkungen – miteinander zu verbinden. Die präzise metabolische Modellierung mikrobieller Organismen, die hierfür eine wichtige Voraussetzung darstellt, wurde kürzlich in einer viel beachteten Publikation bereitgestellt [4].

Über solche Modelle können sich die durch die ESABO-Methode aus [3] gewonnenen mikrobiellen Interaktionsnetze überprüfen lassen. Jenseits des praktischen Nutzens für die Interpretation von Mikrobiomdaten aus klinischen Studien können über die ESABO-Methode auf diese Weise mikroskopisch validierte Konsensnetzwerke entstehen, die Aufschluss über die Organisationsprinzipien des Mikrobioms geben.

Danksagung: Die Autoren danken dem Bundesministerium für Bildung und Forschung (BMBF) für die finanzielle Unterstützung im Rahmen des e:med-Programms (sysINFLAME Konsortium; Fördernummer 01ZX1306D).

Literatur:

[1] Human Microbiome Project, https://portal.hmpdacc.org

[2] Heinken, K., and Thiele, I. (2015) Systematic prediction of health- relevant human microbial co-metabolism through a computational framework, Gut Microbes 6, 120–130. doi:10.1080/19490976.2015.1023494

[3] Claussen, JC., Skiecevicene, J., Wang, J., Rausch, P., Karlsen, T., Lieb, W., Baines, JF., Franke, A., and Hütt, MT. (2017). Boolean analysis reveals systematic interactions among low-abundance species in the human gut microbiome. PLOS Computational Biology 13.6: e1005361. doi:10.1371/journal.pcbi.1005361

[4] Magnúsdóttir, S. et al. (2017) Generation of genome-scale metabolic reconstructions for 773 members of the human gut microbiota. Nature Biotechnology 35, 81-89. doi:10.1038/nbt.3703

Dieser Artikel stammt von unserem Partnerportal Laborpraxis. Verantwortliche Redakteurin: Dr. Ilka Ottleben

* PD Dr. J. C. Claussen und Prof. Dr. M.-T. Hütt: Department of Life Sciences and Chemistry, Jacobs University, 28759 Bremen

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44965616 / Best Practices)