Kommentar von Daniel Haake, The unbelievable Machine Company Data Science liefert valide Erkenntnisse zu COVID-19

Von Daniel Haake

Anbieter zum Thema

Die offiziellen Statistiken unterschiedlicher Länder suggerieren voneinander abweichende Werte für die Letalität zu COVID-19 – teils in dramatischer Höhe. Doch welche Zahlen stimmen? Worauf ist Verlass? Repräsentative Untersuchungen können zuverlässigere Zahlen liefern und uns dabei helfen, korrekte Rückschlüsse zu ziehen.

Der Autor: Daniel Haake ist Data Scientist bei The unbelievable Machine Company
Der Autor: Daniel Haake ist Data Scientist bei The unbelievable Machine Company
(Bild: The unbelievable Machine Company)

Für Datenwissenschaftler ist es wünschenswert, dass Daten möglichst vollständig und genau erhoben werden und damit möglichst fehlerfrei sind. Auf diese Weise wird sichergestellt, dass aus den Daten korrekte Informationen abgeleitet werden können und somit die Möglichkeit von Fehlinterpretationen minimiert wird. Es stellt sich daher die Frage, ob dieser wünschenswerte Zustand auch auf die Daten zu COVID-19 zutrifft.

Nach der anfänglichen Empfehlung des Robert-Koch-Instituts (RKI) sollten Personen auf COVID-19 getestet werden, die den nachfolgenden Kriterien entsprechen:

  • Wer Erkältungsbeschwerden hat und innerhalb der 14 Tage vor Erkrankungsbeginn Kontakt zu einem bestätigten COVID-19-Fall hatte oder
  • wer Erkältungsbeschwerden hat und sich in den 14 Tagen vor Beginn der Beschwerden in einem Risikogebiet aufgehalten hat.

Kann dieses Vorgehen jedoch dazu führen, dass wirklich alle COVID-19-Fälle bekannt gemacht werden und damit die offizielle Zahl der Infektionen korrekt ist?

Könnte man tatsächlich alle Kontaktpersonen eines Infizierten ausfindig machen, wäre das denkbar. Das Virus hat eine mittlere Inkubationszeit von 5 bis 6 Tagen, wobei die Spannweite sogar von 1 bis zu 14 Tagen reichen kann. Erst nach mehreren Tagen macht sich somit eine Infektion bemerkbar. Zu Beginn der Pandemie konnten so Infizierte, die nichts von ihrer Infektion wussten, den eng besetzten ÖPNV nutzen und an Veranstaltungen teilnehmen, die einen engen Personenkontakt ermöglichen, wie etwa Fuballstadien- oder Diskothekenbesuche. Anfänglich wurden diese Personen auch bei Auftreten von Symptomen nicht getestet, wenn sie nicht mit einem nachweislich Infizierten in Kontakt waren oder aus einem Risikogebiet zurückgekehrt waren. Viele Infizierte konnten so nicht entdeckt werden.

Repräsentative Untersuchungen

Um einen Überblick darüber zu erhalten, wie viele Personen tatsächlich infiziert sein dürften, bedarf es repräsentativer Studien. Als erste Datenbasis bieten sich die Fälle auf Kreuzfahrtschiffen und Flugzeugträgern an, auf denen COVID-19 aufgetreten ist. Auf der „Diamond Princess“ und „Charles de Gaulle wurden alle Personen getestet, auf der „USS Theodore Roosevelt“ rund 94 Prozent der Personen. Allerdings muss berücksichtigt werden, dass beim Kreuzfahrtschiff das Medianalter bei knapp 60 Jahren lag und damit höher als in der Bevölkerung. Bei den Flugzeugträgern hingegen waren durchschnittlich jüngere, gesunde Personen an Bord. Eine Altersbereinigung ist daher notwendig, um die Ergebnisse auf die Gesamtbevölkerung übertragen zu können.

In Island wurden parallel zu den Tests durch die isländischen Behörden auch Tests durch die Forschungsinstitution deCode Genetics durchgeführt. Im Unterschied zu den isländischen Behörden, die nur Personen mit Symptomen getestet haben, wurden die getesteten Personen durch deCode Genetics zufällig ausgewählt. Dadurch ist ein repräsentativer Blick auf die Gesamtbevölkerung möglich.

Weiterhin gibt es eine Untersuchung in Santa Clara County, Kalifornien, die von der Stanford University School of Medicine durchgeführt wurde. Dabei wurden Blutproben von 3.300 Personen getestet. Die Personen wurden über eine Werbeschaltung auf Facebook kontaktiert. Sie mussten außerdem über ein Fahrzeug verfügen, um zu den Teststationen fahren zu können. Die Autoren der Untersuchung schreiben hierzu, dass dies zu einer Überrepräsentation von weißen Frauen im Alter von 19 bis 64 Jahren geführt hat.

Die „Heinsberg-Studie“

Seit Kurzem gibt es auch eine repräsentative Untersuchung aus Deutschland. Durch das Universitätsklinikum Bonn wurden in der besonders stark betroffenen Gemeinde Gangelt im Kreis Heinsberg etwa 1.000 Personen sowohl auf das Vorhandensein des Virus als auch auf das Vorhandensein von Antikörpern untersucht. Die Studie läuft noch, allerdings wurde bereits ein erstes Zwischenergebnis nach ca. 500 ausgewerteten Personen bekannt gemacht.

Nach Bekanntgabe der Zwischenergebnisse wurde erste Kritik laut. So wurde von Prof. Dr. Drosten Kritik geäußert, dass es bisher nur einen Test gibt, der zuverlässig COVID-19-Antikörper nachweisen kann und gleichzeitig nicht auf andere, harmlose Corona-Viren anschlägt. Aus den Zwischenergebnissen sei jedoch keine Information zum verwendeten Test mitgeteilt worden. Nachdem Prof. Dr. Drosten Kontakt mit dem Studienleiter Prof. Dr. Streeck hatte, geht auch er nun von einer „extrem soliden, robusten Studie“ aus.

Infizierte ohne oder mit milden Symptomen

Sowohl beim Kreuzfahrtschiff „Diamond Princess“ und dem Flugzeugträger „Charles de Gaulles“ als auch bei den Proben der isländischen Forschungsinstitution deCode Genetics fiel auf, dass rund die Hälfte der Infizierten keine Symptome aufwiesen. Beim Flugzeugträger „USS Theodore Roosevelt“ waren es sogar 60,7 Prozent. Das verdeutlicht, wie unbemerkt sich das Virus in der Gesellschaft verbreiten kann. Bedenkt man dabei die anfängliche Empfehlung des RKI, dass eine Person neben Symptomen auch noch zusätzlich mit einem nachweislich Infizierten in Kontakt gewesen oder zumindest aus einem Risikogebiet zurückgekehrt sein muss, lässt das auf eine hohe Dunkelziffer schließen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Letalität

Schaut man sich die offiziellen Letalitätswerte der einzelnen Länder an, fallen große Abweichungen auf. Stand 29. April 2020 wurde die Letalität in Deutschland mit 3,94 Prozent angegeben, weltweit mit 6,96 Prozent und in Belgien sogar mit 15,67 Prozent.

Offizielle Letalitätsrate zu COVID-19 nach einzelnen Ländern (Stand 29.04.2020)
Offizielle Letalitätsrate zu COVID-19 nach einzelnen Ländern (Stand 29.04.2020)
(Bild: Daniel Haake)

Doch kann das gleiche Virus in unterschiedlichen Ländern zu so unterschiedlichen Werten der Letalität führen?

Eigentlich ist davon auszugehen, dass ein Virus bei ähnlicher medizinischer Versorgung auch ähnlich tödlich ist. Dazu muss man sich vor Augen halten, wie die Letalität berechnet wird: Sie ergibt sich, indem die Anzahl der Todesfälle bei nachgewiesenen COVID-19-Infizierten ins Verhältnis mit der Anzahl nachgewiesener COVID-19-Infizierter gesetzt wird. Gibt es in den einzelnen Ländern aufgrund der unterschiedlichen Testgegebenheiten eine unterschiedlich hohe Dunkelziffer an Infizierten, führt dies automatisch zu unterschiedlich berechneten Werten für die Letalität.

Bei der Untersuchung in Gangelt konnte festgestellt werden, dass bereits 15 Prozent der Bevölkerung in Gangelt entweder aktuell oder in der Vergangenheit das Virus in sich getragen haben. Getestet wurden 509 Personen, sodass rechnerisch ungefähr 76 Personen das Virus in sich getragen haben müssen. Eine genaue Zahl wurde bei der Präsentation der Zwischenergebnisse nicht angegeben.

Schaut man sich die Betaverteilung zu den Infizierten an, stellt man fest, dass der tatsächliche Wert für den prozentualen Anteil mit einer Genauigkeit von 95 Prozent im Bereich zwischen 12 und 18 Prozent liegt. Der wahrscheinlichste Wert für den Anteil an Infizierten in Gangelt liegt demnach bei 14,79 Prozent.

Betaverteilung zum Anteil Infizierter in Gangelt mit alpha=76 und beta=433
Betaverteilung zum Anteil Infizierter in Gangelt mit alpha=76 und beta=433
(Bild: Daniel Haake)

Sicherlich kann der Wert von 15 Prozent Infizierten nicht auf das gesamte Bundesgebiet übertragen werden, da Gangelt besonders stark betroffen war. Jedoch kann der Wert für die Letalität unter Berücksichtigung des statistischen Fehlers auf Deutschland übertragen werden.

Infizierte (hochgerechnet) laut Zwischenergebnis der Studie zu Gangelt
Infizierte (hochgerechnet) laut Zwischenergebnis der Studie zu Gangelt
(Bild: Daniel Haake)

Bei den Zwischenergebnissen zur Untersuchung in Gangelt wurde eine Letalität von 0,37 Prozent angegeben. Bei Betrachtung der Betaverteilung kann mit einer Genauigkeit von 95 Prozent davon ausgegangen werden, dass die tatsächliche Letalität zwischen 0,15 und 0,69 Prozent liegt. Die Dichtefunktion ist augenscheinlich linkssteil/rechtsschief. Das führt dazu, dass der wahrscheinlichste Wert für die Letalität mit 0,32 Prozent unter der berechneten Letalität von 0,37 Prozent liegt.

Betaverteilung zur Letalität in Gangelt mit apha=7 und beta=1872
Betaverteilung zur Letalität in Gangelt mit apha=7 und beta=1872
(Bild: Daniel Haake)

Berechnet man die Betaverteilung auch für die untere und die obere Grenze des Konfidenzintervalls bzgl. der Anzahl an Infizierten in Gangelt, kann zusammenfassend gesagt werden, dass sich die durchschnittliche Letalität zwischen 0,31 und 0,47 Prozent, die wahrscheinlichste Letalität bei 0,26 bis 0,4 Prozent und die Spannweite der Letalität sich über einen Bereich von 0,12 Prozent bis 0,87 Prozent erstreckt.

Die wahrscheinliche Letalität von 0,32 Prozent liegt deutlich unter den Werten, die den offiziellen Statistiken entnommen werden können. Dieser Wert liegt zwischen den Erkenntnissen auf den Flugzeugträgern „Charles de Gaulles“ und „USS Theodore Roosevelt“ (0,06 Prozent bei jüngerer, gesünderer Personengruppe) bzw. im Santa Clara County (0,12 bis 0,2 Prozent) und den Erkenntnissen auf dem Kreuzfahrtschiff „Diamond Princess“ (altersbereinigt 0,5 Prozent , Konfidenzintervall: 0,25 bis 0,75 Prozent ). Daher erscheint der in Gangelt berechnete Wert als plausibel.

Mithilfe der ermittelten Letalität kann nun abgeschätzt werden, wie viele Personen in Deutschland tatsächlich bereits mit COVID-19 infiziert waren oder sind. Laut der Johns-Hopkins-Universität gab es in Deutschland am 30. April 2020 insgesamt 6.467 Tote unter den 161.539 nachgewiesenen COVID-19-Infizierten [13].

Bei der in Gangelt berechneten Letalität von 0,37 Prozent bedeutet dies auf ganz Deutschland übertragen allerdings, dass bereits 1.747.838 Personen (ca. 2,1 Prozent der Gesamtbevölkerung) in Deutschland mit COVID-19 infiziert waren oder sind. Bei der wahrscheinlichsten Letalität von 0,32 Prozent ergeben sich bereits 2.020.938 Infizierte (ca. 2,4 Prozent der Gesamtbevölkerung). Bei einer Spanne der Letalität von 0,12 bis 0,87 Prozent ergeben sich 743.333 bis 5.389.167 Infizierte (ca. 0,9 bis 6,5 Prozent der Gesamtbevölkerung).

Da sich die Toten bereits vor einiger Zeit mit COVID-19 infiziert haben und zusätzlich ein starker Meldeverzug gegeben ist, handelt es sich dabei um einen Blick in die Vergangenheit. Der aktuelle Wert der Infizierten dürfte daher darüber liegen.

Anzahl Infizierter in Deutschland bei unterschiedlicher Letalität (Stand 30.04.2020)
Anzahl Infizierter in Deutschland bei unterschiedlicher Letalität (Stand 30.04.2020)
(Bild: Daniel Haake)

Fazit

Aus den bereits vorliegenden, repräsentativen Untersuchungen kann die für Gangelt berechnete Letalität als plausibel betrachtet werden. Das zeigt für Deutschland, dass die Dunkelziffer sehr hoch ist und bereits deutlich mehr Menschen infiziert sind, als aufgrund der offiziell gemeldeten Fälle bekannt ist.

Dies zeigt, wie wichtig es ist, möglichst repräsentative Daten zu haben und dass der Wert der offiziell gemeldeten Fälle nicht ausreichend ist. Wünschenswert wäre daher, wenn in kurzen, regelmäßigen Abständen in unterschiedlichen Regionen Deutschlands stichprobenartig Personen auf COVID-19 getestet werden. So kann anhand repräsentativer Daten abgeschätzt werden, wie sich das Virus innerhalb der Bevölkerung tatsächlich ausbreitet. Weiterhin sind großflächig angelegte Untersuchungen auf das Vorhandensein von COVID-19-Antikörpern wünschenswert.

Durch die Untersuchung in Gangelt kann bereits abgeschätzt werden, wie hoch der Anteil Infizierter wirklich ist. Allerdings ist, aufgrund der Testgegebenheiten, die Spanne für die berechnete Letalität noch recht groß. Mit weiteren großangelegten Untersuchungen kann diese statistische Unsicherheit verringert werden. Dadurch kann die Letalität genauer bestimmt und die Anzahl an Infizierten genauer abgeschätzt werden.

Artikelfiles und Artikellinks

(ID:46565299)