+2 Daumen
1,2k Aufrufe

Meine Frage war, ob ein nach den Daten dieser Quelle

https://experience.arcgis.com/experience/09f821667ce64bf7be6f9f87457ed9aa

vorgeschlagenes Modell zur Corona-Epidemie in Schweden was taugt.


Alter Schwede!

Am 23.4. haben die Schweden die Statistik der beiden letzten Wochen - wohl durch Nachmeldungen aus den Provinzen - gegenüber den Daten vom 21.4 um bis zu 33% korrigiert. Die 3 letzten Tage hatte ich sowieso gleich weggelassen, weil ich mit Meldeverzögerungen rechnete. Weil die Änderungen aber so gravierend waren und man mit ähnlichen Korrekturen alle 2 Tage rechnen muss, war alles, was oben stand Makulatur! Deshalb habe ich es einfach gelöscht.


blob.png


Deshalb muss alles nochmal neu überlegt werden:

Man kann erwarten, dass die Seuche ähnlich wie eine Kettenreaktion oder Hefevermehrung verläuft, zuerst ungefähr exponentiell, später begrenzt.
Bei der Kettenreaktion treffen zunächst immer 2 Neutronen auf spaltbare Atomkerme und jedes haut 2 neue Neutronen dort heraus, dann schlagen diese 2 Neutronen 4 heraus usw.. Dann aber fliegt die Bombe einen mm auseinander (social distancing) immer mehr Neutronen treffen schon auf gespaltenes Material oder auf nichts (Immune/Tote/keine weiteren Freunde vorhanden) und erzeugen keine 2 brauchbaren Neutronen mehr. Die Kettenreaktion verebbt. Sag statt Neutron Corona-Virus oder Infizierter:
Zähle in Schweden die Anzahl aller bis zum Zeitpunkt t Corona-Infizierten, I(t)
Dann sollte I(t) so aussehen: 

blob.png
Bild 1


Wie kann man die Anzahl der Infizierten feststellen: geht zunächst nicht!
Man kann sie auch nicht abschätzen: Schweden hat 10 Mio Einwohner, 20 000 positiv getestete, dann gibt es also zwischen 20 000 und 10 Mio Infizierte.
Das einzige, was sicher ist, ist die Anzahl der Todesopfer. Wenn die Behandlung in Schweden überall etwa die gleiche Qualität hat, muss die Anzahl der Summe der Opfer zum Zeitpunkt t proportional zur Anzahl der Infizierten I(t-a) sein, mit a= mittlere Überlebensdauer eines Infizierten vom Tag der Infektion bis zum Todestag.
Also spiegelt die Anzahl der Toten/Tag = A(t) die Anzahl der Infizierten vor - sagen wir mal - 3 Wochen vor t wieder. Am  24.4. wurden folgende Werte für A(t) veröffentlicht:

blob.png
Bild 2


Leider ist das nicht die gesuchte Funktion, weil sie nur die bis zum 24.4. verfügbaren Daten enthält. Die Daten der beiden letzten Wochen sind zunächst unbrauchbar. Vergleichen wir die veröffentlichten Daten vom 21.4. und vom 24.4.

blob.png

Bild 3


Man sieht, die jüngeren Daten wurden durch Nachmeldungen beträchtlich nach oben korrigiert, und zwar je jünger desto mehr.
Nehmen wir an, dass alle 3 Tage die Werte der jeweils letzten 2 Wochen so nach oben gehen, wie vom 21.4. bis 24.4.. Dann erhalten wir eine durch Schätzung korrigierte Liste, die die wahren Verhältnisse am 24.4. besser wiedergeben sollte, die grüne Kurve im nächsten Bild.


blob.png

Bild 4


Da die (grüne) Kurve sehr unregelmäßig ist, bilden wir mal die Integralfunktion davon, um eine Glättung zu erzeugen.


blob.png

Bild 5


Da die Seuche in Schweden am Anfang der Epidemie exponentiell verlaufen sollte, versuchen wir mal eine Annäherung durch y = a exp(k*t)
Man sieht schon an den Verdopplungszeiten, dass das nicht geht (statt  t=14, schreibe ich anschaulicher t=24.3.):
I(24.3.) = 81,  I(27.3.) = 167, I(30.3.) = 284 < 334 zu wenig
I(3.4.) = 533,  I(9.4.) = 1073, I(15.4.) = 1740 < 2146 zu wenig
Also nehmen wir eine bessere Funktion, die passt:
I(t) = k* Φ((t-µ)/σ) mit k=4600, µ=40,6,  σ=13,5
Warum sollten die Sterbefälle über einer Zeitachse einer Normalverteilung folgen?
Weiß ich nicht, ist mir auch egal. Ich suche nur eine Funktion, mit der man leicht rechnen kann!
Verlängere ich jetzt einfach Aktiencharts? Mal sehen! 3 Beispiele:
Titius- Bode-Regel: war falsch; siehe Merkur, Neptun, sonstige Abweichungen
3. Kepler’sche Gesetz: war richtig. Der physikalische Beweis kam erst 70 Jahre später durch Newton
Hubble’sches Gesetz: war korrekt ohne Begründung. Er hat einfach eine lineare Regression gemacht.

blob.png

Bild 6


Da die modellierte Funktion so einfach ist und eigentlich nur 2 Parameter enthält und die Lage bis dato gut beschreibt, könnte man vermuten, dass sie auch die Zukunft gut beschreibt.

blob.png

Bild 7


Folgerungen, an denen man das dann überprüfen kann:
Gesamtzahl der Corona-Toten bis 24.4. am 24.4. veröffentlicht: 2192
Prognose: Dieser Wert (bis 24.4.) wird in den nächsten 2 Wochen in der Statistik auf knapp 3000 hochkorrigiert, Zwischenergebnis: am 29./30.4  werden 2700 überschritten (für den Zeitraum bis 24.4.).
Machen wir mal die Ableitung zur Feststellung der Anzahl der tägl. Todesfälle:

blob.png

Bild 8

Prognose: Mitte Mai < 50, Ende Mai einstellig
Gesamtopferzahl: <5000
Herdenimmunität ist nicht genau definiert. Schweden als Ganzes scheint mir keine Herde zu sein. Die Zieldurchseuchung hängt bestimmt auch von der Häufigkeit und Intensität der Sozialkontakte ab. In der Mietskaserne oder im Asylantenwohnheim dürfte die Herdenimmunität bei einer größeren Prozentzahl erreicht werden als in Lönneberga.
Wenn man die Letalität von Heinsberg mit 0,0037 anwendet, hätten sich am Ende 1,2 Mio von 10 Mio Schweden infiziert, also 12% (sehr vage Schätzung, aber weit weg von 60%), in den Städten mehr als 12%, auf dem Land weniger.


Update 9.5.20:

Blau ist die summierte Anzahl der Sterbefälle jeweils bis dato auf Basis der korrigierten am 9.5. veröffentlichten Zahlen. Rot ist das Modell. Noch passt es zur Prognose: Mitte Mai < 50 Sterbefälle pro Tag

blob.png


Update 7.5.20:

Kommen wir zur Endabrechnung, d.h. zur Verifikation oder Falsifikation des Modells!

Die Werte der täglichen Coronatoten in Schweden haben sich stabilisiert und ändern sich nicht mehr:
14.5.: 46
15.5.: 58
16.5.: 47

Wegen der 58 ist meine Prognose falsch, denn ich hatte <50 für Mitte Mai vorausgesagt.
Auch das Abklingen der Seuche unter 10 Todesfälle pro Tag wird einen Monat später eintreten als von mir vorhergesagt, also erst Ende Juni statt Ende Mai. Ich bin untröstlich!

Die Gesamtzahl der schwed. Opfer wird wohl gegen 6000 gehen und die Herdenimmunität erst bei 16% im Mittel eintreten.

Schweden hat seine Wirtschaft nicht ruiniert und in den großen Städten, also dort, wo in den nächsten Jahren die infizierten Touristen einschlagen werden, ist die erreichte Herdenimmunität noch viel höher. Das ist dann deren cordon sanitaire. Wir haben unsere Wirtschaft jetzt schon ruiniert und im Grunde keinerlei Immunität. Auch ein zweitesmal Stotterbremse kann ich mir nicht vorstellen. Aber da gibt es ja noch die Heilsversprechungen der Pharmaindustrie.

Die Prognosen der anderen (Wielers, Drosten, Merkel, WHO und der verbandelten Pharmaindustrie) lagen völlig daneben, selbst wenn man die Toten von den 52000 verschobenen Krebsoperationen in Deutschland auch noch auf das Konto von Corona anrechnet:

1,9 Millionen Virus-Tote in Deutschland? | The European
www.theeuropean.de › wolfram-weimer › 19-millionen...
09.03.2020 - Wie tödlich ist der Corona-Virus wirklich? ... Sollte die WHO-Zahl auf Deutschland zutreffen, würden hierzulande hunderttausende Tote drohen.

Hier noch eine abschließende Fage an hairbeRt zu seinem Kommentar vom 22 Apr: Soll ich mir "natürlich auch selbstehrlich genug eingestehen, dass ein Hausexperiment nicht die wissenschaftlich fundierte Meinung von Gesundheitsorganisationen wie der WHO widerlegen" kann?


 

Avatar von 4,3 k

1 Antwort

+1 Daumen
 
Beste Antwort

Einige Dinge, die mir auffallen:


1. Was du machst nennt sich Overfitting. Du setzt eine Regression an bereits bekannte Daten und wunderst dich, dass dein Modell zu den Daten passt. Ich kann dir mit großer Sicherheit sagen, dass dein Modell die Daten der Zukunft weniger genau als Daten in der Vergangenheit repräsentieren wird. Zu denken, dass man so einfach eine Epidemie modellieren kann, ist naiv (und den Glauben an die Aussagen von Politikern und der Weltgesundheitsorganisation daran zu knüpfen, gefährlich).

2. Das liegt vor allem daran, dass es a priori überhaupt keinen Grund gibt, zeitlich abhängige Daten wie Todesfälle gemessen über Zeit als normalverteilte Daten anzusehen. Bloß weil die Todesfälle aussehen wie eine Glockenkurve steckt da noch lange keine Glockenkurve drin. Die meisten Wachstumsvorgänge mit einer Maximalsättigung sind logistisch verteilt (wenn man absolut keine Maßnahmen ergreift und alles "perfekt" läuft), diese Verteilung fällt weniger schnell ab, also wirst du die Anzahl der Toten wahrscheinlich unterschätzen mit deinem Modell.

3. Ich sehe keinen Zusammenhang zwischen den Todesfällen in Schweden und Aussagen irgendwelcher Politiker und deren Glaubwürdigkeit, bitte lass Politik aus einem matheboard raus. Wenn überhaupt zeigt doch die deutlich höhere Sterberate, dass die Isolation von Risikopatienten dort weniger gut funktioniert als hier. Ob die Schweden recht behalten und schneller genug immune Menschen haben werden, sodass sie die Krise hinter sich lassen können, wird sich erst in Zukunft zeigen und obliegt nicht Amateuren wie dir und mir, das zu diskutieren.

Avatar von

zu 2.: Der Schluss ging von Grafik 1 auf Grafik 2 und nicht umgekehrt. Grafik 1 ist sigmoid und sollte auch sigmoid sein. Was soll da falsch sein?

Die Formel, die du oben angegeben hast, ist doch die für Graphik 1 oder liege ich da falsch? Das ist zwar eine S-förmige Kurve, aber nicht "die" Sigmoid-funktion im eigentlichen Sinne (Kumulative Verteilungsfunktion der logistischen Verteilung), sondern eine Fehlerfunktion (Kumulative Verteilungsfunktion der Normalverteilung). Die sehen grob ähnlich aus, verhalten sich aber anders. Wie gesagt, optisch kann man im Moment deinem Modell nicht widersprechen, aber das Problem Overfitting hast du nicht ausgeschlossen. Ob dein Modell funktioniert hat wird sich erst in den kommenden Wochen zeigen, wenn du die Kurve tatsächlich mit Daten vergleichst, die du nicht beim Aufbau der Kurve bereits kanntest.

Den Begriffsdefinitionen kann ich mich leicht anpassen. Aber man muss das nicht so eng sehen:

Das Integral jeder stetigen, positiven Funktion mit genau einem lokalen Maximum und keinem lokalen Minimum, z. B. die gaußsche Glockenkurve, ist eine Sigmoidfunktion. Daher sind viele kumulierte Verteilungsfunktionen sigmoidal.

"Wie gesagt, optisch kann man im Moment deinem Modell nicht widersprechen,"

Klingt schon besser!

"das Problem Overfitting hast du nicht ausgeschlossen."

Das geht auch gar nicht außerhalb der Mathematik!

"Ob dein Modell funktioniert hat wird sich erst in den kommenden Wochen zeigen, wenn du die Kurve tatsächlich mit Daten vergleichst, die du nicht beim Aufbau der Kurve bereits kanntest."

Eben nicht! Die Daten bis zum 8.3. genügen doch. Dann liegen alle Parameter fest. Danach kann man die Daten jedes weiteren Tages benutzen, um das Modell zu verifizieren oder zu falsifizieren.

Ich möchte nicht allzu unhöflich sein, aber frage dich bitte, ob du echtes Feedback haben willst oder ob du nur diskutieren willst. Als Vorsteller eines Ansatzes bist du aus wissenschaftlicher Sicht in der Beweispflicht, das bedeutet, du hast die Pflicht zu argumentieren, wieso dein Ansatz sinnvoll ist (Wahl der Kurve, Wahl der Daten, Wahl der Regression). In der puren Mathematik natürlich nochmal verschärft, da hat man zweifelsfrei die Korrektheit seines Ergebnisses zu beweisen, aber das geht in Data Science natürlich nicht. Dazu hast du natürlich testbare Prognosen zu geben, sonst kann man nur auf der Oberfläche abstrakt argumentieren, wie ich es gerade versuche. Sag doch z.B. "Die Anzahl der Infizierten am 23.5. wird XYZ sein und an diesem Tag wird die Zahl der insgesamt Infizierten um ABC steigen". Diese Aussagen kann man dann überprüfen und schauen, ob und wieso sie richtig/falsch waren.


Um etwas genauer zu werden, wieso ich speziell deine Wahl der Kurve anzweifle: Logistische Kurven werden aus dem Grund verwendet, da sie eine der einfachsten Differentialgleichungen erfüllen, die dem Sachzusammenhang entsprechen: Das Wachstum der Kurve ist a priori proportional zur Kurvenhöhe (also ein Exponentialansatz), wird jedoch gebremst mit dem Faktor, der genau dem relativen Fortschritt zu einer Maximalsättigung entspricht (heißt: Sind wir 50% vor Maximalsättigung, wächst die Kurve nurnoch 50% so schnell). Dieser Ansatz ist im Sachzusammenhang Epidemiologie sinnvoll, denn wenn du als Infizierter einen Umkreis hast von dem 20% Infiziert sind, dann ist dein potentielles Ansteckungsspektrum natürlich auch 20% kleiner. Die Fehlerfunktion erfüllt keine im Sachzusammenhang relevante Differentialgleichung (zumindest ist mir keine bekannt, du darfst mich gern belehren), deshalb war ich spektisch. Die Fehlerfunktion sieht zwar ähnlich aus, jedoch wirst du erkennen, dass dieser Stauchungsfaktor, wenn man sich der oberen Schranke nähert, sehr kompliziert ist. Genau deshalb denke ich, dass du in der späten Phase der Epidemie keine genauen Aussagen treffen werden kannst. Es gibt im Moment eine große Menge an Data-scientists, die sich mit der Modellierung von Covid-19 beschäftigen, und nur mit einem logistischen Ansatz (den ich schon für moderat besser als Gaußkurvenansatz halte) kamen die nicht weit, deshalb mussten die noch größere Geschütze auffahren.


Ich möchte deine Idee auch nicht schlechtreden, ich finde es immer gut, wenn Leute sich mit Daten und Informationsgewinn daraus beschäftigen, da dieses Thema mich selbst begeistert. Aber man muss natürlich auch selbstehrlich genug sein einzugestehen, dass ein Hausexperiment nicht die wissenschaftlich fundierte Meinung von Gesundheitsorganisationen wie der WHO widerlegen können.

Also dann:

Unter Berücksichtigung der Tatsache, dass einzelne Todefälle in der Statistik noch Tage später nachgemeldet werden, behaupte ich folgendes:


1.) Ab dem 22.4. sollte in Schweden die Anzahl der Covidpatienten, die an einem Tag sterben, dauerhaft unter 50 bleiben.

2.) Ab Ende des Monats April sollte diese Anzahl einstellig sein.


Hier kannst du das täglich überprüfen:

https://experience.arcgis.com/experience/09f821667ce64bf7be6f9f87457ed9aa

Sind das die prinzipiell falsifizierbaren Aussagen, die du wolltest?

Ja genau, in etwa solche Aussagen sind das, was ich meine. Bei solchen Verteilungen mit einer Maximalsättigung ist es aber natürlich keine sehr genaue Aussage, etwas wie Punkt 1 zu sagen - irgendwann werden die Fälle weniger (modulo statistische abweichungen ist dein modell ja ab jetzt monoton fallend), und sie sind ja jetzt schon im "general ballpark" von 50. Was bei solchen Kurven von ganz besonderem Interesse ist, ist die Maximalsättigung, wenn ich die Graphik richtig sehe, liegt die auf jeden Fall einen gewissen Puffer unter 2000. Das ist zum Beispiel eine zentrale Aussage, die dein Modell trifft, bei der man am Ende ganz einfach prüfen kann, ob sie zugetroffen hat oder nicht.


Aber was du gemacht hast ist genau die Art wie man es macht: Triff alle möglichen Aussagen, die man aus dem Modell auslesen kann (Todesfälle pro Tag gehören auch dazu, Minimaltodesfälle pro Tag aber z.B. auch, mittels Konfidenzintervall) für verschiedene Tage "10 Tage, 20 Tage, 30 Tage usw.". Was für mich persönlich interessant ist (und für dich wahrscheinlich auch) ist die Frage, wie lange dein Modell akkurat bleibt. Ich gehe (Gründe in vorherigen Kommentaren) davon aus, dass dein Modell nicht ewig präzise bleibt - aber für mindestens eine oder zwei Wochen sollte es gute Ergebnisse liefern können. Du könntest z.B. gucken wie lange deine jetzigen Parameter das richtige Ergebnis liefern und die Parameter vielleicht zwischendurch updaten und schauen, ob du dadurch eine Präzisionsverlängerung erhältst (wenn du z.B. 10 Tage lang genaue Ergebnisse lieferst und alle 3 Tage deine Parameter updatest, kannst du immer eine 7-Tage-Prognose treffen).


Ich hoffe aus unserem hitzigen Austausch hast du etwas mitgenommen. Ich war ja extra-kritisch gegenüber deinem Modell um zu zeigen, dass man immer versuchen muss, neue Ideen zu widerlegen, bevor man daran glaubt, dass sie richtig sind. Ich werde vielleicht über die Tage nochmal hier reinschauen und gucken, wie sich die Daten gemacht haben. Viel Spaß beim rumtüfteln!

Du könntest z.B. gucken wie lange deine jetzigen Parameter das richtige Ergebnis liefern und die Parameter vielleicht zwischendurch updaten und schauen, ob du dadurch eine Präzisionsverlängerung erhältst

Genau so werde ich es machen. Leider gibt es in der supergenauen und supergut gemachte schwedische Statistik auch nach 2 Wochen ab zu mal Nachmeldungen.

Deshalb mach ich mal die Parameter linear zeitabhängig, weil die Tendenz der täglichen Wanderung der Parameter absehbar ist.

Meine Nichte, die Physikprof. ist, will 1 Euro gegen Aussage 2 wetten. Deshalb werde ich nochmal die verschiedenen Provinzen in Schweden gesondert betrachten, ehe ich mein sauer verdientes Geld aufs Spiel setze.

Gegen Aussage 2 zu wetten, macht Sinn, wenn man genau wie ich vermutet, dass du die Anzahl der Todesfälle in der Zukunft unterschätzen wirst. Ich steige in die Wette ein, ich wette ein bisschen Internetehre ;) Viel Spaß dir und deiner Nichte!

@ hairbeRt

Ich nehme die Wette nicht an, weil ich sie verlieren würde. Begründung s.o. in der Aufgabe!

Mit einer Idee werde ich mich noch beschäftigen: Kann man aus dem Datensatz vom 21.4. und dem vom 23.4. den endgültigen und stabilen Datensatz schätzen, den die Schweden in 2 Wochen nach etlichen Korrekturen veröffentlichen werden und dann mit dem arbeiten?

Trotzdem, vielen Dank für die vielen Rückmeldungen!

@ hairbeRt

Nach den Änderungen oben, kann ich dir jetzt 2 Wetten anbieten:

1.) Am 15.5. ist die tägl. Anzahl der Covidtoten in Schweden <50
2.) Am 30.5. ist die tägl. Anzahl der Covidtoten in Schweden einstellig.

@ hairbeRt

Ich betrachte mich als Gewinner der Wette, s.o. Nachtrag!

Da musst du noch ein bisschen abwarten ;)

Ich habe die Wette verloren, s.o.!

Ein anderes Problem?

Stell deine Frage

Willkommen bei der Mathelounge! Stell deine Frage einfach und kostenlos

x
Made by a lovely community