|
Autor |
wie aus Messungen zugehörige Verteilungsfunktion bestimmen? |
|
carlox
Aktiv  Dabei seit: 22.02.2007 Mitteilungen: 1382
 | Themenstart: 2022-01-14
|
Hallo allerseits,
Wie viele Messungen (z.B. Schadensfälle) müssen gemacht werden, damit man mit "hoher" Sicherheit die dazugehörige Verteilungsfunktion angeben kann ?
D.h. wie viele Daten müssen generiert werden, um die zugehörige Verteilungsfunktion bestimmen zu können?
mfg
cx
|
Profil
|
Bozzo
Senior  Dabei seit: 11.04.2011 Mitteilungen: 2213
Wohnort: Franken
 | Beitrag No.1, eingetragen 2022-01-18
|
Das hängt davon ab, ob es eine beliebige Verteilungsfunktion ist (und wenn ja, wie der Definitionsbereich aussieht - z. B. stetig, diskret, endlich, etc.) oder ob ein Verteilungstyp angenommen werden kann, von dem nur ein paar Parameter bestimmt werden müssen.
Letzteres läuft unter dem Namen "Parameterschätzung" und die passenden Konfidenzintervalle dazu geben deren Genauigkeiten an. Für erstere ist es nicht ganz so klar, allerdings konstruiert hier z. B. der Kolmogorow-Smirnow-Test einen passenden "Konfidenzstreifen", in dem die wahre Verteilungsfunktion wahrscheinlich liegt.
Oft kann man eine Fragestellung auf eine binäre Situation reduzieren, wodurch sich die Verteilung auf eine Bernulli-Verteilung reduziert. In dem Fall lässt sich sehr allgemein angeben, wie groß eine Stichprobe sein muss, um einen bestimmten Sachverhalt mit vorgegebener Genauigkeit feststellen zu können. Irgendwo auf den Seiten des NIST findet sich das sehr detailliert ausgearbeitet.
|
Profil
|
carlox
Aktiv  Dabei seit: 22.02.2007 Mitteilungen: 1382
 | Beitrag No.2, vom Themenstarter, eingetragen 2022-01-18
|
Hallo Bozzo,
vielen Dank für dein Feedback.
1)
Bem:
Ich gehe von einer beliebigen, unbekannten Verteilung aus.
2)
Zur Info
In dem Artikel:
https://arxiv.org/pdf/2004.08658.pdf
geht es m.M. darum, dass das Übersehen von fat-tailed Verteilungen erhebliche Nachteile haben kann (z.B. bei Pandemien).
Deswegen habe ich meinen Beitrag gepostet.
Im o.g. Artikel wird die Anwendung der Extremwerttheorie vorgeschlagen.
3)
Warum macht man nicht Folgendes:
Man verwendet den von dir vorgeschlagenen Kolmogorow-Smirnow-Test und prüft damit alle "bekannten" Verteilungen, d.h. man stellt verschiedene Hypothesen auf:
H1: Ist die empirische Verteilungsfunktion = Normalverteilung,
H2: Ist die empirische Verteilungsfunktion = Paretoverteilung,
usw.
Dann prüft man nach. welche Hypothese am Besten passt.
(vermutlich über eine Software realisieren).
Ist das zu einfach von mir gedacht bzw. was meinst du mit
"Für erstere ist es nicht ganz so klar"
mfg
cx
|
Profil
|
Bozzo
Senior  Dabei seit: 11.04.2011 Mitteilungen: 2213
Wohnort: Franken
 | Beitrag No.3, eingetragen 2022-01-21
|
Ich denke, dass das nicht so einfach ist, zumindest bei nur wenigen Punkten (im verlinkten Paper um die 70).
Wahrscheinlich müsstest du die Tests entweder so durchführen, dass auch rein zufällig eine der Verteilungen akzeptiert werden kann (vgl. "Zielscheibenfehler"). Oder du müsstest sie so durchführen, dass selbst die richtige Verteilung oft abgelehnt werden würde.
Am besten wäre es, einfach mal ein paar Punkte selbst zufällig zu generieren und dann zu sehen, ob sich die Verteilung auf diese Art einigermaßen eindeutig wieder rekonstruieren lässt.
|
Profil
|
carlox
Aktiv  Dabei seit: 22.02.2007 Mitteilungen: 1382
 | Beitrag No.4, vom Themenstarter, eingetragen 2022-01-21
|
\quoteon(2022-01-21 18:43 - Bozzo in Beitrag No. 3)
Ich denke, dass das nicht so einfach ist, zumindest bei nur wenigen Punkten (im verlinkten Paper um die 70).
\quoteoff
Aber man könnte doch rein theoretisch eine Mindestanzahl von Punkten (Daten) bestimmen (berechnen), so dass man die richtige Verteilung mit z.B. 95% iger WK erwischt.
Oder ist das theoretisch nicht möglich?
mfg
cx
|
Profil
|
Bozzo
Senior  Dabei seit: 11.04.2011 Mitteilungen: 2213
Wohnort: Franken
 | Beitrag No.5, eingetragen 2022-01-22
|
Wie meinst du das genau? Was, wenn die "richtige" Verteilung gar nicht bei deinen "bekannten" Verteilungen dabei ist? Wie viele Messpunkte brauchst du, um z.B. eine Binomialverteilung mit p=0.5 und n=1000 von einer auf ganze Zahlen gerundeten und auf [0,1000] eingeschränkten Normalverteilung mit Erwartungswert 500 und Varianz 250 unerscheiden zu können?
Dann gibt es da noch ein ganz praktisches Problem, dass die typischen Modellverteilungen in der Praxis meist nicht exakt eingehalten werden. Z.B. bei Bruchtests würde man eigentlich eine Weibull-Verteilung ansetzen, aber in der Praxis kommt das nicht ganz hin, da die Apparatur, die die Bruchlast misst, wahrscheinlich auch noch einen Messfehler hat, mit dessen Verteilung die Weibull-Verteilung dann noch zu falten wäre. Wenn du da jetzt mit einem zu engen Korridor (also zu vielen Messpunkten) einen KS-Test durchführst, wird die "richtige" Weibull-Verteilung wahrscheinlich auch abgelehnt, da sie halt in der Praxis dann doch wieder nicht "exakt richtig" ist.
|
Profil
|
carlox
Aktiv  Dabei seit: 22.02.2007 Mitteilungen: 1382
 | Beitrag No.6, vom Themenstarter, eingetragen 2022-01-25
|
\quoteon(2022-01-22 23:40 - Bozzo in Beitrag No. 5)
Wie meinst du das genau? Was, wenn die "richtige" Verteilung gar nicht bei deinen "bekannten" Verteilungen dabei ist?
\quoteoff
Könnte das nicht auch entschieden werden ?
D.h. Die Software bringt dann eine entsprechende Meldung:
"Daten passen zu keiner Verteilung" und eine
Liste geordnet nach den Verteilungen, die am besten bzw. schlechtesten dazu passen.
\quoteon
Wie viele Messpunkte brauchst du, um z.B. eine Binomialverteilung mit p=0.5 und n=1000 von einer auf ganze Zahlen gerundeten und auf [0,1000] eingeschränkten Normalverteilung mit Erwartungswert 500 und Varianz 250 unerscheiden zu können?
\quoteoff
Das ist eine gute Frage:
Es könnte aber auch als Ergebnis mehrere "gleich" gute (bzw. kaum zu unterscheidende) Verteilungen geben.
Siehe die von mir angeführte Liste oben.
\quoteon
Dann gibt es da noch ein ganz praktisches Problem, dass die typischen Modellverteilungen in der Praxis meist nicht exakt eingehalten werden. Z.B. bei Bruchtests würde man eigentlich eine Weibull-Verteilung ansetzen, aber in der Praxis kommt das nicht ganz hin, da die Apparatur, die die Bruchlast misst, wahrscheinlich auch noch einen Messfehler hat, mit dessen Verteilung die Weibull-Verteilung dann noch zu falten wäre. Wenn du da jetzt mit einem zu engen Korridor (also zu vielen Messpunkten) einen KS-Test durchführst, wird die "richtige" Weibull-Verteilung wahrscheinlich auch abgelehnt, da sie halt in der Praxis dann doch wieder nicht "exakt richtig" ist.
\quoteoff
Die durch Messfehler verunreinigten Daten "säubern", d.h. die Messfehler "rausrechnen" und dann die gesäuberten Daten verwenden.
Oder wie soll man das sonst machen.
mfg
cx
|
Profil
|
Bozzo
Senior  Dabei seit: 11.04.2011 Mitteilungen: 2213
Wohnort: Franken
 | Beitrag No.7, eingetragen 2022-01-28
|
Du kannst in jedem Fall eine Liste von "Testverteilungen" anlegen (bei denen jede einzelne auch schon das Ergebnis einer Parameteranpassung sein kann, so dass z. B. nur die beste Exponentialverteilung und die beste Normalverteilung in der Liste landen und nicht zig verschiedene) und die dann nach einem bestimmtem "Score" (z. B. nach der KS-Statistik) ordnen.
Das ist dann aber in der Form kein klassischer Hypothesentest mehr und nicht so ganz einfach zu sagen, mit welcher "Wahrscheinkichkeit" der beste Kandidat in der Liste jetzt auch die "wahre" Verteilung ist, da die Antwort auf die Frage nicht nur von der "Siegerverteilung", sondern von allen betrachteten Verteilungsfamilien abhängt, aus denen die Kandidatenliste gebildet wurde.
|
Profil
|
carlox
Aktiv  Dabei seit: 22.02.2007 Mitteilungen: 1382
 | Beitrag No.8, vom Themenstarter, eingetragen 2022-02-03
|
\quoteon(2022-01-28 23:52 - Bozzo in Beitrag No. 7)
Du kannst in jedem Fall eine Liste von "Testverteilungen" anlegen (bei denen jede einzelne auch schon das Ergebnis einer Parameteranpassung sein kann, so dass z. B. nur die beste Exponentialverteilung und die beste Normalverteilung in der Liste landen und nicht zig verschiedene) und die dann nach einem bestimmtem "Score" (z. B. nach der KS-Statistik) ordnen.
\quoteoff
Das verstehe ich nicht ganz:
"die beste Exponentialverteilung und die beste Normalverteilung" d.h. die
beste Verteilung wird doch durch die Daten bestimmt.
\quoteon
Das ist dann aber in der Form kein klassischer Hypothesentest mehr und nicht so ganz einfach zu sagen, mit welcher "Wahrscheinkichkeit" der beste Kandidat in der Liste jetzt auch die "wahre" Verteilung ist, da die Antwort auf die Frage nicht nur von der "Siegerverteilung", sondern von allen betrachteten Verteilungsfamilien abhängt, aus denen die Kandidatenliste gebildet wurde.
\quoteoff
Man muss eben angeben (als Info im Programm), welche Verteilungen
betrachtet werden.
mfg
cx
|
Profil
|
carlox hat die Antworten auf ihre/seine Frage gesehen. | carlox wird per Mail über neue Antworten informiert. |
|
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2022 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen. Lesen Sie die
Nutzungsbedingungen,
die Distanzierung,
die Datenschutzerklärung und das Impressum.
[Seitenanfang]
|