Matroids Matheplanet Forum Index
Moderiert von Kleine_Meerjungfrau Monkfish epsilonkugel
Mathematik » Stochastik und Statistik » wie aus Messungen zugehörige Verteilungsfunktion bestimmen?
Autor
Universität/Hochschule wie aus Messungen zugehörige Verteilungsfunktion bestimmen?
carlox
Aktiv Letzter Besuch: im letzten Monat
Dabei seit: 22.02.2007
Mitteilungen: 1382
  Themenstart: 2022-01-14

Hallo allerseits, Wie viele Messungen (z.B. Schadensfälle) müssen gemacht werden, damit man mit "hoher" Sicherheit die dazugehörige Verteilungsfunktion angeben kann ? D.h. wie viele Daten müssen generiert werden, um die zugehörige Verteilungsfunktion bestimmen zu können? mfg cx


   Profil
Bozzo
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.04.2011
Mitteilungen: 2213
Wohnort: Franken
  Beitrag No.1, eingetragen 2022-01-18

Das hängt davon ab, ob es eine beliebige Verteilungsfunktion ist (und wenn ja, wie der Definitionsbereich aussieht - z. B. stetig, diskret, endlich, etc.) oder ob ein Verteilungstyp angenommen werden kann, von dem nur ein paar Parameter bestimmt werden müssen. Letzteres läuft unter dem Namen "Parameterschätzung" und die passenden Konfidenzintervalle dazu geben deren Genauigkeiten an. Für erstere ist es nicht ganz so klar, allerdings konstruiert hier z. B. der Kolmogorow-Smirnow-Test einen passenden "Konfidenzstreifen", in dem die wahre Verteilungsfunktion wahrscheinlich liegt. Oft kann man eine Fragestellung auf eine binäre Situation reduzieren, wodurch sich die Verteilung auf eine Bernulli-Verteilung reduziert. In dem Fall lässt sich sehr allgemein angeben, wie groß eine Stichprobe sein muss, um einen bestimmten Sachverhalt mit vorgegebener Genauigkeit feststellen zu können. Irgendwo auf den Seiten des NIST findet sich das sehr detailliert ausgearbeitet.


   Profil
carlox
Aktiv Letzter Besuch: im letzten Monat
Dabei seit: 22.02.2007
Mitteilungen: 1382
  Beitrag No.2, vom Themenstarter, eingetragen 2022-01-18

Hallo Bozzo, vielen Dank für dein Feedback. 1) Bem: Ich gehe von einer beliebigen, unbekannten Verteilung aus. 2) Zur Info In dem Artikel: https://arxiv.org/pdf/2004.08658.pdf geht es m.M. darum, dass das Übersehen von fat-tailed Verteilungen erhebliche Nachteile haben kann (z.B. bei Pandemien). Deswegen habe ich meinen Beitrag gepostet. Im o.g. Artikel wird die Anwendung der Extremwerttheorie vorgeschlagen. 3) Warum macht man nicht Folgendes: Man verwendet den von dir vorgeschlagenen Kolmogorow-Smirnow-Test und prüft damit alle "bekannten" Verteilungen, d.h. man stellt verschiedene Hypothesen auf: H1: Ist die empirische Verteilungsfunktion = Normalverteilung, H2: Ist die empirische Verteilungsfunktion = Paretoverteilung, usw. Dann prüft man nach. welche Hypothese am Besten passt. (vermutlich über eine Software realisieren). Ist das zu einfach von mir gedacht bzw. was meinst du mit "Für erstere ist es nicht ganz so klar" mfg cx


   Profil
Bozzo
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.04.2011
Mitteilungen: 2213
Wohnort: Franken
  Beitrag No.3, eingetragen 2022-01-21

Ich denke, dass das nicht so einfach ist, zumindest bei nur wenigen Punkten (im verlinkten Paper um die 70). Wahrscheinlich müsstest du die Tests entweder so durchführen, dass auch rein zufällig eine der Verteilungen akzeptiert werden kann (vgl. "Zielscheibenfehler"). Oder du müsstest sie so durchführen, dass selbst die richtige Verteilung oft abgelehnt werden würde. Am besten wäre es, einfach mal ein paar Punkte selbst zufällig zu generieren und dann zu sehen, ob sich die Verteilung auf diese Art einigermaßen eindeutig wieder rekonstruieren lässt.


   Profil
carlox
Aktiv Letzter Besuch: im letzten Monat
Dabei seit: 22.02.2007
Mitteilungen: 1382
  Beitrag No.4, vom Themenstarter, eingetragen 2022-01-21

\quoteon(2022-01-21 18:43 - Bozzo in Beitrag No. 3) Ich denke, dass das nicht so einfach ist, zumindest bei nur wenigen Punkten (im verlinkten Paper um die 70). \quoteoff Aber man könnte doch rein theoretisch eine Mindestanzahl von Punkten (Daten) bestimmen (berechnen), so dass man die richtige Verteilung mit z.B. 95% iger WK erwischt. Oder ist das theoretisch nicht möglich? mfg cx


   Profil
Bozzo
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.04.2011
Mitteilungen: 2213
Wohnort: Franken
  Beitrag No.5, eingetragen 2022-01-22

Wie meinst du das genau? Was, wenn die "richtige" Verteilung gar nicht bei deinen "bekannten" Verteilungen dabei ist? Wie viele Messpunkte brauchst du, um z.B. eine Binomialverteilung mit p=0.5 und n=1000 von einer auf ganze Zahlen gerundeten und auf [0,1000] eingeschränkten Normalverteilung mit Erwartungswert 500 und Varianz 250 unerscheiden zu können? Dann gibt es da noch ein ganz praktisches Problem, dass die typischen Modellverteilungen in der Praxis meist nicht exakt eingehalten werden. Z.B. bei Bruchtests würde man eigentlich eine Weibull-Verteilung ansetzen, aber in der Praxis kommt das nicht ganz hin, da die Apparatur, die die Bruchlast misst, wahrscheinlich auch noch einen Messfehler hat, mit dessen Verteilung die Weibull-Verteilung dann noch zu falten wäre. Wenn du da jetzt mit einem zu engen Korridor (also zu vielen Messpunkten) einen KS-Test durchführst, wird die "richtige" Weibull-Verteilung wahrscheinlich auch abgelehnt, da sie halt in der Praxis dann doch wieder nicht "exakt richtig" ist.


   Profil
carlox
Aktiv Letzter Besuch: im letzten Monat
Dabei seit: 22.02.2007
Mitteilungen: 1382
  Beitrag No.6, vom Themenstarter, eingetragen 2022-01-25

\quoteon(2022-01-22 23:40 - Bozzo in Beitrag No. 5) Wie meinst du das genau? Was, wenn die "richtige" Verteilung gar nicht bei deinen "bekannten" Verteilungen dabei ist? \quoteoff Könnte das nicht auch entschieden werden ? D.h. Die Software bringt dann eine entsprechende Meldung: "Daten passen zu keiner Verteilung" und eine Liste geordnet nach den Verteilungen, die am besten bzw. schlechtesten dazu passen. \quoteon Wie viele Messpunkte brauchst du, um z.B. eine Binomialverteilung mit p=0.5 und n=1000 von einer auf ganze Zahlen gerundeten und auf [0,1000] eingeschränkten Normalverteilung mit Erwartungswert 500 und Varianz 250 unerscheiden zu können? \quoteoff Das ist eine gute Frage: Es könnte aber auch als Ergebnis mehrere "gleich" gute (bzw. kaum zu unterscheidende) Verteilungen geben. Siehe die von mir angeführte Liste oben. \quoteon Dann gibt es da noch ein ganz praktisches Problem, dass die typischen Modellverteilungen in der Praxis meist nicht exakt eingehalten werden. Z.B. bei Bruchtests würde man eigentlich eine Weibull-Verteilung ansetzen, aber in der Praxis kommt das nicht ganz hin, da die Apparatur, die die Bruchlast misst, wahrscheinlich auch noch einen Messfehler hat, mit dessen Verteilung die Weibull-Verteilung dann noch zu falten wäre. Wenn du da jetzt mit einem zu engen Korridor (also zu vielen Messpunkten) einen KS-Test durchführst, wird die "richtige" Weibull-Verteilung wahrscheinlich auch abgelehnt, da sie halt in der Praxis dann doch wieder nicht "exakt richtig" ist. \quoteoff Die durch Messfehler verunreinigten Daten "säubern", d.h. die Messfehler "rausrechnen" und dann die gesäuberten Daten verwenden. Oder wie soll man das sonst machen. mfg cx


   Profil
Bozzo
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.04.2011
Mitteilungen: 2213
Wohnort: Franken
  Beitrag No.7, eingetragen 2022-01-28

Du kannst in jedem Fall eine Liste von "Testverteilungen" anlegen (bei denen jede einzelne auch schon das Ergebnis einer Parameteranpassung sein kann, so dass z. B. nur die beste Exponentialverteilung und die beste Normalverteilung in der Liste landen und nicht zig verschiedene) und die dann nach einem bestimmtem "Score" (z. B. nach der KS-Statistik) ordnen. Das ist dann aber in der Form kein klassischer Hypothesentest mehr und nicht so ganz einfach zu sagen, mit welcher "Wahrscheinkichkeit" der beste Kandidat in der Liste jetzt auch die "wahre" Verteilung ist, da die Antwort auf die Frage nicht nur von der "Siegerverteilung", sondern von allen betrachteten Verteilungsfamilien abhängt, aus denen die Kandidatenliste gebildet wurde.


   Profil
carlox
Aktiv Letzter Besuch: im letzten Monat
Dabei seit: 22.02.2007
Mitteilungen: 1382
  Beitrag No.8, vom Themenstarter, eingetragen 2022-02-03

\quoteon(2022-01-28 23:52 - Bozzo in Beitrag No. 7) Du kannst in jedem Fall eine Liste von "Testverteilungen" anlegen (bei denen jede einzelne auch schon das Ergebnis einer Parameteranpassung sein kann, so dass z. B. nur die beste Exponentialverteilung und die beste Normalverteilung in der Liste landen und nicht zig verschiedene) und die dann nach einem bestimmtem "Score" (z. B. nach der KS-Statistik) ordnen. \quoteoff Das verstehe ich nicht ganz: "die beste Exponentialverteilung und die beste Normalverteilung" d.h. die beste Verteilung wird doch durch die Daten bestimmt. \quoteon Das ist dann aber in der Form kein klassischer Hypothesentest mehr und nicht so ganz einfach zu sagen, mit welcher "Wahrscheinkichkeit" der beste Kandidat in der Liste jetzt auch die "wahre" Verteilung ist, da die Antwort auf die Frage nicht nur von der "Siegerverteilung", sondern von allen betrachteten Verteilungsfamilien abhängt, aus denen die Kandidatenliste gebildet wurde. \quoteoff Man muss eben angeben (als Info im Programm), welche Verteilungen betrachtet werden. mfg cx


   Profil
carlox hat die Antworten auf ihre/seine Frage gesehen.
carlox wird per Mail über neue Antworten informiert.

Wechsel in ein anderes Forum:
 Suchen    
 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2022 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]