Dark Mode

Zum Inhalt springen

Normalverteilung

aus Wikipedia, der freien Enzyklopadie
Normalverteilung
Dichtefunktion
Dichtefunktionen der Normalverteilung N ( m , s 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} :
N ( 0 ; 0 , 2 ) {\displaystyle {\mathcal {N}}(0;0{,}2)} (blau), N ( 0 ; 1 ) {\displaystyle {\mathcal {N}}(0;1)} (rot), N ( 0 ; 5 ) {\displaystyle {\mathcal {N}}(0;5)} (gelb) und N ( - 2 ; 0 , 5 ) {\displaystyle {\mathcal {N}}(-2;\,0{,}5)} (grun)
Verteilungsfunktion
Verteilungsfunktionen der Normalverteilungen:
N ( 0 ; 0 , 2 ) {\displaystyle {\mathcal {N}}(0;0{,}2)} (blau), N ( 0 ; 1 ) {\displaystyle {\mathcal {N}}(0;1)} (rot), N ( 0 ; 5 ) {\displaystyle {\mathcal {N}}(0;5)} (gelb) und N ( - 2 ; 0 , 5 ) {\displaystyle {\mathcal {N}}(-2;\,0{,}5)} (grun)
Parameter m R {\displaystyle \mu \in \mathbb {R} } - Erwartungswert

s 2 > 0 {\displaystyle \sigma ^{2}>0} - Varianz
( m {\displaystyle \mu } ist Lageparameter, s {\displaystyle \sigma } ist Skalenparameter)

Trager T X = R {\displaystyle {\mathcal {T}}_{X}=\mathbb {R} }
Dichtefunktion 1 2 p s 2 exp ( - 1 2 ( x - m s ) 2 ) {\displaystyle {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}
Verteilungsfunktion 1 2 ( 1 + erf ( x - m 2 s 2 ) ) {\displaystyle {\frac {1}{2}}\left(1+\operatorname {erf} \left({\frac {x-\mu }{\sqrt {2\sigma ^{2}}}}\right)\right)}
- mit Fehlerfunktion erf ( x ) {\displaystyle \operatorname {erf} (x)}
Erwartungswert m {\displaystyle \mu }
Median m {\displaystyle \mu }
Modus m {\displaystyle \mu }
Varianz s 2 {\displaystyle \sigma ^{2}\,}
Schiefe 0 {\displaystyle 0}
Wolbung 3 {\displaystyle 3}
Entropie 1 2 log 2 ( 2 p e s 2 ) {\displaystyle {\frac {1}{2}}\log _{2}(2\pi e\,\sigma ^{2})}
Momenterzeugende Funktion exp ( m t + 1 2 s 2 t 2 ) {\displaystyle \exp \left(\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)}
Charakteristische Funktion exp ( i m t - 1 2 s 2 t 2 ) {\displaystyle \exp \left(i\mu t-{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)}
Fisher-Information I ( m , s ) = ( 1 / s 2 0 0 2 / s 2 ) {\displaystyle {\mathcal {I}}(\mu ,\sigma )={\begin{pmatrix}1/\sigma ^{2}&0\\0&2/\sigma ^{2}\end{pmatrix}}} I ( m , s 2 ) = ( 1 / s 2 0 0 1 / ( 2 s 4 ) ) {\displaystyle {\mathcal {I}}(\mu ,\sigma ^{2})={\begin{pmatrix}1/\sigma ^{2}&0\\0&1/(2\sigma ^{4})\end{pmatrix}}}

Die Normal- oder Gauss-Verteilung (nach Carl Friedrich Gauss) ist in der Stochastik ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichtefunktion wird auch Gauss-Funktion, gausssche Normalverteilung, gausssche Verteilungskurve, Gauss-Kurve, gausssche Glockenkurve, gausssche Glockenfunktion, Gauss-Glocke oder schlicht Glockenkurve genannt. Sie hat die Form

f ( x ) = 1 s 2 p e - 1 2 ( x - m s ) 2 , x R {\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}},\quad x\in \mathbb {R} }

mit dem Erwartungswert m {\displaystyle \mu } und der Standardabweichung s {\displaystyle \sigma } .

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch additive Uberlagerung einer grossen Zahl von unabhangigen Einflussen entstehen, unter schwachen Voraussetzungen annahernd normalverteilt sind.

In der Messtechnik wird haufig eine Normalverteilung angesetzt, um die Streuung von Messwerten zu beschreiben. Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurwissenschaftlicher Vorgange vom Erwartungswert lassen sich durch die Normalverteilung in guter Naherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhangig voneinander in verschiedene Richtungen wirken).

Zufallsvariablen mit Normalverteilung benutzt man zur Beschreibung zufalliger Vorgange wie:

Der Erwartungswert kann als Schwerpunkt der Verteilung interpretiert werden. Die Standardabweichung gibt ihre Breite an.

Im Jahre 1733 zeigte Abraham de Moivre in seiner Schrift The Doctrine of Chances im Zusammenhang mit seinen Arbeiten am Grenzwertsatz fur Binomialverteilungen eine Abschatzung des Binomialkoeffizienten, die als Vorform der Normalverteilung gedeutet werden kann.[1]

Die fur die Normierung der Normalverteilungsdichte zur Wahrscheinlichkeitsdichte notwendige Berechnung des nichtelementaren Integrals

- + e - 1 2 t 2 d t = 2 p {\displaystyle \int _{-\infty }^{+\infty }e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t={\sqrt {2\pi }}}

gelang Pierre-Simon Laplace im Jahr 1782 (nach anderen Quellen Poisson).

Im Jahr 1809 publizierte Gauss sein Werk Theoria motus corporum coelestium in sectionibus conicis solem ambientium (deutsch Theorie der Bewegung der in Kegelschnitten sich um die Sonne bewegenden Himmelskorper), das neben der Methode der kleinsten Quadrate und der Maximum-Likelihood-Schatzung die Normalverteilung definiert. Wiederum Laplace war es, der 1810 den Satz vom zentralen Grenzwert bewies, der die Grundlage der theoretischen Bedeutung der Normalverteilung darstellt und de Moivres Arbeit am Grenzwertsatz fur Binomialverteilungen abschloss.

Adolphe Quetelet erkannte schliesslich bei Untersuchungen des Brustumfangs von mehreren tausend Soldaten im Jahr 1845 eine verbluffende Ubereinstimmung mit der Normalverteilung und brachte die Normalverteilung in die angewandte Statistik.[2]

Zunachst wurde die Normalverteilung als Fehlergesetz (Law of Error) oder Fehlerkurve (error curve) bezeichnet. Die erste unzweideutige Verwendung der Bezeichnung ,,Normalverteilung" fur die Verteilung mit der Formulierung ,,Normal Curve of Distribution" wird Francis Galton (1889)[3] zugeschrieben.[4][5] Der Wissenschaftshistoriker Stephen M. Stigler identifizierte[6] drei fruhere - vermutlich voneinander unabhangige - Verwendungen des Wortes normal im Zusammenhang mit der spater Normalverteilung genannten Verteilung durch Charles S. Peirce (1873),[7] Francis Galton (1877)[8] und Wilhelm Lexis (1877),[9] dabei werden eher die beobachteten Werte oder Teile der beobachteten Werte als ,,normal" bezeichnet.

Eine Zufallsvariable X {\displaystyle X} hat eine Normalverteilung mit Erwartungswert m {\displaystyle \mu } und Standardabweichung s {\displaystyle \sigma } bzw. Varianz s 2 {\displaystyle \sigma ^{2}} , wobei m , s R , s > 0 {\displaystyle \mu ,\sigma \in \mathbb {R} ,\;\sigma >0} , oft geschrieben als X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)} , wenn X {\displaystyle X} die folgende Wahrscheinlichkeitsdichte hat:[10][11]

f ( x | m , s 2 ) = 1 s 2 p e - 1 2 ( x - m s ) 2 {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\mathrm {e} ^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}} .

Eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung eine Normalverteilung ist, heisst normalverteilt. Eine normalverteilte Zufallsvariable heisst auch gausssche Zufallsvariable.

Eine Normalverteilung mit den Parametern m = 0 {\displaystyle \mu =0} und s 2 = 1 {\displaystyle \sigma ^{2}=1} heisst Standardnormalverteilung, standardisierte Normalverteilung[12] oder normierte Normalverteilung.[13] Eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung eine Standardnormalverteilung ist, heisst standardnormalverteilt. Eine standardnormalverteilte Zufallsvariable hat die Dichtefunktion

ph ( x ) = 1 2 p e - 1 2 x 2 {\displaystyle \varphi (x)={\frac {1}{\sqrt {2\pi }}}\mathrm {e} ^{-{\frac {1}{2}}x^{2}}} ,

siehe auch Fehlerintegral.

Zur mehrdimensionalen Verallgemeinerung siehe Mehrdimensionale Normalverteilung.

Alternative Definition

[Bearbeiten | Quelltext bearbeiten]

Alternativ lasst sich die Normalverteilung auch uber ihre charakteristische Funktion definieren:

E [ e i t X ] = e i t m - 1 2 s 2 t 2 , t R . {\displaystyle \mathbb {E} \left[\mathrm {e} ^{\mathrm {i} tX}\right]=\mathrm {e} ^{\mathrm {i} t\mu -{\frac {1}{2}}\sigma ^{2}t^{2}},\quad t\in \mathbb {R} \;.}

Diese Definition erweitert die obige Definition zusatzlich um den Fall s 2 = 0 {\displaystyle \sigma ^{2}=0} .

Erwartungswert und Varianz

[Bearbeiten | Quelltext bearbeiten]

Ist X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)} , dann gilt fur den Erwartungswert

E ( X ) = 1 2 p s 2 - + x e - ( x - m ) 2 2 s 2 d x = m {\displaystyle \operatorname {E} (X)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\int _{-\infty }^{+\infty }xe^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,\mathrm {d} x=\mu }

und fur die Varianz

Var ( X ) = 1 2 p s 2 - + ( x - m ) 2 e - ( x - m ) 2 2 s 2 d x = s 2 {\displaystyle \operatorname {Var} (X)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\int _{-\infty }^{+\infty }(x-\mu )^{2}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,\mathrm {d} x=\sigma ^{2}} .

Insbesondere ist der Erwartungswert der Standardnormalverteilung 0 {\displaystyle 0} , denn fur Z ~ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}\left(0,1\right)} gilt

E ( Z ) = 1 2 p - + x e - 1 2 x 2 d x = 0 , {\displaystyle \operatorname {E} (Z)={\frac {1}{\sqrt {2\pi }}}\int \limits _{-\infty }^{+\infty }x\ e^{-{\frac {1}{2}}x^{2}}\mathrm {d} x=0,}

da der Integrand integrierbar und punktsymmetrisch ist.

Standardisierung

[Bearbeiten | Quelltext bearbeiten]

Eine Zufallsvariable X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} wird durch Standardisierung in eine standardnormalverteilte Zufallsvariable Z = ( X - m ) / s {\displaystyle Z=(X-\mu )/\sigma } uberfuhrt.

Verteilungsfunktion

[Bearbeiten | Quelltext bearbeiten]

Die Verteilungsfunktion der Normalverteilung ist durch

F ( x ) = 1 s 2 p - x e - 1 2 ( t - m s ) 2 d t , x R = 1 2 + 1 s 2 p n = 0 1 n ! ( 2 n + 1 ) ( - 1 2 s 2 ) n ( z - m ) 2 n + 1 {\displaystyle {\begin{array}{rcl}F(x)&=&\displaystyle {\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}e^{-{\frac {1}{2}}\left({\frac {t-\mu }{\sigma }}\right)^{2}}\mathrm {d} t,\quad x\in \mathbb {R} \\&=&\displaystyle {\frac {1}{2}}+{\frac {1}{\sigma {\sqrt {2\pi }}}}\cdot \sum _{n=0}^{\infty }{\frac {1}{n!\cdot (2n+1)}}\cdot \left({\frac {-1}{2\cdot \sigma ^{2}}}\right)^{n}\cdot (z-\mu )^{2n+1}\end{array}}}

gegeben. Die Verteilungsfunktion lasst sich daher als eine Potenzreihe mit Entwicklungspunkt m {\displaystyle \mu } darstellen. Die Wahrscheinlichkeit, dass X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} eine Realisierung im Intervall [ a , b ] {\displaystyle [a,b]} hat, ist damit P ( X [ a , b ] ) = F ( b ) - F ( a ) {\displaystyle P(X\in [a,b])=F(b)-F(a)} .

Taylorreihe der Dichtefunktion

[Bearbeiten | Quelltext bearbeiten]

Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariable ist eine Verkettung von differenzierbaren Funktionen g 1 ( x ) = k = 0 z k k ! {\displaystyle g_{1}(x)=\sum _{k=0}^{\infty }{\frac {z^{k}}{k!}}} und g 2 ( x ) = - ( x - m ) 2 2 s {\displaystyle g_{2}(x)=-{\frac {(x-\mu )^{2}}{{\sqrt {2}}\sigma }}} fur die Dichte f = 1 2 p s 2 g 1 g 2 {\displaystyle f={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\cdot g_{1}\circ g_{2}} .

Erweiterung des Definitionsbereiches der Dichtefunktion

[Bearbeiten | Quelltext bearbeiten]

Durch die Erweiterung des Definitionsbereiches von R {\displaystyle \mathbb {R} } auf C {\displaystyle \mathbb {C} } ist f : C - C {\displaystyle f:\mathbb {C} \to \mathbb {C} } als Verkettung von zwei ganzen Funktionen g 1 , g 2 {\displaystyle g_{1},g_{2}} wieder eine ganze Funktion, die auf C {\displaystyle \mathbb {C} } unter Anwendung des Identitatssatzes die folgende eindeutige Potenzreihendarstellung mit Entwicklungspunkt m {\displaystyle \mu } besitzt.

f ( z ) = 1 2 p s 2 e - ( z - m ) 2 2 s 2 , - < x < + = 1 2 p s 2 n = 0 1 n ! ( - 1 2 s 2 ) n ( x - m ) 2 n {\displaystyle {\begin{array}{rcl}f(z)&=&\displaystyle {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\cdot e^{-{\frac {(z-\mu )^{2}}{2\sigma ^{2}}}},\ \ \ -\infty

Partialsummenfolge

[Bearbeiten | Quelltext bearbeiten]

Man betrachtet nun die Funktionenfolge f n : C - C {\displaystyle f_{n}:\mathbb {C} \to \mathbb {C} } der Partialsummen mit:

f n : C - C x - f n ( z ) = k = 0 n 1 n ! ( - 1 2 s 2 ) n ( z - m ) 2 n . {\displaystyle {\begin{array}{rrcl}f_{n}:&\mathbb {C} &\rightarrow &\mathbb {C} \\&x&\mapsto &\displaystyle f_{n}(z)=\sum _{k=0}^{n}{\frac {1}{n!}}\cdot \left({\frac {-1}{2\cdot \sigma ^{2}}}\right)^{n}\cdot (z-\mu )^{2n}\end{array}}_{.}}

Die Funktionenfolge ( f n ) n N {\displaystyle (f_{n})_{n\in \mathbb {N} }} konvergiert auf jeder abgeschlossenen Einheitskreisscheibe D r ( 0 ) - = { z C : | z | <= r } {\displaystyle {\overline {D_{r}(0)}}=\{z\in \mathbb {C} \,\colon \,|z|\leq r\}} gleichmassig gegen f {\displaystyle f} .

Integration uber Dichtefunktion

[Bearbeiten | Quelltext bearbeiten]

Da die Partialsummenfolgen ( f n ) n N {\displaystyle (f_{n})_{n\in \mathbb {N} }} der Potenzreihe gleichmassig auf abgeschlossenen Kreisscheiben D r ( 0 ) - = { x C : | x | <= r } {\displaystyle {\overline {D_{r}(0)}}=\{x\in \mathbb {C} \,\colon \,|x|\leq r\}} fur beliebige r > 0 {\displaystyle r>0} gegen die f {\displaystyle f} konvergieren, kann man Integration und Grenzwertprozess der Funktionenfolge vertauschen und bei die Integration summandenweise integrieren. Die Erweiterung Taylorreihe ist hilfreich um Wahrscheinlichkeiten numerisch berechnet werden mussen. Man erhalt die folgende Stammfunktion der Dichtefunktion:

F ^ : D r ( 0 ) - C z - F ^ ( x ) = k = 0 1 n ! ( 2 n + 1 ) ( - 1 2 s 2 ) n ( x - m ) 2 n + 1 . {\displaystyle {\begin{array}{rrcl}{\widehat {F}}:&D_{r}(0)&\rightarrow &\mathbb {C} \\&z&\mapsto &\displaystyle {\widehat {F}}(x)=\sum _{k=0}^{\infty }{\frac {1}{n!\cdot (2n+1)}}\cdot \left({\frac {-1}{2\cdot \sigma ^{2}}}\right)^{n}\cdot (x-\mu )^{2n+1}\end{array}}_{.}}

Anwendung des Identitatsatzes

[Bearbeiten | Quelltext bearbeiten]

F ^ {\displaystyle {\widehat {F}}} ist ebenfalls eine ganze Funktion und uber die Anwendung des Identitatssatzes (zentraler Satz der Funktionentheorie) erhalt man auch eine eindeutige Darstellung auf ganz C {\displaystyle \mathbb {C} } fur F ^ {\displaystyle {\widehat {F}}} . Wenn man nun F ^ {\displaystyle {\widehat {F}}} wieder auf R {\displaystyle \mathbb {R} } einschrankt, erhalt man eine Stammfunktion als Potenzreihe (analog zur Potenzreihendarstellung der Exponentialfunktion). Die Stammfunktion F ^ : R - R {\displaystyle {\widehat {F}}:\mathbb {R} \to \mathbb {R} } ist aber nicht die gesuchte Verteilungsfunktion der Dichtefunktion, weil eine kumulative Verteilungsfunktionen zusatzlich weitere Eigenschaften erfullen muss.

Von Stammfunktion zur Verteilungsfunktion

[Bearbeiten | Quelltext bearbeiten]

Die Stammfunktion F ^ : R - R {\displaystyle {\widehat {F}}:\mathbb {R} \to \mathbb {R} } besitzt in der Reihendarstellung nur ungerade Exponenten. Daher gilt F ^ ( - x ) = - F ^ ( x ) {\displaystyle {\widehat {F}}(-x)=-{\widehat {F}}(x)} . Da das Integral uber die Wahrscheinlichkeitsdichte normiert ist, folgt aus Symmetriegrunden und der Berechnung der ungeigentlichen Integrale von [ 0 , + ) {\displaystyle [0,+\infty )} und ( - , 0 ] {\displaystyle (-\infty ,0]} :

lim x - - F ^ ( x ) = - 1 2 lim x - + F ^ ( x ) = + 1 2 {\displaystyle \lim _{x\to -\infty }{\widehat {F}}(x)=-{\frac {1}{2}}\wedge \lim _{x\to +\infty }{\widehat {F}}(x)=+{\frac {1}{2}}}

Damit die Stammfunktion auch die folgenden Eigenschaften einer kumulativen Verteilungsfunktion besitzt, definiert man die Verteilungsfunktion als F ( x ) := 1 2 + F ^ ( x ) {\displaystyle F(x):={\frac {1}{2}}+{\widehat {F}}(x)} .

lim x - - F ( x ) = 0 lim x - + F ( x ) = 1 {\displaystyle \lim _{x\to -\infty }F(x)=0\wedge \lim _{x\to +\infty }F(x)=1}

Der Erweiterung auf die komplexen Zahl in der vorausgegehenden Erlauterung war nur notwendig, um die Eindeutung der Taylorentwicklung uber den Identitatssatz aus der Funktionentheorie verwenden zu konnen. Danach kann man diese eindeutige Reihendarstellung wieder auf R {\displaystyle \mathbb {R} } einschranken.

Numerische Berechnung

[Bearbeiten | Quelltext bearbeiten]

Die Wahrscheinlichkeiten konnen mithilfe der Partialsummen der Taylordarstellung der Verteilungsfunktion beliebig genau berechnet. Dieses Vorgehen ist nicht ungewohnlich, da die Eulersche Zahl selbst uber die Taylorentwicklung der Exponentialfunktion e = exp ( 1 ) = n = 0 1 n ! {\displaystyle e=\exp(1)=\sum _{n=0}^{\infty }{\frac {1}{n!}}} als irrationale Zahl approximiert wird.

Standardnormalverteilung

[Bearbeiten | Quelltext bearbeiten]

Die Standardnormalverteilung besitzt als Folgerung der obigen Darstellung die folgende Veteilungsfunktion:

F ( x ) = 1 2 p - x e - 1 2 t 2 d t = 1 2 + 1 2 p n = 0 1 n ! ( 2 n + 1 ) ( - 1 2 ) n x 2 n + 1 , x R {\displaystyle F(x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t=\displaystyle {\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\cdot \sum _{n=0}^{\infty }{\frac {1}{n!\cdot (2n+1)}}\cdot \left({\frac {-1}{2}}\right)^{n}\cdot x^{2n+1},\quad x\in \mathbb {R} }

Mit den numerischen Berechnungen uber die Taylordarstellung der Verteilungsfunktion kann man u. a. auch Werte aus der Standardnormalverteilungstabelle bestimmen, die eine Standardform verwendet. Dabei bedient man sich der Tatsache, dass die lineare Transformation einer normalverteilten Zufallsvariablen zu einer neuen Zufallsvariable fuhrt, die ebenfalls normalverteilt ist. Konkret heisst das, wenn X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)} und Y = a X + b {\displaystyle Y=aX+b} , wobei a {\displaystyle a} und b {\displaystyle b} Konstanten sind mit a 0 {\displaystyle a\neq 0} , dann gilt Y ~ N ( a m + b , a 2 s 2 ) {\displaystyle Y\sim {\mathcal {N}}\left(a\mu +b,a^{2}\sigma ^{2}\right)} . Damit bilden Normalverteilungen eine Lage-Skalen-Familie.

Wenn man durch die Substitution t = s z + m {\displaystyle t=\sigma z+\mu } statt t {\displaystyle t} eine neue Integrationsvariable z := t - m s {\displaystyle z:={\tfrac {t-\mu }{\sigma }}} einfuhrt, ergibt sich mit m = 0 {\displaystyle \mu =0} und s = 1 {\displaystyle \sigma =1} (gemass dem oben angefuhrten Linearitatskriterium)

F ( x ) = 1 2 p - ( x - m ) / s e - 1 2 z 2 d z = Ph ( x - m s ) . {\displaystyle F(x)={\frac {1}{\sqrt {2\pi }}}\int \limits _{-\infty }^{(x-\mu )/\sigma }e^{-{\frac {1}{2}}z^{2}}\mathrm {d} z=\Phi \left({\frac {x-\mu }{\sigma }}\right).}

Dabei ist Ph {\displaystyle \Phi } die Verteilungsfunktion der Standardnormalverteilung:

Ph ( x ) = 1 2 p - x e - 1 2 t 2 d t . {\displaystyle \Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t.}

Mit der Fehlerfunktion erf {\displaystyle \operatorname {erf} } lasst sich Ph {\displaystyle \Phi } darstellen als

Ph ( x ) = 1 2 ( 1 + erf ( x 2 ) ) . {\displaystyle \Phi (x)={\frac {1}{2}}\left(1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right).}

Potenzreihendarstellung der Dichte- und Verteilungsfunktion

[Bearbeiten | Quelltext bearbeiten]

Die Potenzreihendarstellung der Exponentialfunktion, der Sinus- und Kosinusfunktion zahlt zu den zentralen Ergebnissen aus der Funktionentheorie, wobei sich jeder holomorphe Funktion lokal in Potenzreihen entwickeln lasst. Fur die Dichtefunktion erhalt man die Potenzreihendarstellung unmittelbar durch Einsetzen und der Verkettung von zwei ganzen Funktionen f ( x ) = e x {\displaystyle f(x)=e^{x}} und g ( x ) = - 1 2 x 2 {\displaystyle g(x)=-{\frac {1}{2}}x^{2}} .

Potenzreihendarstellung der Dichtefunktion

[Bearbeiten | Quelltext bearbeiten]

Erweitert man den Definitionsbereich der Dichtefunktion ph : C - C {\displaystyle \varphi :\mathbb {C} \to \mathbb {C} } auf die komplexen Zahlen, so erhalt man eine ganze Funktion fur die Dichtefunktion der Standardnormalverteilung:

ph : C - C z - ph ( z ) = 1 2 p e - z 2 2 = 1 2 p n = 0 ( - 1 ) n n ! 2 n z 2 n = e - z 2 2 {\displaystyle {\begin{array}{rrcl}\varphi :&\mathbb {C} &\rightarrow &\mathbb {C} \\&z&\mapsto &\displaystyle \varphi (z)={\frac {1}{\sqrt {2\pi }}}\cdot e^{-{\frac {z^{2}}{2}}}={\frac {1}{\sqrt {2\pi }}}\cdot \underbrace {\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\cdot 2^{n}}}\cdot z^{2n}} _{=e^{-{\frac {z^{2}}{2}}}}\end{array}}}

Dabei erhalt man die Potenzreihendarstellung durch Einsetzen in der Potenzreihendarstellung der Exponentialfunktion.

Potenzreihendarstellung der Verteilungsfunktion

[Bearbeiten | Quelltext bearbeiten]

Betrachtet man nun die Funktionenfolge ( ph n ) n N {\displaystyle (\varphi _{n})_{n\in \mathbb {N} }} mit ph n : C - C {\displaystyle \varphi _{n}:\mathbb {C} \to \mathbb {C} } als Partialsummen der Potenzreihe:

ph n : C - C x - ph n ( x ) = k = 0 n ( - 1 ) k k ! 2 k z 2 k , {\displaystyle {\begin{array}{rrcl}\varphi _{n}:&\mathbb {C} &\rightarrow &\mathbb {C} \\&x&\mapsto &\displaystyle \varphi _{n}(x)=\sum _{k=0}^{n}{\frac {(-1)^{k}}{k!\cdot 2^{k}}}\cdot z^{2k}\end{array}},}

so konvergiert die Funktionenfolge ( ph n ) n N {\displaystyle (\varphi _{n})_{n\in \mathbb {N} }} konvergiert auf jeder abgeschlossenen Einheitskreisscheibe D r ( 0 ) - = { z C : | z | <= r } {\displaystyle {\overline {D_{r}(0)}}=\{z\in \mathbb {C} \,\colon \,|z|\leq r\}} gleichmassig gegen ph {\displaystyle \varphi } . Auf D r ( 0 ) - {\displaystyle {\overline {D_{r}(0)}}} existiert nun die Stammfunktion:

Ph ^ r : D r ( 0 ) - - C x - Ph ^ r ( x ) = 1 2 p n = 0 ( - 1 ) n n ! 2 n z 2 n + 1 2 n + 1 {\displaystyle {\begin{array}{rrcl}{\widehat {\Phi }}_{r}:&{\overline {D_{r}(0)}}&\rightarrow &\mathbb {C} \\&x&\mapsto &\displaystyle {\widehat {\Phi }}_{r}(x)={\frac {1}{\sqrt {2\pi }}}\cdot \sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\cdot 2^{n}}}\cdot {\frac {z^{2n+1}}{2n+1}}\end{array}}}

Nach dem Identitatssatz erhalt man eine Stammfunktion Ph ^ {\displaystyle {\widehat {\Phi }}} mit auf ganz C {\displaystyle \mathbb {C} } mit Ph ^ ( 0 ) = 0 {\displaystyle {\widehat {\Phi }}(0)=0} , da die abgeschlossene Kreisscheibe D r ( 0 ) - {\displaystyle {\overline {D_{r}(0)}}} eine nicht diskrete in C {\displaystyle \mathbb {C} } ist. Insgesamt gilt mit der Achsensymmetrie der Dichtefunktion ph {\displaystyle \varphi } (also ph ( x ) = ph ( - x ) {\displaystyle \varphi (x)=\varphi (-x)} ) die Taylordarstellung der Verteilungsfunktion:

Ph : R - R x - 1 2 + Ph ^ ( x ) = 1 2 + 1 2 p n = 0 ( - 1 ) n n ! 2 n z 2 n + 1 2 n + 1 {\displaystyle {\begin{array}{rrcl}\Phi :&\mathbb {R} &\rightarrow &\mathbb {R} \\&x&\mapsto &\displaystyle {\frac {1}{2}}+{\widehat {\Phi }}(x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\cdot \sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\cdot 2^{n}}}\cdot {\frac {z^{2n+1}}{2n+1}}\end{array}}}

Potenzreihendarstellung einer beliebigen Verteilungsfunktion

[Bearbeiten | Quelltext bearbeiten]

Mit F ( x ) = Ph ( x - m s ) {\displaystyle F(x)=\Phi \left({\frac {x-\mu }{\sigma }}\right)} erhalt man durch Einsetzen in die Verteilungsfunktion der Standardnormalverteilung ein Potenzreihe mit Entwicklungspunkt m {\displaystyle \mu } :

F : R - R x - Ph ( x - m s ) = 1 2 + 1 2 p n = 0 ( - 1 ) n n ! 2 n s 2 n + 1 ( z - m ) 2 n + 1 2 n + 1 = 1 2 + 1 2 p s 2 n = 0 ( - 1 ) n n ! ( 2 s 2 ) n ( z - m ) 2 n + 1 2 n + 1 {\displaystyle {\begin{array}{rrcl}F:&\mathbb {R} &\rightarrow &\mathbb {R} \\&x&\mapsto &\displaystyle \Phi \left({\frac {x-\mu }{\sigma }}\right)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\cdot \sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\cdot 2^{n}\cdot \sigma ^{2n+1}}}\cdot {\frac {(z-\mu )^{2n+1}}{2n+1}}\\&&&=\displaystyle {\frac {1}{2}}+{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\cdot \sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\cdot (2\cdot \sigma ^{2})^{n}}}\cdot {\frac {(z-\mu )^{2n+1}}{2n+1}}\end{array}}}

Der Graph der Dichtefunktion f ( x | m , s 2 ) {\displaystyle f(x\mid \mu ,\sigma ^{2})} bildet eine Gausssche Glockenkurve und ist achsensymmetrisch mit dem Parameter m {\displaystyle \mu } als Symmetriezentrum, der auch den Erwartungswert, den Median und den Modus der Verteilung darstellt. Vom zweiten Parameter s {\displaystyle \sigma } hangen Hohe und Breite der Wahrscheinlichkeitsdichte ab, die Wendepunkte liegen bei x = m +- s {\displaystyle x=\mu \pm \sigma } .

Der Graph der Verteilungsfunktion F {\displaystyle F} ist punktsymmetrisch zum Punkt ( m ; 0 , 5 ) . {\displaystyle (\mu ;0{,}5).} Fur m = 0 {\displaystyle \mu =0} gilt insbesondere ph ( - x ) = ph ( x ) {\displaystyle \varphi (-x)=\varphi (x)} und Ph ( - x ) = 1 - Ph ( x ) {\displaystyle \Phi (-x)=1-\Phi (x)} fur alle x R {\displaystyle x\in \mathbb {R} } .

Als Wahrscheinlichkeitsverteilung ist die Gesamtflache unter der Kurve gleich 1 {\displaystyle 1} . Dass jede Normalverteilung normiert ist, ergibt sich uber die lineare Substitution z = x - m s {\displaystyle z={\tfrac {x-\mu }{\sigma }}} :

- + 1 s 2 p e - 1 2 ( x - m s ) 2 d x = 1 2 p - + e - 1 2 z 2 d z = 1 {\displaystyle \int _{-\infty }^{+\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}\mathrm {d} x={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{+\infty }e^{-{\frac {1}{2}}z^{2}}\mathrm {d} z=1} .

Fur die Normiertheit des letzteren Integrals siehe Fehlerintegral.

Momenterzeugende Funktion und hohere Momente

[Bearbeiten | Quelltext bearbeiten]

Die momenterzeugende Funktion der N ( m , s 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} -verteilten Normalverteilung X {\displaystyle X} lautet

m X ( t ) = exp ( m t + s 2 t 2 2 ) {\displaystyle m_{X}(t)=\exp \left(\mu t+{\frac {\sigma ^{2}t^{2}}{2}}\right)} .

Nach dem stochastischen Moment 1. Ordnung, dem Erwartungswert, und dem zentralen Moment 2. Ordnung, der Varianz, ist die Schiefe das zentrale Moment 3. Ordnung. Es ist unabhangig von den Parametern m {\displaystyle \mu } und s {\displaystyle \sigma } immer den Wert 0 {\displaystyle 0} . Die Wolbung als zentrales Moment 4. Ordnung ist ebenfalls von m {\displaystyle \mu } und s {\displaystyle \sigma } unabhangig und ist gleich 3 {\displaystyle 3} . Um die Wolbungen anderer Verteilungen besser einschatzen zu konnen, werden sie oft mit der Wolbung der Normalverteilung verglichen. Dabei wird die Wolbung der Normalverteilung auf 0 {\displaystyle 0} normiert (Subtraktion von 3); diese Grosse wird als Exzess bezeichnet.

Die ersten Momente wie sind folgt:

Ordnung Moment zentrales Moment
k {\displaystyle k} E ( X k ) {\displaystyle \operatorname {E} (X^{k})} E ( ( X - m ) k ) {\displaystyle \operatorname {E} ((X-\mu )^{k})}
0 1 {\displaystyle 1} 1 {\displaystyle 1}
1 m {\displaystyle \mu } 0 {\displaystyle 0}
2 m 2 + s 2 {\displaystyle \mu ^{2}+\sigma ^{2}} s 2 {\displaystyle \sigma ^{2}}
3 m 3 + 3 m s 2 {\displaystyle \mu ^{3}+3\mu \sigma ^{2}} 0 {\displaystyle 0}
4 m 4 + 6 m 2 s 2 + 3 s 4 {\displaystyle \mu ^{4}+6\mu ^{2}\sigma ^{2}+3\sigma ^{4}} 3 s 4 {\displaystyle 3\sigma ^{4}}
5 m 5 + 10 m 3 s 2 + 15 m s 4 {\displaystyle \mu ^{5}+10\mu ^{3}\sigma ^{2}+15\mu \sigma ^{4}} 0 {\displaystyle 0}
6 m 6 + 15 m 4 s 2 + 45 m 2 s 4 + 15 s 6 {\displaystyle \mu ^{6}+15\mu ^{4}\sigma ^{2}+45\mu ^{2}\sigma ^{4}+15\sigma ^{6}} 15 s 6 {\displaystyle 15\sigma ^{6}}
7 m 7 + 21 m 5 s 2 + 105 m 3 s 4 + 105 m s 6 {\displaystyle \mu ^{7}+21\mu ^{5}\sigma ^{2}+105\mu ^{3}\sigma ^{4}+105\mu \sigma ^{6}} 0 {\displaystyle 0}
8 m 8 + 28 m 6 s 2 + 210 m 4 s 4 + 420 m 2 s 6 + 105 s 8 {\displaystyle \mu ^{8}+28\mu ^{6}\sigma ^{2}+210\mu ^{4}\sigma ^{4}+420\mu ^{2}\sigma ^{6}+105\sigma ^{8}} 105 s 8 {\displaystyle 105\sigma ^{8}}

Alle zentralen Momente m n {\displaystyle \mu _{n}} lassen sich durch die Standardabweichung s {\displaystyle \sigma } darstellen:

m n = { 0 wenn n ungerade ( n - 1 ) ! ! s n wenn n gerade {\displaystyle \mu _{n}={\begin{cases}0&{\text{wenn }}n{\text{ ungerade}}\\(n-1)!!\cdot \sigma ^{n}&{\text{wenn }}n{\text{ gerade}}\end{cases}}}

dabei wurde die Doppelfakultat verwendet:

( n - 1 ) ! ! = ( n - 1 ) ( n - 3 ) ... 3 1 f u " r n gerade . {\displaystyle (n-1)!!=(n-1)\cdot (n-3)\cdot \ldots \cdot 3\cdot 1\quad \mathrm {f{\ddot {u}}r} \;n{\text{ gerade}}.}

Auch fur X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} kann eine Formel fur nicht-zentrale Momente angegeben werden. Dafur transformiert man Z ~ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} und wendet den binomischen Lehrsatz an.

E ( X k ) = E ( ( s Z + m ) k ) = j = 0 k ( k j ) E ( Z j ) s j m k - j = i = 0 k / 2 ( k 2 i ) E ( Z 2 i ) s 2 i m k - 2 i = i = 0 k / 2 ( k 2 i ) ( 2 i - 1 ) ! ! s 2 i m k - 2 i . {\displaystyle \operatorname {E} (X^{k})=\operatorname {E} ((\sigma Z+\mu )^{k})=\sum _{j=0}^{k}{k \choose j}\operatorname {E} (Z^{j})\sigma ^{j}\mu ^{k-j}=\sum _{i=0}^{\lfloor k/2\rfloor }{k \choose 2i}\operatorname {E} (Z^{2i})\sigma ^{2i}\mu ^{k-2i}=\sum _{i=0}^{\lfloor k/2\rfloor }{k \choose 2i}(2i-1)!!\sigma ^{2i}\mu ^{k-2i}.}

Die mittlere absolute Abweichung ist 2 p s 0 , 80 s {\displaystyle {\sqrt {\frac {2}{\pi }}}\,\sigma \approx 0{,}80\sigma } und der Interquartilsabstand 1,349 s {\displaystyle \approx 1{,}349\sigma } .

Standardabweichung

[Bearbeiten | Quelltext bearbeiten]
Intervalle um m {\displaystyle \mu } bei der Normalverteilung

Aus der Standardnormalverteilungstabelle ist ersichtlich, dass fur normalverteilte Zufallsvariablen jeweils ungefahr

68,3 % der Realisierungen im Intervall m +- s {\displaystyle \mu \pm \sigma } ,
95,4 % im Intervall m +- 2 s {\displaystyle \mu \pm 2\sigma } und
99,7 % im Intervall m +- 3 s {\displaystyle \mu \pm 3\sigma }

liegen. Da in der Praxis viele Zufallsvariablen annahernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt. So wird beispielsweise s {\displaystyle \sigma } oft als die halbe Breite des Intervalls angenommen, das die mittleren zwei Drittel der Werte in einer Stichprobe umfasst.

Realisierungen ausserhalb der zwei- bis dreifachen Standardabweichung gelten oft als verdachtig, Ausreisser zu sein. Sie konnen ein Hinweis auf grobe Fehler der Datenerfassung oder auch auf das Nichtvorhandensein einer Normalverteilung sein. Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert ausserhalb der zweifachen Standardabweichung und ca. jeder 370. Messwert ausserhalb der dreifachen Standardabweichung, ohne dass es sich dabei um Ausreisser handelt.

Abhangigkeit der Wahrscheinlichkeit P ( - z <= Z <= z ) {\displaystyle P(-z\leq Z\leq z)} einer standardnormalverteilten Zufallsvariablen Z {\displaystyle Z} von z [ 0 , 4 ] {\displaystyle z\in [0,4]}
Abhangigkeit der Wahrscheinlichkeit P ( | Z | > z ) {\displaystyle P(|Z|>z)} einer standardnormalverteilten Zufallsvariablen Z {\displaystyle Z} von z [ 0 , 6 ] {\displaystyle z\in [0,6]}

Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} einen Wert im Intervall [ m - z s , m + z s ] {\displaystyle [\mu -z\sigma ,\mu +z\sigma ]} annimmt, ist genau so gross, wie die Wahrscheinlichkeit, dass ein standardnormalverteilte Zufallsvariable Z {\displaystyle Z} einen Wert im Intervall [ - z , z ] {\displaystyle [-z,z]} annimmt, es gilt also

p = P ( X [ m - z s , m + z s ] ) = P ( Z [ - z , z ] ) {\displaystyle p=P(X\in [\mu -z\sigma ,\mu +z\sigma ])=P(Z\in [-z,z])} .[14]

Damit konnen bestimmte Wahrscheinlichkeitsaussagen fur Normalverteilungen mit beliebigen Parametern m {\displaystyle \mu } und s 2 {\displaystyle \sigma ^{2}} auf die Standardnormalverteilung zuruckgefuhrt werden.

Die Wahrscheinlichkeit p {\displaystyle p} kann alternativ durch die Verteilungsfunktion Ph {\displaystyle \Phi } der Standardnormalverteilung oder durch die Fehlerfunktion erf {\displaystyle \operatorname {erf} } ausgedruckt werden:

p = 2 Ph ( z ) - 1 = erf ( z / 2 ) . {\displaystyle p=2\Phi (z)-1=\operatorname {erf} (z/{\sqrt {2}}).} [15]

Umgekehrt ist zu einer vorgegebenen Wahrscheinlichkeit p ( 0 , 1 ) {\displaystyle p\in (0,1)} die Stelle z {\displaystyle z} , fur die p = P ( Z [ - z , z ] ) {\displaystyle p=P(Z\in [-z,z])} gilt, durch

z = Ph - 1 ( p + 1 2 ) = 2 erf - 1 ( p ) {\displaystyle z=\Phi ^{-1}\left({\frac {p+1}{2}}\right)={\sqrt {2}}\cdot \operatorname {erf} ^{-1}(p)}

gegeben.

Wahrscheinlichkeiten fur eine standardnormalverteilte Zufallsvariable Z {\displaystyle Z}
z {\displaystyle z} P ( Z [ - z , z ] ) {\displaystyle P(Z\in [-z,z])} P ( Z [ - z , z ] ) {\displaystyle P(Z\notin [-z,z])}
0,674490 50 % 50 %
1 68,268 9492 % 31,731 0508 %
1,17741
(Halbwertsbreite)
76,096 8106 % 23,903 1891 %
1,644854 90 % 10 %
2 95,449 9736 % 4,550 0264 %
2,575829 99 % 1 %
3 99,730 0204 % 0,269 9796 %
3,290527 99,9 % 0,1 %
3,890592 99,99 % 0,01 %
4 99,993 666 % 0,006 334 %
4,417173 99,999 % 0,001 %
4,891638 99,9999 % 0,0001 %
5 99,999 942 6697 % 0,000 057 3303 %
5,326724 99,999 99 % 0,000 01 %
5,730729 99,999 999 % 0,000 001 %
6 99,999 999 8027 % 0,000 000 1973 %

Halbwertsbreite

[Bearbeiten | Quelltext bearbeiten]

Der Wert der Dichtefunktion der Standardnormalverteilung fallt auf die Halfte des Maximums, wenn e - t 2 / 2 = 1 2 {\displaystyle e^{-t^{2}/2}={\frac {1}{2}}} , also bei t = 2 ln 2 1,177 {\displaystyle t={\sqrt {2\ln 2}}\approx 1{,}177} . Die Halbwertsbreite ist damit das 2 2 ln 2 2,355 {\displaystyle 2{\sqrt {2\ln 2}}\approx 2{,}355} fache der Standardabweichung.

Variationskoeffizient

[Bearbeiten | Quelltext bearbeiten]

Aus Erwartungswert m {\displaystyle \mu } und Standardabweichung s {\displaystyle \sigma } der N ( m , s 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} -Verteilung erhalt man unmittelbar den Variationskoeffizienten

VarK = s m . {\displaystyle \operatorname {VarK} ={\frac {\sigma }{\mu }}.}

Die kumulantenerzeugende Funktion ist

g X ( t ) = m t + s 2 t 2 2 {\displaystyle g_{X}(t)=\mu t+{\frac {\sigma ^{2}t^{2}}{2}}}

Damit ist die erste Kumulante k 1 = m {\displaystyle \kappa _{1}=\mu } , die zweite ist k 2 = s 2 {\displaystyle \kappa _{2}=\sigma ^{2}} und alle weiteren Kumulanten verschwinden.

Charakteristische Funktion

[Bearbeiten | Quelltext bearbeiten]

Die charakteristische Funktion fur eine standardnormalverteilte Zufallsvariable Z ~ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} ist

ps Z ( t ) = e - 1 2 t 2 {\displaystyle \psi _{Z}(t)=e^{-{\frac {1}{2}}t^{2}}} .

Fur eine Zufallsvariable X ~ N ( m , s 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} erhalt man daraus mit X = s Z + m {\displaystyle X=\sigma Z+\mu } :

ps X ( t ) = E ( e i t ( s Z + m ) ) = E ( e i t s Z e i t m ) = e i t m E ( e i t s Z ) = e i t m ps Z ( s t ) = exp ( i t m - 1 2 s 2 t 2 ) {\displaystyle \psi _{X}(t)=\operatorname {E} (e^{it(\sigma Z+\mu )})=\operatorname {E} (e^{it\sigma Z}e^{it\mu })=e^{it\mu }\operatorname {E} (e^{it\sigma Z})=e^{it\mu }\psi _{Z}(\sigma t)=\exp \left(it\mu -{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)} .

Invarianz gegenuber Faltung

[Bearbeiten | Quelltext bearbeiten]

Die Normalverteilung ist invariant gegenuber der Faltung, d. h., die Summe unabhangiger normalverteilter Zufallsvariablen ist wieder normalverteilt (siehe dazu auch unter stabile Verteilungen bzw. unter unendliche teilbare Verteilungen). Somit bildet die Normalverteilung eine Faltungshalbgruppe in ihren beiden Parametern. Eine veranschaulichende Formulierung dieses Sachverhaltes lautet: Die Faltung einer Gausskurve der Standardabweichung s a {\displaystyle \sigma _{a}} mit einer Gausskurve der Standardabweichung s b {\displaystyle \sigma _{b}} ergibt wieder eine Gausskurve mit der Standardabweichung

s c = s a 2 + s b 2 {\displaystyle \sigma _{c}={\sqrt {\sigma _{a}^{2}+\sigma _{b}^{2}}}} .

Sind also X , Y {\displaystyle X,Y} zwei unabhangige Zufallsvariablen mit

X ~ N ( m X , s X 2 ) , Y ~ N ( m Y , s Y 2 ) , {\displaystyle X\sim {\mathcal {N}}(\mu _{X},\sigma _{X}^{2}),\ Y\sim {\mathcal {N}}(\mu _{Y},\sigma _{Y}^{2}),}

so ist deren Summe ebenfalls normalverteilt:

X + Y ~ N ( m X + m Y , s X 2 + s Y 2 ) {\displaystyle X+Y\sim {\mathcal {N}}(\mu _{X}+\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})} .

Das kann beispielsweise mit Hilfe von charakteristischen Funktionen gezeigt werden, indem man verwendet, dass die charakteristische Funktion der Summe das Produkt der charakteristischen Funktionen der Summanden ist (vgl. Faltungssatz der Fouriertransformation).

Damit ist jede Linearkombination wieder normalverteilt. Nach dem Satz von Cramer gilt sogar die Umkehrung: Ist eine normalverteilte Zufallsvariable die Summe von unabhangigen Zufallsvariablen, dann sind die Summanden ebenfalls normalverteilt. Man spricht davon, dass die Normalverteilung reproduktiv ist bzw. die Reproduktivitatseigenschaft besitzt.

Die Dichtefunktion der Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d. h., die Fourier-Transformierte einer Gausskurve ist wieder eine Gausskurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gausskurven ist konstant; es gilt die Heisenbergsche Unscharferelation.

Eine normalverteilte Zufallsvariable hat die Shannon-Entropie log 2 ( s 2 p e ) {\displaystyle \log _{2}\left(\sigma {\sqrt {2\,\pi \,e}}\right)} .[16][17] Sie hat fur gegebenen Erwartungswert und gegebene Varianz die grosste Entropie unter allen stetigen Verteilungen.[18]

Beispiel zur Standardabweichung

[Bearbeiten | Quelltext bearbeiten]

Die Korpergrosse des Menschen ist naherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Madchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Madchen eine durchschnittliche Korpergrosse von 166,3 cm (Standardabweichung 6,39 cm) und bei den Jungen eine durchschnittliche Korpergrosse von 176,8 cm (Standardabweichung 7,46 cm) gemessen.[19]

Demnach lasst obige Schwankungsbreite erwarten, dass 68,3 % der Madchen eine Korpergrosse im Bereich 166,3 cm +- 6,39 cm und 95,4 % im Bereich 166,3 cm +- 12,8 cm haben, also

  • 16 % [ (100 % - 68,3 %)/2] der Madchen kleiner als 160 cm (und 16 % entsprechend grosser als 173 cm) sind und
  • 2,5 % [ (100 % - 95,4 %)/2] der Madchen kleiner als 154 cm (und 2,5 % entsprechend grosser als 179 cm) sind.

Fur die Jungen lasst sich erwarten, dass 68,3 % eine Korpergrosse im Bereich 176,8 cm +- 7,46 cm und 95,4 % im Bereich 176,8 cm +- 14,92 cm haben, also

  • 16 % der Jungen kleiner als 169 cm (und 16 % grosser als 184 cm) und
  • 2,5 % der Jungen kleiner als 162 cm (und 2,5 % grosser als 192 cm) sind.

Kontaminierte Normalverteilung

[Bearbeiten | Quelltext bearbeiten]
Normalverteilung (a) und kontaminierte Normalverteilung (b)

Von der Verteilung

P = 0 , 9 N ( m , s 2 ) + 0 , 1 N ( m , ( 10 s ) 2 ) {\displaystyle P=0{,}9\cdot {\mathcal {N}}(\mu ,\sigma ^{2})+0{,}1\cdot {\mathcal {N}}(\mu ,(10\sigma )^{2})}

ist die Standardabweichung s - {\displaystyle {\overline {\sigma }}} . Die Verteilung ist optisch kaum von der Normalverteilung zu unterscheiden (siehe Bild), aber bei ihr liegen im Intervall m +- s - {\displaystyle \mu \pm {\overline {\sigma }}} 92,5 % der Werte. Solche kontaminierten Normalverteilungen sind in der Praxis haufig; das genannte Beispiel beschreibt die Situation, wenn zehn Prazisionsmaschinen etwas herstellen, aber eine davon schlecht justiert ist und mit zehnmal so hohen Abweichungen wie die anderen neun produziert.

Gestutzte Normalverteilung

[Bearbeiten | Quelltext bearbeiten]

Bei der gestutzten Normalverteilung ist die Wahrscheinlichkeitsdichte f {\displaystyle f} ausserhalb eines Intervalls [ a , b ] {\displaystyle [a,b]} mit a , b R {\displaystyle a,b\in \mathbb {R} } gleich Null. Entsprechend erhoht sich f {\displaystyle f} in dem Intervall, so dass das Integral a b f = 1 {\displaystyle \int _{a}^{b}f=1} bleibt.

Hauptartikel: Six Sigma

Da der Anteil der Werte ausserhalb der sechsfachen Standardabweichung mit ca. 2 ppb verschwindend klein wird, gilt ein solches Intervall als gutes Mass fur eine nahezu vollstandige Abdeckung aller Werte. Das wird im Qualitatsmanagement durch die Methode Six Sigma genutzt, indem die Prozessanforderungen Toleranzgrenzen von mindestens 6 s {\displaystyle 6\sigma } vorschreiben. Allerdings geht man dort von einer langfristigen Erwartungswertverschiebung um 1,5 Standardabweichungen aus, sodass der zulassige Fehleranteil auf 3,4 ppm steigt. Dieser Fehleranteil entspricht einer viereinhalbfachen Standardabweichung ( 4 , 5 s {\displaystyle 4{,}5\ \sigma } ). Ein weiteres Problem der 6 s {\displaystyle 6\sigma } -Methode ist, dass die 6 s {\displaystyle 6\sigma } -Punkte praktisch nicht bestimmbar sind. Bei unbekannter Verteilung (d. h., wenn es sich nicht ganz sicher um eine Normalverteilung handelt) grenzen zum Beispiel die Extremwerte von 1.400.000.000 Messungen ein 75-%-Konfidenzintervall fur die 6 s {\displaystyle 6\sigma } -Punkte ein.[20]

Beziehungen zu anderen Verteilungsfunktionen

[Bearbeiten | Quelltext bearbeiten]

Normalverteilung als Grenzverteilung der Binomialverteilung

[Bearbeiten | Quelltext bearbeiten]

Die Binomialverteilung ist eine diskrete Verteilung, die sich aus einer Anzahl an Versuchen n {\displaystyle n} ergibt. Jeder einzelne Versuch hat die Wahrscheinlichkeit eines Erfolges p {\displaystyle p} . Die Binomialverteilung B ( k | p , n ) {\displaystyle B(k\mid p,n)} gibt dann die Wahrscheinlichkeit an, dass die n {\displaystyle n} Versuche genau k {\displaystyle k} -mal ein Erfolg war, mit 0 <= k <= n {\displaystyle 0\leq k\leq n} .

Durch einen Grenzubergang fur n - {\displaystyle n\to \infty } ergeben sich die Dichtefunktion einer Normalverteilung aus der Wahrscheinlichkeitsfunktion der Binomialverteilung (lokaler Grenzwertsatz von Moivre-Laplace) und die Verteilungsfunktion einer Normalverteilung aus der Verteilungsfunktion der Binomialverteilung (globaler Grenzwertsatz von Moivre-Laplace). Dies ist eine Rechtfertigung dafur, die Binomialverteilung mit den Parametern n {\displaystyle n} und p {\displaystyle p} fur hinreichend grosse n {\displaystyle n} durch die Normalverteilung N ( n p , n p ( 1 - p ) ) {\displaystyle {\mathcal {N}}(np,np(1-p))} zu approximieren.

Approximation der Binomialverteilung durch die Normalverteilung

[Bearbeiten | Quelltext bearbeiten]
Hauptartikel: Normal-Approximation

Die Normalverteilung kann zur Approximation der Binomialverteilung verwendet werden, wenn der Stichprobenumfang hinreichend gross und in der Grundgesamtheit der Anteil der gesuchten Eigenschaft weder zu gross noch zu klein ist (Satz von Moivre-Laplace, zentraler Grenzwertsatz, zur experimentellen Bestatigung siehe auch unter Galtonbrett).

Ist ein Bernoulli-Versuch mit n {\displaystyle n} voneinander unabhangigen Stufen (bzw. Zufallsexperimenten) mit einer Erfolgswahrscheinlichkeit p {\displaystyle p} gegeben, so lasst sich die Wahrscheinlichkeit fur k {\displaystyle k} Erfolge allgemein durch P ( X = k ) = ( n k ) p k ( 1 - p ) n - k , k = 0 , 1 , ... , n {\displaystyle P(X=k)={\tbinom {n}{k}}\cdot p^{k}\cdot (1-p)^{n-k},\quad k=0,1,\dotsc ,n} berechnen (Binomialverteilung).

Diese Binomialverteilung kann durch eine Normalverteilung approximiert werden, wenn n {\displaystyle n} hinreichend gross und p {\displaystyle p} weder zu gross noch zu klein ist. Als Faustregel dafur gilt n p ( 1 - p ) >= 9 {\displaystyle np(1-p)\geq 9} . Fur den Erwartungswert m {\displaystyle \mu } und die Standardabweichung s {\displaystyle \sigma } gilt dann:

m = n p {\displaystyle \mu =n\cdot p} und s = n p ( 1 - p ) {\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}} .

Damit gilt fur die Standardabweichung s >= 3 {\displaystyle \sigma \geq 3} .

Falls diese Bedingung nicht erfullt sein sollte, ist die Ungenauigkeit der Naherung immer noch vertretbar, wenn gilt: n p >= 4 {\displaystyle np\geq 4} und zugleich n ( 1 - p ) >= 4 {\displaystyle n(1-p)\geq 4} .

Folgende Naherung ist dann brauchbar:

P ( x 1 <= X <= x 2 ) = k = x 1 x 2 ( n k ) p k ( 1 - p ) n - k B V Ph ( x 2 + 0 , 5 - m s ) - Ph ( x 1 - 0 , 5 - m s ) N V . {\displaystyle {\begin{aligned}P(x_{1}\leq X\leq x_{2})&=\underbrace {\sum _{k=x_{1}}^{x_{2}}{n \choose k}\cdot p^{k}\cdot (1-p)^{n-k}} _{\mathrm {BV} }\\&\approx \underbrace {\Phi \left({\frac {x_{2}+0{,}5-\mu }{\sigma }}\right)-\Phi \left({\frac {x_{1}-0{,}5-\mu }{\sigma }}\right)} _{\mathrm {NV} }.\end{aligned}}}

Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrossert, um eine bessere Approximation gewahrleisten zu konnen. Dies nennt man auch ,,Stetigkeitskorrektur". Nur wenn s {\displaystyle \sigma } einen sehr hohen Wert besitzt, kann auf sie verzichtet werden.

Da die Binomialverteilung diskret ist, muss auf einige Punkte beim Rechnen mit einer binomialverteilten Zufallsvariablen X {\displaystyle X} geachtet werden:

  • Der Unterschied zwischen < {\displaystyle <} oder <= {\displaystyle \leq } (sowie zwischen grosser und grosser gleich) muss beachtet werden (was ja bei der Normalverteilung nicht der Fall ist). Deshalb muss bei P ( X < x ) {\displaystyle P(X die nachstkleinere naturliche Zahl gewahlt werden, d. h.
P ( X < x ) = P ( X <= x - 1 ) {\displaystyle P(X bzw. P ( X > x ) = P ( X >= x + 1 ) {\displaystyle P(X>x)=P(X\geq x+1)} ,
damit mit der Normalverteilung weitergerechnet werden kann.
Zum Beispiel: P ( X < 70 ) = P ( X <= 69 ) {\displaystyle P(X<70)=P(X\leq 69)}
  • Ausserdem ist
P ( X <= x ) = P ( 0 <= X <= x ) {\displaystyle P(X\leq x)=P(0\leq X\leq x)}
P ( X >= x ) = P ( x <= X <= n ) {\displaystyle P(X\geq x)=P(x\leq X\leq n)}
P ( X = x ) = P ( x <= X <= x ) {\displaystyle P(X=x)=P(x\leq X\leq x)} (unbedingt mit Stetigkeitskorrektur)
und lasst sich somit durch die oben angegebene Formel berechnen.

Der grosse Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden konnen.

Beziehung zur Cauchy-Verteilung

[Bearbeiten | Quelltext bearbeiten]

Der Quotient von zwei stochastisch unabhangigen N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)} -standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt.

Beziehung zur Chi-Quadrat-Verteilung

[Bearbeiten | Quelltext bearbeiten]

Das Quadrat einer standardnormalverteilten Zufallsvariablen hat eine Chi-Quadrat-Verteilung mit einem Freiheitsgrad. Also: Wenn Z ~ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} , dann Z 2 ~ kh 2 ( 1 ) {\displaystyle Z^{2}\sim \chi ^{2}(1)} . Weiterhin gilt: Wenn kh 2 ( r 1 ) , kh 2 ( r 2 ) , ... , kh 2 ( r n ) {\displaystyle \chi ^{2}(r_{1}),\chi ^{2}(r_{2}),\dotsc ,\chi ^{2}(r_{n})} gemeinsam stochastisch unabhangige Chi-Quadrat-verteilte Zufallsvariablen sind, dann gilt

Y = kh 2 ( r 1 ) + kh 2 ( r 2 ) + + kh 2 ( r n ) ~ kh 2 ( r 1 + + r n ) {\displaystyle Y=\chi ^{2}(r_{1})+\chi ^{2}(r_{2})+\dotsb +\chi ^{2}(r_{n})\sim \chi ^{2}(r_{1}+\dotsb +r_{n})} .

Daraus folgt mit unabhangig und standardnormalverteilten Zufallsvariablen Z 1 , Z 2 , ... , Z n {\displaystyle Z_{1},Z_{2},\dotsc ,Z_{n}} :[21]

Y = Z 1 2 + + Z n 2 ~ kh 2 ( n ) {\displaystyle Y=Z_{1}^{2}+\dotsb +Z_{n}^{2}\sim \chi ^{2}(n)}

Weitere Beziehungen sind:

  • Die Summe X n - 1 = 1 s 2 i = 1 n ( Z i - Z - ) 2 {\displaystyle X_{n-1}={\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}(Z_{i}-{\overline {Z}})^{2}} mit Z - := 1 n i = 1 n Z i {\displaystyle {\overline {Z}}:={\frac {1}{n}}\sum _{i=1}^{n}Z_{i}} und n {\displaystyle n} unabhangigen normalverteilten Zufallsvariablen Z i ~ N ( m , s 2 ) , i = 1 , ... , n {\displaystyle Z_{i}\sim {\mathcal {N}}(\mu ,\sigma ^{2}),\;i=1,\dotsc ,n} genugt einer Chi-Quadrat-Verteilung X n - 1 ~ kh n - 1 2 {\displaystyle X_{n-1}\sim \chi _{n-1}^{2}} mit ( n - 1 ) {\displaystyle (n-1)} Freiheitsgraden.
  • Die Chi-Quadrat-Verteilung wird zur Konfidenzschatzung fur die Varianz einer normalverteilten Grundgesamtheit verwendet.

Beziehung zur Rayleigh-Verteilung

[Bearbeiten | Quelltext bearbeiten]

Der Betrag Z = X 2 + Y 2 {\displaystyle Z={\sqrt {X^{2}+Y^{2}}}} zweier unabhangiger normalverteilter Zufallsvariablen X , Y {\displaystyle X,Y} , jeweils mit Mittelwert m X = m Y = 0 {\displaystyle \mu _{X}=\mu _{Y}=0} und gleichen Varianzen s X 2 = s Y 2 = s 2 {\displaystyle \sigma _{X}^{2}=\sigma _{Y}^{2}=\sigma ^{2}} , ist Rayleigh-verteilt mit Parameter s > 0 {\displaystyle \sigma >0} .

Beziehung zur logarithmischen Normalverteilung

[Bearbeiten | Quelltext bearbeiten]

Ist die Zufallsvariable X {\displaystyle X} normalverteilt mit N ( m , s 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} , dann ist die Zufallsvariable Y = e X {\displaystyle Y=e^{X}} logarithmisch-normalverteilt, also Y ~ L N ( m , s 2 ) {\displaystyle Y\sim {\mathcal {LN}}(\mu ,\sigma ^{2})} .

Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsvariablen zuruckfuhren.

Beziehung zur F-Verteilung

[Bearbeiten | Quelltext bearbeiten]

Wenn die stochastisch unabhangigen und normalverteilten Zufallsvariablen X 1 ( 1 ) , X 2 ( 1 ) , ... , X n 1 ( 1 ) {\displaystyle X_{1}^{(1)},X_{2}^{(1)},\dotsc ,X_{n_{1}}^{(1)}} und X 1 ( 2 ) , X 2 ( 2 ) , ... , X n 2 ( 2 ) {\displaystyle X_{1}^{(2)},X_{2}^{(2)},\dotsc ,X_{n_{2}}^{(2)}} die Parameter

E ( X i ( 1 ) ) = m 1 , Var ( X i ( 1 ) ) = s 1 2 fur i = 1 , ... , n 1 {\displaystyle \operatorname {E} (X_{i}^{(1)})=\mu _{1},\quad \operatorname {Var} (X_{i}^{(1)})=\sigma _{1}^{2}\quad {\text{fur }}i=1,\dots ,n_{1}}

und

E ( X i ( 2 ) ) = m 2 , Var ( X i ( 2 ) ) = s 2 2 fur i = 1 , ... , n 2 {\displaystyle \operatorname {E} (X_{i}^{(2)})=\mu _{2},\quad \operatorname {Var} (X_{i}^{(2)})=\sigma _{2}^{2}\quad {\text{fur }}i=1,\dots ,n_{2}}

besitzen, dann unterliegt die Zufallsvariable

Y n 1 - 1 , n 2 - 1 := s 2 2 ( n 2 - 1 ) i = 1 n 1 ( X i ( 1 ) - X - ( 1 ) ) 2 s 1 2 ( n 1 - 1 ) j = 1 n 2 ( X i ( 2 ) - X - ( 2 ) ) 2 {\displaystyle Y_{n_{1}-1,n_{2}-1}:={\frac {\sigma _{2}^{2}(n_{2}-1)\sum \limits _{i=1}^{n_{1}}(X_{i}^{(1)}-{\overline {X}}^{(1)})^{2}}{\sigma _{1}^{2}(n_{1}-1)\sum \limits _{j=1}^{n_{2}}(X_{i}^{(2)}-{\overline {X}}^{(2)})^{2}}}}

einer F-Verteilung mit ( ( n 1 - 1 , n 2 - 1 ) ) {\displaystyle ((n_{1}-1,n_{2}-1))} Freiheitsgraden. Dabei sind

X - ( 1 ) = 1 n 1 i = 1 n 1 X i ( 1 ) , X - ( 2 ) = 1 n 2 i = 1 n 2 X i ( 2 ) {\displaystyle {\overline {X}}^{(1)}={\frac {1}{n_{1}}}\sum _{i=1}^{n_{1}}X_{i}^{(1)},\quad {\overline {X}}^{(2)}={\frac {1}{n_{2}}}\sum _{i=1}^{n_{2}}X_{i}^{(2)}} .

Beziehung zur studentschen t-Verteilung

[Bearbeiten | Quelltext bearbeiten]

Wenn die stochastisch unabhangigen Zufallsvariablen X 1 , X 2 , ... , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} identisch normalverteilt sind mit den Parametern m {\displaystyle \mu } und s {\displaystyle \sigma } , dann unterliegt die stetige Zufallsvariable

Y n - 1 = X - - m S / n {\displaystyle Y_{n-1}={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}}

mit dem Stichprobenmittel X - = 1 n i = 1 n X i {\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} , der Stichprobenvarianz S 2 = 1 n - 1 i = 1 n ( X i - X - ) 2 {\displaystyle S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}} und S := S 2 {\displaystyle S:={\sqrt {S^{2}}}} einer studentschen t-Verteilung mit ( n - 1 ) {\displaystyle (n-1)} Freiheitsgraden.

Fur eine zunehmende Anzahl an Freiheitsgraden nahert sich die studentsche t-Verteilung der Normalverteilung immer naher an. Als Faustregel gilt, dass man ab ca. d f > 30 {\displaystyle df>30} die studentsche t-Verteilung bei Bedarf durch die Normalverteilung approximieren kann.

Die studentsche t-Verteilung wird zur Konfidenzschatzung fur den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet.

Testen auf Normalverteilung

[Bearbeiten | Quelltext bearbeiten]
Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
Eine kh2-verteilte Zufallsvariable mit 5 Freiheitsgraden wird auf Normalverteilung getestet. Fur jeden Stichprobenumfang werden 10.000 Stichproben simuliert und anschliessend jeweils 5 Anpassungstests zu einem Niveau von 5 % durchgefuhrt.

Um zu uberprufen, ob vorliegende Daten normalverteilt sind, konnen unter anderen folgende Methoden und Tests angewandt werden:

Die Tests haben unterschiedliche Eigenschaften hinsichtlich der Art der Abweichungen von der Normalverteilung, die sie erkennen. So erkennt der Kolmogorov-Smirnov-Test Abweichungen in der Mitte der Verteilung eher als Abweichungen an den Randern, wahrend der Jarque-Bera-Test ziemlich sensibel auf stark abweichende Einzelwerte an den Randern (,,schwere Rander") reagiert.

Beim Lilliefors-Test muss im Gegensatz zum Kolmogorov-Smirnov-Test nicht standardisiert werden, d. h., m {\displaystyle \mu } und s {\displaystyle \sigma } der angenommenen Normalverteilung durfen unbekannt sein.

Mit Hilfe von Quantil-Quantil-Diagrammen bzw. Normal-Quantil-Diagrammen ist eine einfache grafische Uberprufung auf Normalverteilung moglich.
Mit der Maximum-Likelihood-Methode konnen die Parameter m {\displaystyle \mu } und s {\displaystyle \sigma } der Normalverteilung geschatzt und die empirischen Daten mit der angepassten Normalverteilung grafisch verglichen werden.

Erzeugung normalverteilter Zufallszahlen

[Bearbeiten | Quelltext bearbeiten]

Alle folgenden Verfahren erzeugen standardnormalverteilte Zufallszahlen. Durch lineare Transformation lassen sich hieraus beliebige normalverteilte Zufallszahlen erzeugen: Ist die Zufallsvariable x ~ N ( 0 , 1 ) {\displaystyle x\sim {\mathcal {N}}(0,1)} -verteilt, so ist a x + b {\displaystyle a\cdot x+b} schliesslich N ( b , a 2 ) {\displaystyle {\mathcal {N}}(b,a^{2})} -verteilt.

Box-Muller-Methode

[Bearbeiten | Quelltext bearbeiten]

Nach der Box-Muller-Methode lassen sich zwei unabhangige, standardnormalverteilte Zufallsvariablen X {\displaystyle X} und Y {\displaystyle Y} aus zwei unabhangigen, gleichverteilten Zufallsvariablen U 1 , U 2 ~ U ( 0 , 1 ) {\displaystyle U_{1},U_{2}\sim U(0,1)} , sogenannten Standardzufallszahlen, simulieren:

X = cos ( 2 p U 1 ) - 2 ln U 2 {\displaystyle X=\cos(2\pi U_{1}){\sqrt {-2\ln U_{2}}}}

und

Y = sin ( 2 p U 1 ) - 2 ln U 2 . {\displaystyle Y=\sin(2\pi U_{1}){\sqrt {-2\ln U_{2}}}.}
Hauptartikel: Polar-Methode

Die Polar-Methode von George Marsaglia ist auf einem Computer schneller, da sie keine Auswertungen von trigonometrischen Funktionen benotigt:

  1. Erzeuge zwei voneinander unabhangige, im Intervall [ - 1 , 1 ] {\displaystyle [-1,1]} gleichverteilte Zufallszahlen u 1 {\displaystyle u_{1}} und u 2 {\displaystyle u_{2}}
  2. Berechne q = u 1 2 + u 2 2 {\displaystyle q=u_{1}^{2}+u_{2}^{2}} . Falls q = 0 {\displaystyle q=0} oder q >= 1 {\displaystyle q\geq 1} , gehe zuruck zu Schritt 1.
  3. Berechne p = - 2 ln q q {\displaystyle p={\sqrt {\frac {-2\cdot \ln q}{q}}}} .
  4. x i = u i p {\displaystyle x_{i}=u_{i}\cdot p} fur i = 1 , 2 {\displaystyle i=1,2} liefert zwei voneinander unabhangige, standardnormalverteilte Zufallszahlen x 1 {\displaystyle x_{1}} und x 2 {\displaystyle x_{2}} .

Ziggurat-Algorithmus

[Bearbeiten | Quelltext bearbeiten]

Der Ziggurat-Algorithmus, der ebenfalls von George Marsaglia entwickelt wurde, ist effizienter als die Box-Muller-Methode.[22] Er ist der voreingestellte Algorithmus, mit dem in Matlab und Octave normalverteilte Zufallszahlen erzeugt werden.[23][24]

Verwerfungsmethode

[Bearbeiten | Quelltext bearbeiten]

Normalverteilungen lassen sich mit der Verwerfungsmethode (siehe dort) simulieren.

Inversionsmethode

[Bearbeiten | Quelltext bearbeiten]

Die Normalverteilung lasst sich auch mit der Inversionsmethode berechnen.

Mit der [ - 1 , 1 ] {\displaystyle [-1,1]} -gleichverteilten Verteilung X {\displaystyle X} wird uber die Inverse Verteilungsfunktion die Standardnormalverteilung erzeugt:

Y = 2 e r f - 1 ( X ) {\displaystyle Y={\sqrt {2}}\cdot \mathbb {erf} ^{-1}\left(X\right)}

Da die inverse Verteilungsfunktion nicht explizit mit elementaren Funktionen darstellbar ist, muss man auf eine komplexere numerische Darstellung zuruckgreifen, mit relativ hohem Aufwand. Reihenentwicklungen sind in der Literatur zu finden.[25]

Die Zwolferregel liefert keine exakte Normalverteilung, diese wird nur genahert. Der zentrale Grenzwertsatz besagt, dass sich unter bestimmten Voraussetzungen die Verteilung der Summe unabhangig und identisch verteilter Zufallszahlen einer Normalverteilung nahert.

Nach der Zwolferregel wird die Standardnormalverteilung durch die Verteilung der Zufallsvariablen Y - 6 {\displaystyle Y-6} approximiert, wobei Y {\displaystyle Y} die Summe von zwolf stochastisch unabhangigen, im Intervall [0,1] gleichverteilten Zufallszahlen X 1 , ... , X 12 {\displaystyle X_{1},\dots ,X_{12}} ist. Der Erwartungswert von Y {\displaystyle Y} ist 6 und die Varianz von Y {\displaystyle Y} ist 1, sodass die Zufallsvariable Y - 6 {\displaystyle Y-6} den Erwartungswert 0 und die Varianz 1 hat. Dies fuhrt fur viele Anwendungen zu einer akzeptablen Approximation einer Standardnormalverteilung durch die Verteilung der Zufallsvariablen Y - 6 {\displaystyle Y-6} . Das Verfahren ist allerdings weder effizient noch wird eine echte Normalverteilung erreicht.

Zudem ist die geforderte Unabhangigkeit der zwolf Zufallsvariablen X i {\displaystyle X_{i}} bei den immer noch haufig verwendeten Linearen Kongruenzgeneratoren (LKG) nicht garantiert. Im Gegenteil wird vom Spektraltest fur LKG meist nur die Unabhangigkeit von maximal vier bis sieben der X i {\displaystyle X_{i}} garantiert. Fur numerische Simulationen ist die Zwolferregel daher sehr bedenklich und sollte, wenn uberhaupt, dann ausschliesslich mit aufwandigeren, aber besseren Pseudo-Zufallsgeneratoren wie z. B. dem Mersenne-Twister (Standard in Python, GNU R) oder WELL genutzt werden. Andere, sogar leichter zu programmierende Verfahren sind daher der Zwolferregel vorzuziehen.

Anwendungen ausserhalb der Wahrscheinlichkeitsrechnung

[Bearbeiten | Quelltext bearbeiten]

In der Statistik ist die Normalverteilung eine wichtige Wahrscheinlichkeitsverteilung. Sie wird verwendet zur Modellierung einer Merkmalsverteilung in der Grundgesamtheit und zur Modellierung der Verteilung von Messfehlern. Ausserdem entsteht sie als asymptotische Verteilung von Schatzfunktionen und allgemeineren Statistiken, siehe dazu zentrale Grenzwertsatze der Statistik.

Die Normalverteilung lasst sich auch zur Beschreibung nicht direkt stochastischer Sachverhalte verwenden, etwa in der Physik fur das Amplitudenprofil der Gauss-Strahlen und andere Verteilungsprofile.

Zudem findet sie Verwendung in der Gabor-Transformation im Bereich der Signal- und Bildbearbeitung.

  • Catherine Forbes, Merran Evans, Nicholas Hastings, Brain Peacock (Hrsg.): Statistical Distributions. 4. Auflage. Wiley & Sons, Hoboken 2011, ISBN 978-0-470-39063-4, Kap. 33: Normal (Gaussian) Distribution, S. 143-148.
  • P. H. Muller (Hrsg.): Lexikon der Stochastik - Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Normalverteilung, S. 288-290.
  • Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, Teil B, Kap. 3.10.1: Eindimensionale Normalverteilung, S. 298-306.
  • Jagdish K. Patel, Campbell R. Read: Handbook of the Normal Distribution (= Statistics:Textbooks and Monographs). Second edition, revised and expanded Auflage. Dekker, New York / Basel / Hong Kong 1966, ISBN 0-8247-9342-0.
  • Stephen M. Stigler: The history of statistics: the measurement of uncertainty before 1900. Belknap Series. Harvard University Press, 1986. ISBN 978-0-674-40341-3.
  • Paul J. Nahin: The Probability Integral. Its Origin, Its Importance, and Its Calculation. Springer, Cham 2023, ISBN 978-3-03138415-8.
Commons: Normalverteilung - Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. | Wolfgang Gotze, Christel Deutschmann, Heike Link: Statistik. Lehr- und Ubungsbuch mit Beispielen aus der Tourismus- und Verkehrswirtschaft. Oldenbourg, Munchen 2002, ISBN 3-486-27233-0, S. 170 (eingeschrankte Vorschau in der Google-Buchsuche).
  2. | Sur l'appreciation des documents statistiques, et en particulier sur l'appreciation des moyennes. In: Bulletin de la Commission Centrale des Statistique. Band 2, 1845, S. 205-286 (google.be).
  3. | Francis Galton: Natural Inheritance. Macmillan, London 1889, S. 51, Normal Curve of Distribution.
  4. | Herbert A. David: First (?) Occurence of Common Terms in Mathematical Statistics. In: The American Statistician. Band 49, Nr. 2, 1995, S. 121-133, JSTOR:2684625.
  5. | Jeff Miller: Earliest Known Uses of Some of the Words of Probability & Statistics. Abgerufen am 27. September 2023.
  6. | Stephen M. Stigler: Statistics on the Table. The History of Statistical Concepts and Methods. Harvard University Press, Cambridge / London 1999, ISBN 0-674-00979-7.
  7. | Charles S. Peirce: On the theory of errors of observations. In: Report of the Superintendent of the U. S. Coast Survey for the Year Ending June 1870, Appendix no. 21. S. 200-224 (Wiederabgedruckt in S. M. Stigler (Hrsg.), American Contributions to Mathematical Statistics in the Ninteenth Century, 2 Bande. Arno Press, New York 1980).
  8. | Francis Galton: Typical laws of heredity. In: Nature. Band 15, 1877, S. 492-495, 512-514, 532-533 (Auch publiziert in Proceedings of the Royal Institution of Great Britain. Band 8, 1877, S. 282-301).
  9. | Wilhelm Lexis: Zur Theorie der Massenerscheinungen in der menschlichen Gesellschaft. Fr. Wagner'sche Buchhandlung, Freiburg i. B. 1877 (utlib.ee [PDF]).
  10. | Bronstein: Taschenbuch der Mathematik. Kap. 16, Wahrscheinlichkeitsrechnung und mathematische Statistik.
  11. | George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lutkepohl, T. C. Lee: Introduction to the Theory and Practice of Econometrics. 1988, S. 47.
  12. | P. H. Muller (Hrsg.): Lexikon der Stochastik - Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Normalveretilung, S. 289.
  13. | Bronstein: Taschenbuch der Mathematik. Kap. 16, Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Harri Deutsch Verlag, 2000, ISBN 3-8171-2005-2, S. 779.
  14. | Es gilt
    P ( m - z s <= X <= m + z s ) = P ( - z <= X - m s <= z ) = P ( - z <= Z <= z ) . {\displaystyle P(\mu -z\sigma \leq X\leq \mu +z\sigma )=P\left(-z\leq {\frac {X-\mu }{\sigma }}\leq z\right)=P(-z\leq Z\leq z)\;.}
    Die letzte Gleichung gilt, da die standardisierte Zufallsvariable ( X - m ) / s {\displaystyle (X-\mu )/\sigma } standardnormalverteilt ist.
  15. | Es gilt
    P ( Z [ - z , z ] ) = P ( - z <= Z <= z ) = - z + z ph ( t ) d t = Ph ( z ) - Ph ( - z ) = Ph ( z ) - ( 1 - Ph ( z ) ) = 2 Ph ( z ) - 1 . {\displaystyle P(Z\in [-z,z])=P(-z\leq Z\leq z)=\int _{-z}^{+z}\varphi (t)\mathrm {d} t=\Phi (z)-\Phi (-z)=\Phi (z)-(1-\Phi (z))=2\Phi (z)-1\,.}
    Das vorletzte Gleichheitszeichen gilt, da die Standardnormalverteilung symmetrisch zu Null ist.
  16. | Horst Rinne: Taschenbuch der Statistik. 2008, S. 302.
  17. | Catherine Forbes et al. (Hrsg.): Statistical Distributions. 2011, S. 144.
  18. | P. H. Muller (Hrsg.): Lexikon der Stochastik - Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Entropie einer Zufallsgrosse, S. 86.
  19. | Mareke Arends: Epidemiologie bulimischer Symptomatik unter 10-Klasslern in der Stadt Halle. Dissertation. Martin-Luther-Universitat Halle-Wittenberg, 2005, Tabelle 9, S. 30. urn:nbn:de:gbv:3-000008151
  20. | H. Schmid, A. Huber: Measuring a Small Number of Samples and the 3s Fallacy. (PDF; 1,6 MB) In: IEEE Solid-State Circuits Magazine, Band 6, Nr. 2, 2014, S. 52-58, doi:10.1109/MSSC.2014.2313714.
  21. | George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lutkepohl, T. C. Lee: Introduction to the Theory and Practice of Econometrics. 1988, S. 49.
  22. | Michael Gunther, Ansgar Jungel: Finanzderivate mit MATLAB - Mathematische Modellierung und numerische Simulation. Vieweg+Teubner Verlag, 2003, ISBN 978-3-8348-0879-0, S. 115.
  23. | Creating and Controlling a Random Number Stream in Matlab. Abgerufen am 16. September 2023.
  24. | Octave Function Reference: randn. Abgerufen am 16. September 2023.
  25. | William B. Jones, W. J. Thron: Continued Fractions: Analytic Theory and Applications. Addison-Wesley, 1980.
Kontinuierliche univariate Verteilungen

Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta | Cantor | Kumaraswamy | raised Cosine | Dreieck | Trapez | U-quadratisch | stetig uniform | Wigner-Halbkreis

Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime | Bose-Einstein | Burr | Chi | Chi-Quadrat | Coxian | Erlang | Exponential | Extremwert | F | Fermi-Dirac | Folded normal | Frechet | Gamma | Gamma-Gamma | verallgemeinert invers Gauss | halblogistisch | halbnormal | Hartman-Watson | Hotellings T-Quadrat | hyper-exponentiale | hypoexponential | invers Chi-Quadrat | scale-invers Chi-Quadrat | Invers Normal | Invers Gamma | Kolmogorow-Verteilung | Levy | log-normal | log-logistisch | Maxwell-Boltzmann | Maxwell-Speed | Nakagami | nichtzentriert Chi-Quadrat | Pareto | Phase-Type | Rayleigh | relativistisch Breit-Wigner | Rice | Rosin-Rammler | shifted Gompertz | truncated normal | Type-2-Gumbel | Weibull | Wilks' Lambda

Kontinuierliche univariate Verteilungen mit unbeschranktem Intervall:
Cauchy | Extremwert | exponential Power | Fishers z | Fisher-Tippett (Gumbel) | generalized hyperbolic | Hyperbolic-secant | Landau | Laplace | alpha-stabil | logistisch | normal (Gauss) | normal-invers Gauss'sch | Skew-normal | Studentsche t | Type-1-Gumbel | Variance-Gamma | Voigt

Normdaten (Sachbegriff): GND: 4075494-7 (GND Explorer, lobid, OGND, AKS)