コンテンツ
統計では、ガウス分布または正規分布を使用して、多くの要因を持つ複雑なシステムを特徴付けます。 Stephen StiglerのThe History of Statisticsで説明されているように、Abraham De MoivreはKarl Fredrick Gaussの名前を冠した分布を発明しました。ガウスの貢献は、データを最適な線で近似する際の誤差を最小化するための最小二乗アプローチへの分布の適用にあります。したがって、彼はそれを統計上最も重要なエラー分布にした。
動機
データのサンプルの分布は何ですか?データの基礎となる分布がわからない場合はどうなりますか?基礎となる分布を知らずにデータに関する仮説をテストする方法はありますか?中央極限定理のおかげで、答えはイエスです。
定理の記述
無限母集団からの標本平均は、基本母集団と同じ平均を持ち、母分散を標本サイズで割ったものに等しい分散を持つ、ほぼ正規またはガウス分布であると述べています。サンプルサイズが大きくなると、近似が改善されます。
近似ステートメントは、正規分布への収束に関する結論として誤って記述されることがあります。サンプルサイズが大きくなると近似正規分布が変化するため、このようなステートメントは誤解を招きます。
この定理は、Pierre Simon Laplaceによって開発されました。
なぜそのどこにでも
正規分布は遍在しています。その理由は、中央極限定理から来ています。多くの場合、値が測定されるとき、それは多くの独立変数の合計効果です。したがって、測定される値自体には、サンプル平均品質があります。たとえば、アスリートのパフォーマンスの分布は、食事、トレーニング、遺伝学、コーチング、心理学の違いの結果として、鐘の形をしている場合があります。男性の身長でさえ、多くの生物学的要因の関数である正規分布を持っています。
ガウスコピュラ
ガウス分布の「コピュラ関数」と呼ばれるものは、担保付き債券に投資するリスクを評価する際に使用されたため、2009年にニュースで取り上げられました。この機能の誤用は、2008年から2009年の金融危機に貢献しました。危機の多くの原因がありましたが、後知恵ではガウス分布はおそらく使用されるべきではありませんでした。テールが厚い関数は、有害事象により大きな確率を割り当てます。
導出
中心極限定理は、基礎となる母集団のmgfの関数として(サンプル平均-母平均)/?(母集団分散/サンプルサイズ)のモーメント生成関数(mgf)を分析することで、多くの行で証明できます。定理の近似部分は、基礎となる母集団のmgfをべき級数として展開し、サンプルサイズが大きくなるにつれてほとんどの項が重要でないことを示すことで導入されます。
同じ関数の特性方程式でテイラー展開を使用し、サンプルサイズを大きくすることで、はるかに少ないラインで証明できます。
計算上の利便性
一部の統計モデルでは、エラーがガウス分布であると想定しています。これにより、カイ二乗分布やF分布などの正規変数の関数の分布を仮説検定で使用できます。具体的には、F検定では、F統計量はカイ二乗分布の比率で構成されます。カイ二乗分布自体は正規分散パラメーターの関数です。この2つの比率により、分散が相殺され、正規性と不変性以外の分散に関する知識がなくても仮説検定が可能になります。