コンテンツ
外れ値は、他の値から遠く離れたデータセット内の値です。外れ値は、実験または測定のエラー、または長い尾の母集団によって引き起こされる可能性があります。前者の場合、統計解析を実行する前に外れ値を特定してデータから削除することが望ましい場合があります。これは、外れ値がサンプル母集団を正確に表さないように結果を破棄する可能性があるためです。外れ値を識別する最も簡単な方法は、四分位数法です。
データを昇順で並べ替えます。たとえば、データセット{4、5、2、3、15、3、3、5}を取得します。ソート済みのサンプルデータセットは{2、3、3、3、4、5、5、15}です。
中央値を見つけます。これは、データポイントの半分が大きく、半分が小さくなる数です。偶数のデータポイントがある場合、中央の2つが平均化されます。サンプルデータセットの場合、中間点は3と4なので、中央値は(3 + 4)/ 2 = 3.5です。
上位四分位Q2を見つけます。これは、データの25%が大きくなるデータポイントです。データセットが偶数の場合、四分位の周囲の2ポイントを平均します。サンプルデータセットの場合、これは(5 + 5)/ 2 = 5です。
下位四分位Q1を見つけます。これは、データの25%が小さくなるデータポイントです。データセットが偶数の場合、四分位の周囲の2ポイントを平均します。サンプルデータの場合、(3 + 3)/ 2 = 3。
高い四分位から低い四分位を引き、四分位間範囲IQを取得します。サンプルデータセットの場合、Q2 – Q1 = 5 – 3 = 2。
四分位範囲に1.5を掛けます。これを上位四分位に追加し、下位四分位から減算します。これらの値以外のデータポイントは、軽度の外れ値です。サンプルセットの場合、1.5 x 2 = 3;したがって、3 – 3 = 0および5 + 3 = 8です。したがって、0未満または8を超える値は軽度の外れ値になります。これは、15が軽度の外れ値として適格であることを意味します。
四分位範囲に3を掛けます。これを上位四分位に追加し、下位四分位から減算します。これらの値の外側のデータポイントは極端な異常値です。サンプルセットの場合、3 x 2 = 6;したがって、3 – 6 = –3および5 + 6 = 11です。したがって、–3未満または11を超える値は極端な外れ値になります。これは、15が極端な外れ値として適格であることを意味します。