コンテンツ
四分位範囲は、しばしばIQRと略され、任意のデータセットの25パーセンタイルから75パーセンタイルまでの範囲、または中央の50パーセントを表します。四分位範囲は、テストのパフォーマンスの平均範囲を決定するために使用できます。特定のテストでほとんどの人のスコアが落ちる場所を確認したり、会社の平均従業員が毎月稼ぐ金額を決定したりできます。 。四分位範囲は、単一の数値ではなく分散範囲を識別することができるため、データセットの平均または中央値よりも効果的なデータ分析ツールとなります。
TL; DR(長すぎる;読まなかった)
四分位範囲(IQR)は、データセットの中央の50%を表します。計算するには、まずデータポイントを最小から最大の順に並べ、次にそれぞれ式(N + 1)/ 4および3 *(N + 1)/ 4を使用して1番目と3番目の四分位位置を決定します(Nは数値)データセット内のポイントの。最後に、3番目の四分位から最初の四分位を減算して、データセットの四分位間範囲を決定します。
データポイントの注文
四分位範囲の計算は簡単なタスクですが、計算する前に、データセットのさまざまなポイントを配置する必要があります。これを行うには、データポイントを最小から最大の順に並べることから始めます。たとえば、データポイントが10、19、8、4、9、12、15、11、20であった場合、次のように再配置します。{4、8、9、10、11、12、15、19、 20}。データポイントをこのように注文したら、次のステップに進むことができます。
最初の四分位位置を決定する
次に、次の式を使用して最初の四分位の位置を決定します:(N + 1)/ 4、ここでNはデータセット内のポイントの数です。最初の四分位数が2つの数値の間にある場合、2つの数値の平均を最初の四分位数スコアとして取ります。上記の例では、9つのデータポイントがあるため、1〜9を追加して10を取得し、4で割って2.5を取得します。最初の四分位数は2番目と3番目の値の間にあるため、平均8と9を取得して、8.5の最初の四分位位置を取得します。
3番目の四分位位置を決定する
最初の四分位を決定したら、次の式を使用して3番目の四分位の位置を決定します:3 *(N + 1)/ 4ここで、Nはデータセット内のポイントの数です。同様に、3番目の四分位数が2つの数値の間にある場合、最初の四分位数スコアを計算するときのように単純に平均を取ります。上記の例では、9つのデータポイントがあるため、1から9を追加して10を取得し、3を乗算して30を取得し、4で除算して7.5を取得します。最初の四分位数は7番目と8番目の値の間にあるため、3番目の4分の1のスコアを得るには15と19の平均を取ることになります。
四分位範囲の計算
1番目と3番目の四分位数を決定したら、3番目の四分位数の値から最初の四分位数の値を減算して、四分位間範囲を計算します。この記事で使用した例を終了するには、17から8.5を減算して、データセットの四分位範囲が8.5であることを確認します。
IQRの長所と短所
四分位範囲には、データセットの両端で外れ値を識別して排除できるという利点があります。 IQRは、データ分布が歪んでいる場合の変動の適切な尺度でもあり、データポイントを整理するために累積度数分布を使用する限り、このIQRの計算方法はグループ化されたデータセットに対して機能します。グループ化されたデータの四分位範囲式は、グループ化されていないデータと同じです。IQRは、3番目の四分位の値から最初の四分位の値を引いた値に等しくなります。ただし、標準偏差と比較していくつかの欠点があります。いくつかの極端なスコアに対する感度が低く、標準偏差ほど強くないサンプリングの安定性です。