コンテンツ
平均、モード、および中央値を使用して中心値を計算することにより、数値セット、特に大きな数値セットの比較を簡素化します。セットの範囲と標準偏差を使用して、データの変動性を調べます。
平均の計算
平均は、数値セットの平均値を識別します。たとえば、値20、24、25、36、25、22、23を含むデータセットを考えます。
平均を求めるには、次の式を使用します。平均は、データセット内の数値の合計をデータセット内の値の数で割った値に等しくなります。数学用語では:平均=(すべての用語の合計)÷(セット内の用語または値の数)。
サンプルデータセットに数値を追加します:20 + 24 + 25 + 36 + 25 + 22 + 23 = 175。
セット内のデータポイントの数で割ります。このセットには7つの値があるため、7で割ります。
式に値を挿入して、平均を計算します。平均は、値の合計(175)をデータポイントの数(7)で割ったものに等しくなります。 175÷7 = 25なので、このデータセットの平均は25に等しくなります。すべての平均値が整数に等しくなるわけではありません。
中央値の計算
中央値は、一連の数値の中間点または中間値を識別します。
数字を小さい順に並べてください。値のセットの例:20、24、25、36、25、22、23を使用します。順番に配置すると、セットは20、22、23、24、25、25、36になります。
この数値セットには7つの値があるため、中央の中央値または値は24です。
数値のセットに偶数の値がある場合、2つの中心値の平均を計算します。たとえば、数値のセットに値22、23、25、26が含まれているとします。中央は23と25の間にあります。23と25を加算すると48になります。48を2で割ると中央値24になります。
計算モード
モードは、データセット内の最も一般的な値を識別します。データに応じて、1つ以上のモードがある場合と、モードがまったくない場合があります。
中央値を見つけるのと同様に、データセットを最小から最大の順に並べます。サンプルセットでは、順序付けられた値は20、22、23、24、25、25、36になります。
値が繰り返されると、モードが発生します。例のセットでは、値25は2回出現します。他の数字は繰り返されません。したがって、モードは値25です。
一部のデータセットでは、複数のモードが発生します。データセット22、23、23、24、27、27、29には、23と27にそれぞれ1つずつの2つのモードが含まれています。他のデータセットには、3つ以上のモードがあり、2つ以上の番号のモードがあります、24、24、24、28、29:モードは24に等しい)またはモードがまったくない場合があります(21、23、24、25、26、27、29など)。モードは、中間だけでなく、データセットのどこでも発生する可能性があります。
計算範囲
範囲は、データセットの最低値と最高値の間の数学的な距離を示します。範囲は、データセットの変動性を測定します。広い範囲は、データのばらつきが大きいこと、またはおそらく残りのデータから遠く離れた単一の外れ値を示しています。外れ値は、データ分析に影響を与えるのに十分な平均値を歪める、またはシフトする場合があります。
サンプルグループでは、最低値は20、最高値は36です。
範囲を計算するには、最高値から最低値を引きます。 36-20 = 16なので、範囲は16になります。
サンプルセットでは、36の高いデータ値が以前の値である25を11超えています。この値は、セット内の他の値を考えると極端に見えます。 36という値は、外れ値のデータポイントである可能性があります。
標準偏差の計算
標準偏差は、データセットの変動性を測定します。範囲と同様に、標準偏差が小さいほど、ばらつきが少ないことを示します。
標準偏差を見つけるには、各データポイントと平均値の差の平方を合計し、すべての平方を加算し、その合計を値の数(N-1)未満で割って、最終的に被除数の平方根を計算する必要があります。数学的には、平均の計算から始めます。
すべてのデータポイント値を加算し、データポイントの数で割って平均を計算します。サンプルデータセットでは、20 + 24 + 25 + 36 + 25 + 22 + 23 = 175です。合計175をデータポイント数7または175÷7 = 25で割ります。平均は25です。
次に、各データポイントから平均を減算し、各差を二乗します。式は次のようになります。∑(x-µ)2ここで、∑は合計を意味し、xは各データセットの値を表し、µは平均値を表します。例のセットを続けると、値は20-25 = -5および-5になります2= 25; 24-25 = -1および-12= 1; 25-25 = 0および02= 0; 36-25 = 11および112= 121; 25-25 = 0および02= 0; 22-25 = -3および-32= 9;および23-25 = -2および-22=4.
差の二乗を追加すると、25 + 1 + 0 + 121 + 0 + 9 + 4 = 160になります。
差の平方の合計を、データポイントの数よりも1少ない値で除算します。サンプルデータセットには7つの値があるため、N-1は7-1 = 6になります。 6で割った2乗差の合計160は、約26.6667に等しくなります。
N-1による除算の平方根を見つけることにより、標準偏差を計算します。この例では、26.6667の平方根は約5.164です。したがって、標準偏差は約5.164です。
標準偏差は、データの評価に役立ちます。平均の1つの標準偏差内に収まるデータセット内の数値は、データセットの一部です。 2つの標準偏差の範囲外の数値は、極値または外れ値です。例のセットでは、値36は平均から2標準偏差以上離れているため、36は外れ値です。外れ値は、誤ったデータを表している場合や、予期しない状況を示唆している場合があり、データを解釈する際には慎重に検討する必要があります。