クラスタリング分析で重心を見つける方法

11月 2024

著者: Judy Howell

作成日: 1 J 2021

更新日: 15 11月 2024

ビデオ: 【10分で分かる！】ビジネスで使えるクラスター分析を解説！非階層のk-means法とは？

コンテンツ

ヒント

クラスター分析は、同様の特性に基づいてデータを代表的なグループに編成する方法です。クラスターの各メンバーは、他のグループのメンバーよりも、同じクラスターの他のメンバーと共通しています。グループ内で最も代表的なポイントは、重心と呼ばれます。通常、これはクラスター内のデータポイントの値の平均です。

データを整理します。データが単一の変数で構成される場合、ヒストグラムが適切な場合があります。 2つの変数が関係する場合、座標平面でデータをグラフ化します。たとえば、教室内の学童の身長と体重を調べている場合は、体重を横軸に、身長を縦軸に、各子どものデータのポイントをグラフにプロットします。 3つ以上の変数が関係する場合、データを表示するためにマトリックスが必要になる場合があります。

データをクラスターにグループ化します。各クラスターは、それに最も近いデータポイントで構成する必要があります。身長と体重の例では、互いに近いと思われるデータのポイントをグループ化します。クラスターの数、およびデータのすべてのポイントがクラスター内にある必要があるかどうかは、調査の目的によって異なります。

各クラスターについて、すべてのメンバーの値を追加します。たとえば、データのクラスターがポイント（80、56）、（75、53）、（60、50）、および（68,54）で構成されている場合、値の合計は（283、213）になります。

クラスターのメンバーの数で合計を割ります。上記の例では、283を4で割った値は70.75で、213を4で割った値は53.25なので、クラスターの重心は（70.75、53.25）です。

クラスター重心をプロットし、自分のクラスターの重心よりも別のクラスターの重心に近い点があるかどうかを判断します。異なる重心に近いポイントがある場合は、より近い重心を含むクラスターにそれらを再配布します。

すべてのデータポイントが、それらに最も近い重心を含むクラスター内にあるまで、ステップ3、4、および5を繰り返します。

クラスタリング分析で重心を見つける方法

コンテンツ

ヒント