クラスター分析のやり方や手順は?データを集めるときの注意点や活用事例を解説!
企業が持つビッグデータは、有効活用しなければただ積み重ねただけの本の山と一緒です。そこで有効活用できるのが「クラスター分析」という、膨大なデータをグルーピングできるやり方です。
今回はそのクラスター分析について、種類や手順、やり方や活用事例なども含めて詳しく解説していきます。
目次[非表示]
クラスター分析とは
まずは、クラスター分析がどのようなデータ解析手法なのか解説します。
個々のデータから似ているデータ同士をグルーピングする分析手法
クラスター分析はマーケティングで用いるデータ解析方法の一つであり、何の区別もされていないデータの集まりを、類似した性質でグループ(クラスター)に分けるやり方です。
例えば非常に多くの未分類サンプルがあるとします。
これらは一見どのような関連性もないように見えますが、「似たデータ同士」でクラスターを形成していくと、最終的に一つの樹形図(デンドログラム)ができます。
これがクラスター分析における「階層的手法」というやり方です。
それに対して、樹形図を作らないやり方が「非階層的手法」です。
非階層的手法では特定のアルゴリズムを用いて自動でグルーピングを行いますが、最終的にはあらかじめ決めておいたクラスター数でグルーピングが行われます。
意識や価値観といったはっきり定まっていない指標によって分類を行う
クラスター分析では、グルーピングを行う際に明確な指標を用いません。
例えば無作為に集めた5人のデータ(A~E)があるとして、性別や年齢、出身地などの「明確な指標」でグループ分けするやり方なら誰でもできます。
元のデータ(サンプル)
A~Eの人物(それぞれ異なる属性を持つ)
グループ①(30歳未満)
グループ②(30歳以上)
A:男性・21歳・東京都出身
C:女性・24歳・北海道出身
E:女性・29歳・埼玉県出身
B:女性・34歳・栃木県出身
D:男性・30歳・青森県出身
このやり方では表計算ソフトでフィルタリングするようにただ単にデータを整理しているだけであり、解析には役立ちません。
そこでクラスター分析では、性別や年齢など分かりやすい基準で分割せず、「教師なし学習」と言われる、あらかじめ答えを与えずにグルーピングを行います。
元のデータ(サンプル)
A~Eの人物(それぞれ異なる属性を持つ)
自動生成されたグループ①
自動生成されたグループ②
自動生成されたグループ③
A:解析の結果、好物がDと似ていた
D:解析の結果、好物がAと似ていた
C:解析の結果、好物がB・Eと似ていた
E:解析の結果、好物がB・Cと似ていた
B:解析の結果、一人だけ好物が違った
3つにグルーピングされたものを解析した結果、同じグループに属する人物同士は好物や日常的に購入する商品の傾向が似ていることが分かりました。
このようにクラスター分析は特定の意識や価値観に依存しないため、企業は消費者目線に立って自社が持つデータを解析できます。
マーケティング活動に欠かせない「アクセス解析」のキホン
昨今のリモートワークの普及に伴って、
Webやオンラインのマーケティング施策の重要性が高まっています。
本記事で紹介している「クラスター分析」を正しく計測するためにも「アクセス解析」の基本を学んでおくことに損はありません。
どのような施策を行うかはもちろんのこと、実施後の振り返りも同じくらい重要と言えます。
そこで本資料では、オンライン施策の効果検証などに欠かせない、
アクセス解析の基本を解説しています。
クラスター分析の種類
次は、主なクラスター分析のやり方を「階層クラスター分析」と「非階層クラスター分析」に分けて解説していきます。
階層クラスター分析
階層クラスター分析には、代表的な6つのやり方があります。
- やり方①ウォード法
- やり方②最短距離法(最近隣法)
- やり方③最長距離法(最遠隣法)
- やり方④重心法
- やり方⑤群平均法
- やり方⑥メディアン法
やり方① ウォード法
マーケティングで最も用いられているクラスター分析のやり方が「ウォード法」です。
このやり方では複数のデータ間距離の平方和(データ値と平均値の2乗和)がクラスタ間の距離となります。
ウォード法は分散がもっとも小さくなるようにクラスターを形成していくため、非常に分類感度が高くデータ解析に向いているというメリットがあります。
ただし、このやり方には計算量が多くなりやすいというデメリットもあるため注意が必要です。
やり方② 最短距離法(最近隣法)
距離がもっとも近いデータ同士をクラスター間距離として新たなクラスターを形成していくクラスター分析のやり方が「最短距離法(最近隣法)」です。
計算量が少なく済むというメリットがあります。
ただし、このやり方は距離が極端に離れたデータ(外れ値)があると、それに近いデータも引き寄せられてしまい新たなクラスターを形成してしまう、鎖効果が起こりやすいというデメリットがある点には注意しましょう。
やり方③ 最長距離法(最遠隣法)
最短距離法とは逆に、もっとも遠いデータ間の距離をクラスター距離として、新たなクラスターを形成していくクラスター分析のやり方が「最長距離法」です。
こちらのやり方も最短距離法と同様に計算量が少ないというメリットと、外れ値に弱く鎖効果が起こりやすいというデメリットには注意すべきですが、分類感度は再長距離法よりも若干高くなります。
やり方④ 重心法
データ間の距離ではなく、データ間の「重心」をクラスター感の距離と置いて新たなクラスターを形成していくやり方を「重心法」といいます。
例えば3つのデータがある場合、それぞれの座標(A・B・C)を結んだ三角形の頂点と、辺の中点を線で結んだ交点が、データ間の重心となります。
このやり方はクラスターに含まれるデータの数によって重心が変わる、という点には注意が必要です。
やり方⑤ 群平均法
異なるクラスターのデータ間距離を平均化した数値をクラスター間距離として、新たなクラスターを形成していくやり方を「群平均法」といいます。
例えば、クラスター「A1」に含まれるデータ「A・B」と、クラスター「A2」に含まれるデータ「C・D」がある場合、「A→C・D」および「B→C・D」の距離の平均がクラスター間距離となります。
鎖効果が起こりにくく計算量も少なくて済むというメリットがあるため、群平均法はウォード法に次いで有力なやり方として知られています。
やり方⑥ メディアン法
重心法の発展形のような形でクラスター間の距離を求めるやり方が「メディアン法」です。
メディアンとは「中心の値を取る」ことであり、クラスター同士の重心と、別のクラスターの重心の中心の値をクラスター間の距離とします。
非階層クラスター分析
樹形図を作らずにデータをグルーピングする非階層クラスター分析でもっとも有名なのは「k-means法」というやり方です。
いくつものデータが座標上に散らばっているとして、それらを2つのクラスターに分けたいとします。
最初に座標上に2つのランダムな点(重心)を打ち、それぞれの重心に近いものからクラスターを生成していきます。
最終的には、異なる2つの重心ごとに2つのクラスターが生成され、目標を達成できます。
ここまで解説した階層クラスター分析のやり方は視覚的に分かりやすいですが、計算量が膨大になるためデータ量が多い場合の解析に向いていません。
対して「k-means法」などの非階層クラスター分析は、すべてのクラスター間で距離を求める必要がなく計算量も少なくて済むやり方であるため、大量のデータを解析するのに向いています。
クラスター分析を行う5つの手順
クラスター分析のやり方を理解したところで、次はクラスター分析を行う手順について順番に解説していきます。
手順1:分析目的を設定する
手順2:クラスターの分析手法を選ぶ
手順3:類似度の算出方法を定義する
手順4:クラスターの形成方法を決める
分析目的を設定する
最初の手順は、分析目的を設定することです。マーケティングにおいては「なぜ分析をするのか?」という点が明確であるべきだからです。
顧客の購買データから傾向を知ることであったり、アンケートの結果だけでは分からない潜在的嗜好を読み取ることなど、明確な目標が必要です。
クラスターの分析手法を選ぶ
次の手順では、クラスターの分析手法を決定します。
すでに解説した「階層クラスター分析」および「非階層クラスター分析」どちらかのやり方を指定します。
基本的には解析データ量が少ない場合は階層クラスター分析、解析データ量が多い場合は非階層クラスター分析を行います。
階層クラスター分析は結果が分かりやすいですが、このやり方はデータ量が増えると精度が下がるため注意が必要です。
類似度の算出方法を定義する
次の手順は、クラスター分けする際に基準となる「似たもの同士」の定義付けを行うことです。「A・B・C・D」という4つのデータがある事例において似たもの同士でグループ分けをする場合、そもそも「何が似ているのか?」という点が重要です。
その「何が似ているのか?」を数学で分けたときの基準がクラスター分析における「類似度」であり、それによってクラスター間の「距離の種類」が変わってきます。
代表的なクラスター間距離の種類には、以下のものがあります。
- ユークリッド距離
- マンハッタン距離
- ミンコフスキー距離
- チェビシェフ距離
それぞれの計算のやり方について説明すると長くなるため省略しますが、もっともオーソドックスなのが、直線距離を用いるユークリッド距離です。
実際は、事例やデータの特性ごとに適切な距離を選んで用いる必要があります。
クラスターの形成方法を決める
次の手順ではクラスターの形成方法を決めます。
クラスターを分ける際は、すでに解説した「ウォード法」や「群平均法」、「k-means法」のうちどのやり方を選ぶかによって結果が変わります。
ただし、マーケティングでは膨大なデータ量を解析することが多いため、非階層クラスター分析の「k-means法」を用いるやり方が基本です。
データ量が少なく、視覚的に分かりやすくしたい場合のみ「ウォード法」を用いる事例が多いです。
分析結果を活用する
最後は、分析結果をもとにマーケティングへ活用します。すべてのクラスタリングが完了したら終わりではなく、算出された結果を見て分析しなければ意味がないからです。
顧客データをグループ1とグループ2に分けるような事例ならば、「なぜその2つが分かれたのか?」を分析し、今後のマーケティングに役立てていく必要があります。
クラスター分析の活用事例
クラスター分析の活用事例を紹介します。
アンケートデータの分析
クラスター分析は、アンケートのような「分かりやすい結果を得られるもの」から、顧客の潜在的なニーズを探るのに用いられる事例が多いです。
実際のやり方としては、例えば売上がほぼ同一の「商品A」と「商品B」があり、売れ方の傾向を知るために顧客に対してアンケートを行います。
結果的に商品Aは20代、商品Bは50代にそれぞれ支持されていることが分かりましたが、さらに一歩踏み込んでクラスター分析を行うと、実際には以下のようにグルーピングできることが分かりました。
- 購入頻度が高く、SNSをよく利用している人
- 購入頻度は低いが、SNSをよく利用している人
- SNSをほとんど利用していない人
分析の結果、購買意欲に関係していたのは商品の特性ではなくSNSでした。20代の顧客は「フォロワーや友人と同じものを使いたい」と考える傾向が高かったので、商品Aがよく売れていた、ということがこの事例では分析できたのです。
顧客情報をもとにメルマガやDM配信を効率化する
クラスター分析を、メールマガジンやダイレクトメールを送付する際の効率化に活用する事例があります。
例えば100人の顧客がいるとして、100人全てに同じ内容のダイレクトメールを送るのは非常に簡単です。
しかし、それでは顧客ごとに異なるニーズに答えられず、やがてメールは顧客の手によって迷惑メールフォルダ行きとなってしまうでしょう。
そこでクラスター分析を行うなら、顧客の購買データをもとにグルーピングを行い、それぞれ異なった内容で、個人の嗜好に合わせたメールマガジンの配信が可能です。
マーケティングにおいては、この事例のような「分析結果に基づいた効率化」が非常に重要となります。
クラスター分析の注意点
ここまで解説したように、マーケティングにおいて優秀なデータ解析ができるクラスター分析ですが、実際はいくつかの注意点もあります。
次はその注意点について解説していきます。
注意点1:クラスターの特徴は人が考察する
注意点2:類似性の判断基準は複数ある
各クラスターの特徴は自分で考察しなければならない
繰り返しになりますが、クラスター分析はただ実施するだけでは意味がありません。
クラスタリングされた結果をもとに、それぞれのクラスターにどのような特徴があり、どのような意味を持っているのか考察する必要があります。
さらに注意したいのが、クラスター分析の結果に依存しすぎることです。
非階層クラスター分析におけるクラスター数など、分析を行う人の恣意的な意思が結果に反映されてしまう事例があるからです。
データの類似性を判断する方法は数パターン存在する
さきほど解説した「似たものを判断する基準」であるクラスター距離にはいくつもの種類があり、データによって適切なものを選ぶ必要があります。
ユークリッド距離で正しい分析を得られないと分かればマンハッタン距離に変更する、などの融通を効かせる必要がありますが、それぞれの特徴や利点を理解している人・グループがクラスター分析を行うべきです。
クラスター分析を活用して無数のデータを分類し、似た傾向を持つグループごとにまとめよう!
企業が持つビッグデータは、歴史書のように貴重な「資産」です。
無数に並んだ本から重要なデータを引っ張り出すのは人間には難しいですが、現代のコンピューターならそれが可能です。
クラスター分析は数学要素も絡んでいるためやり方が難しく思えますが、マーケティングに有効利用できれば、市場競争から一歩抜きん出ることも可能です。
必要に応じて専門家の力も借りながら、ぜひクラスター分析を活用していきましょう。
まとめ
今回の記事では、クラスター分析のやり方や手順をご紹介させて頂きましたが、BOXILでは工数をかけずにリード文を獲得することが可能です。
まずは、実際の費用や活用事例をこちらからご確認下さい。