データマイニング入門　クラスター分析

昨日から引き続き、データマイニング入門のまとめ。
まずは理論的なことはおいておき、各方法がどんな事に使えるかという観点でまとめていく。

■概要

以下本書より抜粋。P185

- - - -

観測対象を、互いに似たものどうしでグループ分けする手法である。似たような傾向を示す消費者をいくつかのグループに分類することで、消費者の大まかなニーズをつかむような事ができる。
　　　：
　　　：
クラスター分析にはさまざまなオプションがあるが、実用的な観点からは「階層的手法」であるか「非階層的手法」であるかという区別が最も重要であり、本章でもこの２つに分けて紹介する。

- - - -

・階層的クラスター
　以下参考URL抜粋
　　対象間の非類似度()を手がかりにして，樹形図あるいは (dendrogram)と呼ばれる樹状の分類構造を構成することを目標とする分析法
　参考URL

・非階層的クラスター
　　クラスター数を指定して計算する。このため階層的クラスターよりも実行時間が短い。
　　頻繁に利用される手法は「k-means法」である。

　→　集合知プログラミングのK平均法クラスタリングでも使われている。

■実務では

以下本より抜粋。P185

- - - -

車の販売会社の場合、若くて活動的な人にはスポーツカーをすすめたり、幼い子を持つ家族連れにはワゴン車を提案してみると、買い手が食いついてくるかもしれない。このような"若くて活動的なグループ"や"幼い子を持つ家族連れのグループ"といった集団を類似度によって分類することがクラスター分析の目的である。

- - - -

■使用例

■街のイメージ調査

各街のイメージをクラスター分析で大まかに分類する。
・入力
　　街のイメージの調査結果
・出力
　　街のイメージにより分類された結果
・取り込むCSV
----------------------------
"","派手","開放的","冷静","しゃれた","いそがしい","先進的"
"新宿"  ,4.373, 3.542, 2.203, 3.271, 4.712, 4.153
"横浜"  ,3.305, 3.814, 2.864, 4.136, 3.322, 3.831
"吉祥寺",2.085, 3.153, 3.017, 3.441, 2.153, 2.492
"銀座"  ,4.017, 2.475, 3.458, 4.576, 3.322, 3.814
"浅草"  ,1.932, 2.932, 2.898, 2.458, 2.322, 1.746
　　：
　　：
----------------------------

■R使った画像
デンドグラム

ヒートマップ