データマイニング入門 クラスター分析

移転しました。

昨日から引き続き、データマイニング入門のまとめ。
まずは理論的なことはおいておき、各方法がどんな事に使えるかという観点でまとめていく。

■概要

以下本書より抜粋。P185

        • -

観測対象を、互いに似たものどうしでグループ分けする手法である。似たような傾向を示す消費者をいくつかのグループに分類することで、消費者の大まかなニーズをつかむような事ができる。
   :
   :
クラスター分析にはさまざまなオプションがあるが、実用的な観点からは「階層的手法」であるか「非階層的手法」であるかという区別が最も重要であり、本章でもこの2つに分けて紹介する。

        • -

・階層的クラスタ
 以下参考URL抜粋
  対象間の非類似度()を手がかりにして,樹形図あるいは (dendrogram)と呼ばれる樹状の分類構造を構成することを目標とする分析法
 参考URL

・非階層的クラスタ
  クラスター数を指定して計算する。このため階層的クラスターよりも実行時間が短い。
  頻繁に利用される手法は「k-means法」である。

 → 集合知プログラミングのK平均法クラスタリングでも使われている。

■実務では

以下本より抜粋。P185

        • -

車の販売会社の場合、若くて活動的な人にはスポーツカーをすすめたり、幼い子を持つ家族連れにはワゴン車を提案してみると、買い手が食いついてくるかもしれない。このような"若くて活動的なグループ"や"幼い子を持つ家族連れのグループ"といった集団を類似度によって分類することがクラスター分析の目的である。

        • -

■使用例

■街のイメージ調査

各街のイメージをクラスター分析で大まかに分類する。
・入力
  街のイメージの調査結果
・出力
  街のイメージにより分類された結果
・取り込むCSV
----------------------------
"","派手","開放的","冷静","しゃれた","いそがしい","先進的"
"新宿"  ,4.373, 3.542, 2.203, 3.271, 4.712, 4.153
"横浜"  ,3.305, 3.814, 2.864, 4.136, 3.322, 3.831
"吉祥寺",2.085, 3.153, 3.017, 3.441, 2.153, 2.492
"銀座"  ,4.017, 2.475, 3.458, 4.576, 3.322, 3.814
"浅草"  ,1.932, 2.932, 2.898, 2.458, 2.322, 1.746
  :
  :
----------------------------

■R使った画像
デンドグラム
f:id:shohu33:20090127131922j:image
ヒートマップ
f:id:shohu33:20090127131923j:image