データマイニング入門 クラスター分析
移転しました。
昨日から引き続き、データマイニング入門のまとめ。
まずは理論的なことはおいておき、各方法がどんな事に使えるかという観点でまとめていく。
■概要
以下本書より抜粋。P185
-
-
-
- -
-
-
観測対象を、互いに似たものどうしでグループ分けする手法である。似たような傾向を示す消費者をいくつかのグループに分類することで、消費者の大まかなニーズをつかむような事ができる。
:
:
クラスター分析にはさまざまなオプションがあるが、実用的な観点からは「階層的手法」であるか「非階層的手法」であるかという区別が最も重要であり、本章でもこの2つに分けて紹介する。
-
-
-
- -
-
-
・階層的クラスター
以下参考URL抜粋
対象間の非類似度()を手がかりにして,樹形図あるいは (dendrogram)と呼ばれる樹状の分類構造を構成することを目標とする分析法
参考URL
・非階層的クラスター
クラスター数を指定して計算する。このため階層的クラスターよりも実行時間が短い。
頻繁に利用される手法は「k-means法」である。
→ 集合知プログラミングのK平均法クラスタリングでも使われている。
■実務では
以下本より抜粋。P185
-
-
-
- -
-
-
車の販売会社の場合、若くて活動的な人にはスポーツカーをすすめたり、幼い子を持つ家族連れにはワゴン車を提案してみると、買い手が食いついてくるかもしれない。このような"若くて活動的なグループ"や"幼い子を持つ家族連れのグループ"といった集団を類似度によって分類することがクラスター分析の目的である。
-
-
-
- -
-
-
■使用例
■街のイメージ調査 各街のイメージをクラスター分析で大まかに分類する。 ・入力 街のイメージの調査結果 ・出力 街のイメージにより分類された結果 ・取り込むCSV ---------------------------- "","派手","開放的","冷静","しゃれた","いそがしい","先進的" "新宿" ,4.373, 3.542, 2.203, 3.271, 4.712, 4.153 "横浜" ,3.305, 3.814, 2.864, 4.136, 3.322, 3.831 "吉祥寺",2.085, 3.153, 3.017, 3.441, 2.153, 2.492 "銀座" ,4.017, 2.475, 3.458, 4.576, 3.322, 3.814 "浅草" ,1.932, 2.932, 2.898, 2.458, 2.322, 1.746 : : ----------------------------