【scikit-learn】k-means法による顧客データの分類。

どうも、とがみんです。

以前の記事では、類似度の高いデータをクラスタリングするためのk-means法のアルゴリズム、仕組みについて紹介しました。

この記事では、「scikit-learn」を用いて、k-means法により、「卸売業者の顧客データ」の顧客をクラスタリングしていきます。

Contents [hide]

今回すること
データの準備
分析の手順
まとめ
参考文献

今回すること

今回「scikit-learn」という機械学習用ライブラリを使用して、UCバークレー大学にて公開されている「卸売業者の顧客データ」を利用します。

準備されているデータは以下です。

卸売業の顧客データ
Channel：販売チャネル。1: Horeca (ホテル・レストラン・カフェ), 2: 個人向け小売
Region：各顧客の地域。1: リスボン市, 2: ポルト市, 3: その他
Milk：生鮮品の年間注文額
Grocery：食料雑貨の年間注文額
Frozen：冷凍食品の年間注文額
Detergents_Paper：衛生用品と紙類の年間注文額
Delicassen：惣菜の年間注文額

＞Wholesale customers Data Set

これらのデータから、この卸売業者が、どのような顧客タイプの人と取引を行なっているのかを分析して行きます。

データの準備

データの準備をします。以下のコードを実行すると、UCバークレー大学にて公開されている「卸売業者の顧客データ」が440件読み込まれ、最初の5つを表示します。

import pandas as pd
cust_df = pd.read_csv("http://pythondatascience.plavox.info/wp-content/uploads/2016/05/Wholesale_customers_data.csv")
cust_df.head()

import pandas as pd

cust_df = pd.read_csv("http://pythondatascience.plavox.info/wp-content/uploads/2016/05/Wholesale_customers_data.csv")

cust_df.head()

分析の手順

分析の手順は以下のように行っていきます。

Horecaと個人向けのデータを分割
分割後、それぞれで、k-means法によりクラスタリング
データを解釈する

Horecaと個人向けデータを分轄

どのような顧客タイプかを分析するに当たって、Horecaと個人向けは顧客タイプがそもそも違うので、あらかじめ分けておきます。グルーピングの結果何か施策を行うとなった際に、アプローチの方法が変わることが予測できるので。

cust_horeca_df = cust_df[cust_df['Channel']==1]
cust_individual_df = cust_df[cust_df['Channel']==2]

1 2	cust_horeca_df = cust_df[cust_df['Channel']==1] cust_individual_df = cust_df[cust_df['Channel']==2]

cust_horeca_dfにホテル・レストラン・カフェ、cust_individual_dfに個人向けのデータが格納されます。

分割後、それぞれで、k-means法によりクラスタリング

「ホテル・レストラン・カフェ」と「個人向け」のデータに分割したのですが、今回は、「ホテル・レストラン・カフェ」のみをクラスタリングします。

k-means法で分析するにあたって、その準備をします。

クラスタ数は3つにしています。

from sklearn.cluster import KMeans
clusterNum = 3
km = KMeans(
    n_clusters=clusterNum, #クラスタ数
    init='k-means++', 
    n_init=10, 
    max_iter=300, #繰り返し回数の最大値。 
    tol=0.0001,
    precompute_distances='auto',
    verbose=0,
    random_state=None,
    copy_x=True, 
    n_jobs=1)

from sklearn.cluster import KMeans

clusterNum = 3

km = KMeans(

n_clusters=clusterNum, #クラスタ数

init='k-means++',

n_init=10,

max_iter=300, #繰り返し回数の最大値。

tol=0.0001,

precompute_distances='auto',

verbose=0,

random_state=None,

copy_x=True,

n_jobs=1)

各パラメータは以下です。

パラメータ	説明
n_clusters	クラスターの数
init	初期化メソッド k-means++：初期のk個のクラスタの中心を離すことで、初期値問題を解決する。 random：初期クラスタの割り当てをランダムに行う。
n_init	異なる重心を用いたアルゴリズムの実行回数。
max_iter	繰り返し回数の最大値
tol	収束判定の許容可能誤差
precompute_distances	データのばらつきを事前に計算するか。
verbose	1なら、分析結果を詳細表示。
random_state	乱数生成器の状態。
copy_x	距離を事前に計算する場合、メモリ内でデータを複製してから実行するかどうか。
n_jobs	並列処理で初期化する際の多重度。

＞sklearn.clusterlear.KMeans｜scikitlearn

次に、「ホテル・レストラン・カフェ」の結果をグラフ化します。

# 可視化（積み上げ棒グラフ）
import matplotlib.pyplot as plt 
clusterinfo = pd.DataFrame()
for i in range(clusterNum):
    clusterinfo['cluster' + str(i)] = cust_horeca_df[cust_horeca_df['cluster_id'] == i].mean()
clusterinfo = clusterinfo.drop('cluster_id')
my_plot = clusterinfo.T.plot(kind='bar', stacked=True, title="Mean Value of "+ str(clusterNum) + " Clusters")
my_plot.set_xticklabels(my_plot.xaxis.get_majorticklabels(), rotation=0)

# 可視化（積み上げ棒グラフ）

import matplotlib.pyplot as plt

clusterinfo = pd.DataFrame()

for i in range(clusterNum):