サービス詳細
RapidMiner Goを使ったモデル作成プロセスの紹介 - Natic | Application Modernization Platform – 日商エレクトロニクス

RapidMiner Goを使ったモデル作成プロセスの紹介

本記事で紹介したいこと:

RapidMiner Goを使った機械学習モデルの作成プロセスについて紹介します。簡単な操作で機械学習モデルを作成・評価し、ビジネスへの貢献度を確認することができます。

目次 Table of Contents:

  1. RapidMiner Goとは
  2. 分析プロセスのご紹介
  3. まとめ
  4. 製品や関連資料の紹介

1. RapidMiner Goとは

データ分析のビジネス活用ポイントは、業務知識とデータを持つビジネスユーザの参加です。
RapidMiner Goはユーザ自身が分析モデルを作成・評価し、データ分析の活用業務を選定するための
Webツールです。分析モデルは数分で作成でき、内容の可読性が高いため、機械学習の高度な知識を持たない人でも機械学習のビジネスへの影響度を確認することができます。フリー版が用意されていますので、是非お試しください。
RapidMiner Go製品情報 (※1)

RapidMiner Goでは以下の分析プロセスを実施することができます。

①データの理解・準備
・データの取り込み
・取り込み項目の品質チェック、特徴量選択

②モデルの作成
・アルゴリズムの選定

③モデルの評価
・作成したモデルの評価、シミュレーション、汎化性能の検証 

2. 分析プロセスのご紹介

分析プロセスをRapidMiner Goの画面を使って説明させて頂きます。今回は銀行の定期預金口座開設
キャンペーン時のサンプルデータを利用して成約確度の高い顧客の予測モデルを作成します。予測する対象項目によって、以下の 3 つのいずれかに分類されます。

・2値分類モデル:2種類のカテゴリデータ (”A”or”B”の二種類に分類する場合)

・多値分類モデル:3種類以上のカテゴリデータ

・回帰モデル:数値データ( 売上の予測など)

今回は、顧客が預金を「申し込むか」、「申し込まないか」を予測するので2値分類モデルとなります。画面の見方や作成したモデルの評価ポイントについて詳しく見ていきます。

< 利用データ >
本記事で使用するサンプルデータはこちらからダウンロード可能です。

2.1 データの理解・準備

RapidMiner Goへデータセットをロードすると、分析に使用する項目を選択する画面が表示されます。不要な項目を除外することでモデルの精度向上が期待できます。業務知識に照らして、予測に有用でないと思われる項目を外してみて下さい。また画面上には、統計的に有用ではない項目は赤や黄色のアラートが出力されますので、これらの情報も加味した上で、項目を利用するか判断します。

<アラートの基準>

・相関性 ( correlation ) : 予測の目的となる項目との相関があるかどうか。0.01%未満の場合アラート。

・ユニークな値 ( ID-ness ) : ユニークな値がどれくらい含まれるか。70%以上の場合アラート。

・安定性 ( Stability ) : 同じ値がどれくらい含まれるか。90%以上の場合アラート。

・欠損値 ( Missing ) :欠損値 ( 値が入っていない ) がどれくらい含まれるか。70%以上の場合アラート

今回の例だと、「債務不履行」、「連絡手段」、「前回預金申し込み」、「年齢」の項目でアラートが出力されています。取り込み対象を吟味しましょう。

2.2 モデル作成

分析に使用する項目を決定すると、モデル作成に使用するアルゴリズムの選択ができます。今回は分類モデルなので、分類問題に適した9種類のアルゴリズムを選択できます。複数のアルゴリズムを選択し、出来上がったモデルの精度を比較ができるのが、RapidMiner Goの特徴の一つです。

2rapidminergo

2.3 モデル評価

作成したモデルの評価指標が自動的に算出されます。主な評価指標やモデルを評価するための機能を説明します。

 

 

① 混合同列 ( Confusion Matrix )

混同行列とは分類モデルの評価を考える際の基本となる行列で、予測が当たった件数と外れた件数をマトリックスで表したものです。②~⑤は、これらの結果を使って計算された評価指標です。

・予測が当たったケース  ⇒ TP + TN

・予測が外れたケース   ⇒ FP + FN

② 正解率 ( Accuracy )

全ての事象の中で、判定結果が当たっていた数の割合です。TPとTNに着目して評価したい場合に利用します。
⇒(TP+TN)/(TP+FN+FP+TN) = 92/114 = 80.7%

正例と負例が不均衡なデータの場合は注意が必要です。以下の例では正解率は95%(95/100 )で精度が高いように思えますが、全て「申し込まない」と予測しており、肝心な「申し込む」顧客を予測できていません。他の評価指標と組み合わせた評価が重要になります。

③ 再現率 ( Recall )

予測に対して、実績が当たっていた割合です。

・ (正例) TP/(TP+FN) =  43/57  = 75.44%

・ (負例) TN/(FP+TN) =  49/57  = 85.96

「本当は契約してくれるはずの顧客をできるだけ取りこぼさずにアプローチを掛けたい」という目的であれば、こちらの指標を重視すると良いと思います。FNを出したくないケース、抜け漏れをできるだけ少なくしたい場合に重視される指標です。

④ 適合率( Precision )

実績に対して、予測が当たっていた割合です。

・ (正例) TP/(TP+FP)  =  43/51 = 84.31%

・ (負例) TN/(FN+TN)   =  49/63 = 77.78%

以下のケースは適合率を重視すると良いと思います

・契約してくれるはずの顧客の取りこぼしが多少あっても、成約確度ができるだけ高い顧客を導き出したい

・キャンペーンをフォローする人的リソースが限られていて、営業の空振りを減らしたい

FPを出しなくないケース、見逃しは多少あっても、予測可能性が高い対象に対して検知したい場合に重視される指標です。

⑤ F値

適合率と再現率の調和平均、モデルを総合的に評価します。再現率と適合率、どちらか一方に偏らせずに均等に評価できます。

FNとFPの両方とも注目して評価したい場合に重視される指標です。

⑥ ROC曲線 ( Receiver Operating Curve )

2値分類モデルは、「対象が申し込み顧客である確率がいくつか?」を算出し予め決定した閾値より大きければ「申し込み顧客」、小さければ「申し込まない顧客」と判定結果を出します。その閾値を変化させた時の偽陽性率と真陽性率の値をプロットしたものがROC曲線です。左上に近づくほど理想的なモデルで対角線に近いと理想から外れたモデルと言えます。

⑦ AUC ( Area Under the Receiving Operating Curve)

ROC曲線の下の領域面積を表します。0~1の値をとるモデルの性能評価指標です。

⑧ Column Weights

・モデル作成時に重要度が高かった項目がランキング形式で確認できる
・各項目の重要度を0.0~1.0の間の値で評価する
・ビジネスの現場のユーザが参照し、納得感があるかどうか確認する

今回の例だと住宅ローン、最終接触時間が「申し込み顧客かどうかの予測」への重要度が高そうです。逆に職種や結婚歴の影響は比較的小さそうです。業務知識と照らし合わせて、マッチしているか確認してみましょう。

 

⑨ モデルシミュレータ

・作成したモデルを用いて、予測結果をシミュレーションすることが可能

・デフォルトでは各項目の平均値が入っており、値変更が可能

・シミュレーション結果を元に納得感があるモデルができたかどうかの判断材料として利用できる

接触時間を多くすると申し込み確度がどれくらい上昇するのか、住宅ローンに加入していない場合はどうか等をシミュレーションし、モデルの適用範囲を検討してみましょう。

3. まとめ

今回は銀行のキャンペーンデータを使って、RapidMiner Goのデータ分析プロセスを紹介しました。AI機械学習の高度な知識を持たない人でもスピーディーにモデル作成・評価ができます。
またRapidMiner Goはビジネスユーザとデータサイエンティストの橋渡しをする役割を担っております。業務内容に詳しいビジネスユーザがRapidMiner Goでプロトタイプのモデルを作成し、結果をデータサイエンティストへ共有します。データサイエンティストはRapidMiner Studioを使ってビジネスへ活用できるレベルまで精度向上を行います。
RapidMiner GoとRapidMiner Studioを合わせて使うことでAI機械学習のビジネス活用の可能性が高まります。是非お手元の業務データをRapidMiner Goに取り込み、効果を検証してみて下さい。

4. 製品や関連資料の紹介

・NaticではRapidMiner Goを使ったAI機械学習の基礎を無料で1時間で学べるハンズオンセミナーを毎月開催しております。是非ご参加ください。詳細はこちら
・機械学習プラットフォーム RapidMinerについてはこちら
(※1) RapidMiner Go製品情報 はこちら

参考資料
1. 塚本邦尊 「東京大学のデータサイエンティスト育成講座」マイナビ出版
2. 機械学習の評価関数(二値分類用)の基礎  詳細はこちら
3. 銀行の定期預金口座開設キャンペーンデータ 詳細はこちら
[Moro et al., 2014]
S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014

————————————————————————————————–

記事担当者:アプリケーション事業推進部 加藤 隼一

投稿日:2021/12/24