RapidMinerによる債権督促交渉経過のテキストマイニング

本記事で紹介したいこと：

ある文章から単語を抽出し、出現頻度や相関関係を文章の特徴(数値)として抽出するTF-IDF法を用いたテキストマイニングのアプローチは、昨今コールセンター業務の効率化やアンケート結果の分析、SNS分析などでよく活用されています。特に日本語文章のテキストマイニングは英語よりも難易度が高く、有益な特徴を抽出するためには専門辞書を整備し活用する事が重要です。
今回は、日商エレクトロニクスが提供する債権管理ソリューション「ACC」に保有する債務者との交渉履歴テキストを例に、RapidMinerによるテキストマイニングのやり方、および、専門辞書の活用方法について紹介します。

1. TF-IDFと専門辞書活用のアプローチについて

まずは今回紹介するテキストマイニングのアプローチで特に重要となる「TF-IDF」と「専門辞書活用」について説明します。

1.1 TF-IDFとは

TF-IDFとは、TFという概念とIDFという概念を組み合わせたものです。
「TF」は（Term Frequency）の略です。直訳すると「単語の出現頻度」で、「各文章においてその単語がどのくらい出現したのか」を意味します。よく出現する単語は、その文章の特徴を判別するのに有用となります。
「IDF」は（Inverse Document Frequency）の略です。これは「逆文書頻度」と呼ばれており、単語が「レア」なら高い値を、「色々な文章によく出現する単語」なら低い値を示すものです。レアな単語は、その文章の特徴を判別するのに有用となります。

今回の債務者との交渉履歴を例に、「TF」と「IDF」について具体例を挙げます。例えば、以下のような交渉履歴に対しテキストマイニングを適用するとします。「債務者」一人ずつの交渉内容が「交渉履歴」にフリーテキストで格納されており、「約束有無」は、その債務者と入金約束を取り付ける事ができたか、もしくは入金約束を取り付けられなかったかを表しています。

rapidminer_textmining01

上記のようなフリーテキストのままでは、文章の特徴を抽出する(数値化する)事はできませんので、文章内に含まれる単語を抽出し、出現頻度をカウントします。また、交渉履歴全体の中で、抽出した単語が含まれている文章の数をカウントします。

1-test1500

ピンクの網掛けは、色が濃い単語ほどその文章内の出現頻度が高い（TFの値が高い）単語となります。
グリーンの網掛け箇所は、色が濃い単語ほど交渉履歴全体に対し出現する回数が少ない（IDFの値が高い）レアな単語となります。
上記のTFとIDFの重みを掛け合わせる事で、文章内に含まれる単語の特徴量を数値で表現する手法が
TF-IDF法となります。

1.2 専門辞書活用について

専門辞書は、文章内に含まれる単語をより業務に即した意味のある単語として抽出するために用いられます。上記「1.1 TF-IDFとは」の説明で使用した交渉履歴の例に、専門辞書を適用した場合を考えてみます。例えば、専門辞書に以下単語をあらかじめ登録しておいたとします。
【専門辞書登録単語】　納付困難、納付申請書

上記2種の単語を辞書登録した状態で、上記「1.1 TF-IDFとは」と同じアプローチを実施した場合、結果は下記となります。

2-test-result2-testmining01

青枠の「納付」という単語の出現数が減少した代わりに、
赤枠の「納付困難」「納付申請書」という2つの単語を組み合わせて1つの意味をもつ単語が特徴量として抽出されている事が分かります。
上記例は2種の単語を組み合わせた単語を専門辞書に登録した場合の例ですが、一般的には扱われない業務特有の単語も辞書登録をしておく事で、同じように特徴量として抽出が可能となります。日本語文章のテキストマイニングでは、この専門辞書の整備が有用な分析結果を導出するために非常に重要な工程とされています。

2. RapidMinerによる日本語文章のテキストマイニング

実際にRapidMinerを用いてテキストマイニングを行う方法を説明します。

2.1 実行環境

RapidMinerにて日本語文章のテキストマイニングを実現するための作業環境について一例を紹介します。
RapidMinerには「Text Processing」というテキストマイニング用の拡張機能(Extension)が用意されていますが、「TextProcessing」のみでは日本語文章の分析を行えません。日本語文章のテキストマイニングを実施するためには、以下のような環境が必要となります。

① RapidMiner拡張機能「Text Processing」
テキストマイニングを実施するためのRapidMiner Extension
② MeCab
日本語文章を分かち書きする（単位ごとに区切って、その間に空白を置く）ためのフリーソフト
※MeCabの実行にはPython環境が必要です
③ RapidMiner拡張機能「Python Scripting」
RapidMinerよりPythonを実行し、MeCabを呼び出すためのRapidMiner Extension
④ Anaconda
Pythonプログラムを実行するための環境

2-1_rapidminer_textmining_kankyo_1200ﾃ・37

2.2 テキストマイニングの流れ

テキストマイニングをRapidMinerにて実施する際の主な流れを下記にて説明します。

① 文章データの取込み
RapidMiner Studioにテキストデータを取込みます。今回は各債務者の交渉履歴より、入金約束を取り付けた交渉と、取り付けられなかった交渉の特徴を抽出したいため、「約束あり」「約束なし」のラベルも一緒に付与してデータを取込みます。

② 文章のクレンジング
文章より特徴量として適切な単語を抽出するために、不要な文字列を文章内より除去します。主に以下のようなものが除去する対象となります。
・住所や電話番号、郵便番号、個人名などの個人情報　※住所は地域ごとに特徴が出そうな文章であれば残すこともありますが、今回は一律除外
・単語抽出するにあたり不要な記号や括弧　※『、。 ( ) – & % @ 〒 ℡ 』など
・システムの仕様で自動登録されるフリー入力以外の文字列　※ACCの場合は「架電本人」や「文書発行」など

③ 文章の分かち書き（単語分割）
MeCabを用いて、文章内の名詞のみを抽出し、文章に半角スペース区切りで並べます。この処理の事を「分かち書き」と言います。分かち書きを実施する際、MeCabに対して専門辞書を適用する事で、業務上有用な単語を抽出する事ができます。

2-2-3_MeCab_1500Large

④ TF-IDFによる特徴量抽出

分かち書き済みのテキストデータに対してRapidMinerの「Text Processing」のプロセスを実行し、
TF-IDFによる特徴量抽出を実行します。

2-2-4_TF-IDF_02-rapidminer

⑤ 抽出したTF-IDF値を用いたデータ分析

上記④までで一連のデータ加工作業は完了となります。ここから加工済みのデータを分析するフェーズとなりますが、分析の目的によってアプローチ方法は様々なものがあります。今回は、以下3種のデータ分析を行いました。

＜分析アプローチ１＞『専門辞書適用有無によって抽出される単語の差異』
専門辞書を未適用の状態と、適用した状態にて抽出される単語の差分を洗い出し、専門辞書適用による効果を考察する。

＜分析アプローチ２＞『「約束あり」「約束なし」それぞれの特徴量比較』
「約束あり」「約束なし」それぞれで、TF-IDFによって重要単語として抽出された単語を比較し、「約束あり」「約束なし」それぞれの交渉履歴における重要単語に特徴がないか分析する。

＜分析アプローチ３＞『「約束有無」を予測する教師あり学習モデルの作成』

「約束あり」「約束なし」を目的変数として教師あり学習モデルを作成し、交渉履歴よりその債務者が入金約束をしてくれるかどうかを予測する分類モデルを作成し、モデル精度を評価する。

※上記3種の分析アプローチ結果について、下記「3.交渉履歴データでの分析結果」に記載します。

3. 交渉履歴データでの分析結果

3.1専門辞書適用有無によって抽出される単語の差異

専門辞書を適用した状態と、未適用の状態で抽出された単語について、TF-IDFの値が大きい順(特徴として抽出された重み順)に「約束あり」「約束なし」でそれぞれ並べた際、専門辞書に登録した単語がどのように特徴量として抽出されるのかを考察しました。結果は下記の通りです。

01_dictionary1-textmining

太字で濃い網掛けの単語が、専門辞書適用によって新たに抽出された単語となります。
「納付」や「送付」といった汎用的な単語が、「納付済」「納付困難」「送付必要」などのように、督促業務において用いられる単語で抽出されている事が確認できました。また、「切電」のように、一般的には用いられない単語も、辞書へ登録する事で特徴として抽出できている事が確認できました。
このように、専門辞書を整備する事によって、単に「納付」「送付」といった汎用的な単語のみならず、対象業務特有の専門単語が特徴量として抽出できる事は、テキストマイニングにて有効な分析結果を出すために非常に重要となります。

3.2「約束あり」「約束なし」それぞれの特徴量比較

RapidMinerには、テキストマイニングの可視化ツールとして、「Wordcloud」という重要度の高い単語を可視化する機能が備わっています。抽出された単語を「約束あり」「約束なし」それぞれで
「Wordcloud」により可視化した結果が下記となります。

3-2_word_cloud_Large

文字の大きさがTF-IDF値を表しており、文字サイズが大きいほどTF-IDF値（重要度）が大きい単語である事を表しております。今回の結果に対する考察は下記の通りです。

・赤枠で囲われた「納付」「仰せ」「確認」「申請」などの単語は、「約束あり」「約束なし」共に重要度が強い単語として抽出されています。「約束あり」「約束なし」に関わらず、交渉履歴全体を通してよく利用される単語のため、TFの値が大きめに算出された単語となります。
・青枠で囲われた単語は、「約束あり」「約束なし」のいずれか一方のみで重要度が強い単語として抽出されており、それぞれの文章の特徴と言えます。
「約束あり」で抽出された「投函」「送付必要」「送付必要なし」などの単語は、入金約束を取り付けた後の納付書の郵送など、事務手続きの内容が色濃く反映され重要度の高い単語として抽出されたものと考えられます。
「約束なし」で抽出された「納付困難」「意思」「怒り」などの単語は、例えば、「生活に困窮しており直近は”納付困難”」、「支払う”意思”がなく、”怒り”出し、一方的に電話を切られた」等、何かしら入金約束を取り付けられない理由や原因に該当する単語が抽出されたものと考えられます。

今回は「約束あり」「約束なし」の切り口で単語の重要度を集計しましたが、分析の目的によって様々な切り口で特徴を抽出する事が可能です。今回の交渉履歴の例では、他に以下のようなアプローチも有効であると考えます。

・オペレータ別に交渉履歴内で使用している単語を抽出し比較する。（優秀なオペレータの交渉術について傾向を掴む）
・入金約束を取り付けた後、実際に支払いが行われたかどうかで単語を抽出し比較する。（実際に入金する債務者の特徴を掴む）
・交渉の経過を時系列に分けて分析する。（交渉が進むにつれて重要度のあがる単語を抽出し、優秀な交渉術の流れを可視化する）

3.3「約束有無」を予測する教師あり学習モデルの作成

各債務者の交渉履歴より、その債務者が入金約束をしてくれるかどうかを予測する二値分類モデルを、
RapidMinerのAutoModel機能を用いて作成しました。作成したモデルの概要は下記の通りです。

[目的変数]
入金約束有無（「約束あり」、「約束なし」の二値）
[説明変数]
各債務者の交渉履歴より抽出した単語のTF-IDF値
[使用したアルゴリズム]
3種類（Generalized Linear Model 、 Deep Learning 、 Gradient Boosted Trees）
※専門辞書の効果を確認するため、専門辞書適用有無それぞれでモデルを作成

作成したモデルの精度を確認した結果は下記の通りです。
■専門辞書適用前

3-3_2AutoModel_Result(JishoNasi)_Large

■専門辞書適用後

3-3_1_AutoModel_Resulta(Jishoari)_Large

上記の通り、専門辞書適用前、専門辞書適用後のいずれの場合も、最も精度の高いモデルは
「Gradient Boostead Trees」となりました。また、専門辞書未適用の際は正答率(Accuracy)が76.8%であったものが、専門辞書適用後は79.3%となり、専門辞書適用によって2.5%モデル精度が向上する結果となりました。専門辞書を適用したことにより、交渉履歴に出現する専門用語が特徴量として適切に扱われた事で、モデル精度が向上したと考えられます。

4. まとめ

今回はRapidMinerによるテキストマイニングの例として、MeCabを用いた日本語文章の分かち書き
～RapidMiner拡張機能「Text Processing」を利用したTF-IDFによる単語の特徴量抽出について、債権督促業務の交渉履歴データを例に紹介しました。システム上フリーテキストで格納されているデータを特徴量抽出によってデータ分析に活用可能となる事で、データ分析にて実現できるテーマの幅を広げることができます。

なお、今回はTF-IDF法を用いて特徴量を抽出しましたが、RapidMinerは自然言語処理に用いられる他の手法（word2vec等）にも対応しており、対象となる文章の特徴や、分析の目的によって、適切なアプローチ方法を選択する事が可能です。また、専門辞書を整備し用いることで、より専門性の高い単語を文章の特徴として抽出したテキストマイニングが可能となります。弊社のデータ分析サービスでは、テキストマイニングの実施のみならず、専門辞書の整備も含めサポートさせていただきますので、テキストデータの活用にお困りの方は是非お問い合わせください。

5. 製品や関連資料の紹介

参考資料1. tf-idfについてざっくりまとめ_理論編
債権管理ソリューション ACC についてはこちら

・機械学習プラットフォーム RapidMinerについてはこちら
・RapidMinerのトレーニング（無料ウェビナーあり）についてはこちら
・RapidMiner無料トライアルダウンロードサイトはこちら
※RapidMinerのトライアル有効期限はダウンロードから30日間です。

—————————————————————————————————
記事担当者：:アプリケーション事業推進部　石田
投稿日：2022/03/10

Digital Omni-Channel Solution DOCH

Business Data Science Platform BDSP

Nissho Application Digital Platform NADP

Data Entry DE

Business Process Management BPM

Enterprise Resource Planning ERP

Enterprise Contents Management ECM

Auto Call Collection ACC

Digital Labor DL

本記事で紹介したいこと：

目次 Table of Contents：