【BDSP】データサイエンスで犯したくない4つのよくある失敗 - Natic | Application Modernization Platform – 日商エレクトロニクス

【BDSP】データサイエンスで犯したくない4つのよくある失敗

本記事は、米RapidMiner 社ホームペー内、RapidMiner BLOGに掲載されている”4 common data science mistakes you don’t want to make”(2020年7月10日) を翻訳したものです。


データサイエンスは難しい、それを理解しているからこそ、RapidMiner StudioRapidMiner GOのような製品を使って、誰もがデータサイエンスにアクセスできるようにすることに投資しています。データサイエンスに慣れていない人は、他人が専門家に見えて、彼らが最初のトライですべてを完璧にこなしており、自分では追いつけないと感じるかもしれません。

しかし、信じてください。それは違うのです。

すべてのデータサイエンティストは、自分のキャリアの中で失敗をし、その失敗から学んだ事を新しいプロジェクトに取り入れ、時間をかけて専門性を高めてきたのです。


データサイエンスの4つの間違いとその回避方法

そのため、RapidMinerのトップの知識人の方々に、記憶に残るデータサイエンスの失敗や、その経験から何を学んだのかを聞いてみました。自分で失敗しなくても、彼らから失敗を学ぶことができます。


1. 単純なベースラインとモデルを比較しない

創業者 Ingo Mierswa

あなたには好きな種類のモデルがあるかもしれません。もしかしたらそれが複雑な畳み込みニューラルネットワークかもしれません。誤解しないでください、それ自体は問題ではありません!しかし、複雑で、時間と手間がかかるものがあなたのお気に入りのモデルであるならば、このタイプのモデルを選びすぎていないか検討してみてはいかがでしょうか。好きだからというだけなのでしょうか?もっとシンプルで作りやすいモデルタイプはありませんか?

私は何度も、複雑なものに飛びつき、パラメータの調整やモデルの再訓練に多くの時間を費やしていましたが、単純な回帰モデルがほぼ同じくらいの性能を発揮することを後で発見したことがあります。

教訓:プロジェクトを迅速かつ効果的に進めるために必要なのは、基本的なことだけの場合もあります。


2. 同じ項目で複数の観測値を持つ

データサイエンスサービス責任者 Martin Schmitz

このミスはよく覚えています。建設機械の保守契約の解約分析を行いました。トレーニング時の最初のパスで、うまくモデルが解約を予測できず、その理由が分かりませんでした。データとにらめっこし、問題に気付くまでに数時間かかりました。

多くの保守契約は当然ながら更新されているため、1社が2015年更新、2016年更新、2017年更新、2018年更新、2019年更新、と異なる値で複数回データセットに入っている可能性があることを意味していました。これは、バッチデータについての最近のブログで取り上げたものと似たような問題を引き起こします。

基本的に、全ての観測値は独立していると想定していますが、今回はそうではないため、モデルを混乱させています。この場合、1つの企業を予測しようとしているにも関わらず、その企業についての情報がデータの中で矛盾していることになります。さらに、更新されたケースの数を5倍に増やしたのですが、これが明らかに解約ではなく更新を予測する方向にデータを歪めています。

教訓 : トレーニング済みモデルの一つのクラスで大きな過大予測が見られる場合は、全てのデータポイントが互いに独立していることを確認してください。この種の問題がある場合は、いくつかのオプションがあります。これについては、前述のバッチ処理されたデータの投稿で確認できます。


3. ビジネスケースを明確に理解していない

データサイエンティスト Yuanyuan Huang

以前、プリペイド式携帯電話会社の解約を予測しようとしたことがあります。私たちは本当に堅実な結果を得て、人々がいつ解約するかを予測することができました。

残念ながら、私たちが予測した解約者の大多数は、旅行中に一時的にSIMカードを購入して利用する観光客であることが判明しました。解約率が高い理由を知ることは興味深い洞察かもしれませんが、それを教えてくれるモデルは予測に必要ありませんでした。

さらに、これらのケースでは、解約を減らすための実行可能なステップがないため、ビジネスには何のメリットもありませんでした。「頑張ったけど役に立たなかった」データサイエンスソリューションのよくある例です。

教訓 : データサイエンスの問題だけではなく、ビジネス上の問題を解決していることを常に確認してください。優れたデータサイエンスを行っても、ビジネスに全く役に立たないインサイトを発見することは可能であり、データサイエンティストの仕事は、投資収益率という形でビジネス価値を提供することです。ボトムラインを改善するモデルに投資していることを確認しましょう。


4. データを十分に理解していない

リードデータサイエンティスト David Arnu

私は、非常に大きくて曖昧なデータセットを使ったプロジェクトに取り組んだことがあります。トレーニングするのは難しいモデルのように思えましたが、トレーニング後の予測は本当に良かったです。良すぎました。非現実的に良かったのです。

かなり時間がかかりましたが、最終的に気付いたのは、トレーニングデータを取得するための元のデータダンプが2回行われていたことです。後半のデータセットは、前半のデータセットの複製に過ぎませんでした。これは、検証のために分割した後、まったく同じ時点のデータがトレーニングセットとテストセットの両方で利用されてしまうことであり、モデルに最初から想定されている正解を与えることで、当然、正解が得られてしまうことを意味しています。

教訓 : モデルのトレーニングを始めようとする前に、自分のデータがどこから来たのか、その中に何があるのかを確実に理解してください。


結論

これがデータサイエンスの間違いです。うまくこの知識を手にしていただければ、自分の仕事でこれらの間違いを避けることができるようになるでしょう。
まだデータサイエンスや機械学習について学んでいて、それがビジネスにどのような影響を与えるか気になっている方は、AIを使ってビジネスに影響を与える50の方法をチェックして、AIが業界全体に与えている効果を確認してみましょう。


記事担当者:アプリケーション企画開発部 積田
投稿日:2020/11/16