【BDSP】2020年以降の5つのAI予測 - Natic | Application Modernization Platform – 日商エレクトロニクス

【BDSP】2020年以降の5つのAI予測

本記事は、米RapidMiner社ホームページ内、RapidMiner BLOGページに掲載されている”5 AI Predictions for 2020 and beyond”(2020年1月23日)を翻訳したものです。


私は、RapidMinerユーザーがその作業に没頭するために多くの時間を費やしており、最先端の開発から課題や問題に至るまで、人工知能の脈動に触れていると考えています。これは、AIの未来がどのようなものになるのかを考えることに繋がります。どんなに優れた機械学習モデルでもデータサイエンスの未来を予測することはできませんが、だからといって人間が将来何が起こるのか理解しようとすることを止めることはできません。今回の記事では、AIや機械学習の未来に大きな影響を与えると思われるトレンドについて、5つの予測を示します。


1. 他のモデルを制御するモデル

機械学習 (ML) を活用したモデルの数を考えると、商用利用のモデルと世界情勢の変化とのミスフィットを検出し、それを修正するためのモデルのトレーニングが増えていくことを期待しています。さらに、モデルと現実世界のミスマッチもモデルバイアスの原因となっているため、これらの問題を特定できるモデルは、倫理的なデータサイエンスへの大きな一歩となるでしょう。
 
世界は行動、経済、コストなどにおいて常に変化しているため、モデルが世界に合わせて変化しなければ、結果的にミスフィットが発生し、実装には不適切なものになってしまいます。だからこそ、他のモデルのミスフィットを追いかけるようにモデルを開発し、必要に応じて修正を加えていく方向にシフトしていくのではないかと期待しています。


2. 自動深層学習の民主化

機械学習の自動化だけでは不十分です。2018年は自動化されたMLが大きなトレンドとなりましたが、その後高度に非構造化されたデータに最適な深層学習 (DL) が登場しました。カテゴリまたは数値入力を使用して、DLを使用すると、脳波信号に基づく夢の画像など、ダイナミックで複雑な出力を作成することができます。しかし、深層学習の力には欠点があります。これらのモデルは最適化が難しく、複雑な構造は特定の形式のユーザーインターフェースを必要とします。

こうした制約を受け、2020年には、より複雑なアウトカムモデルを作成することで、データサイエンスの課題解決にDLをより容易に、より正確に適用できるようになる自動深層学習の民主化が起こると予想しています。


3. ラベルなしのトレーニング

最も成功しているモデルは教師あり学習を使用しており、過去の実世界での経験からモデルに何を予測させたいかを知っているため、データサイエンティストはモデルの結果を簡単に検証することができます。しかし、これらのモデルを訓練するために必要なデータを見つけたり、生成したりすることは、コストがかかり、困難な作業になります。

この問題を回避するためにデータサイエンティストは、多くのトレーニングデータにアクセスすることなくモデルを作成する方法を数多く開発してきました。例えばアクティブラーニングでは、モデルは予測を洗練するために役立つデータポイントを作成し、インパクトのあるケースについて人間に判断を求めます。また、異なる産業やアプリケーションの間でモデルを転送し、新しいユースケースのためにモデルを調整することもできますが、これは明らかにモデル自体に問題が発生します。しかし、特に製造業では、デジタルツイン (過去のデータとライブデータの両方から作成された複雑なプロセスを仮想的に表現したもの) を使用することが、シミュレートされたトレーニング・ラベルを作成するために増えると期待しています。


4. 新しい精度となる説明責任

データサイエンスコミュニティの文化的変化が起こりつつあり、最も正確なモデルを作成することから、モデルが生み出すインパクトに対してデータサイエンスチームが責任を持つようにすることに焦点が移っています。新たに導入されたモデルは、良くも悪くもビジネスインパクトを生み出します。

何十年も前から、精度を優先するためにモデルを調整することに過大な投資をしてきました。しかし、モデルを微調整して精度を可能な限り高くすると、その時の特定の瞬間のみ正確になるだけです。世の中は常に変化しているため、時間の経過とともにモデルの精度は低下していきます。生産開始時の不意打ちを避けるために、高精度を長期間維持できる「復元力のある」モデルを作ることにシフトしていく必要があります。復元力のあるモデルは、特定の時間には他のモデルよりも低い精度で動作しますが、微調整することなく、より長く精度を維持することができます。

長期的な復元力とビジネスへの影響についてデータサイエンスチームが説明責任を持つことは、ビジネスとデータサイエンティストの両方が構築するモデルの見方を変えることになるでしょう。精度の最適化は重要ですが、精度だけでは将来のモデルインパクトを考えることはできません。


5. アンサンブル2.0:深層特徴と説明可能なAI

アンサンブルmodelは、複数の異なるMLモデルを取り、それらすべてから予測値を得て、それらを用いて個々のモデルよりも優れた性能を発揮することを期待し、単一の予測値を生成します。本質的に「群衆の知恵」を利用していますが、あなたの「群衆」とはMLモデルの束です。

例えば、キャンディの瓶を取って複数の人に瓶の中のキャンディの数を当ててもらった場合、最も近い個人の当て方より、集めたすべての答えの平均値の方が正確になる可能性が高いです。現在のアンサンブルのトレンドは、モデリングを超えて、特徴工学も考慮に入れています。DLモデルから派生した「深層特徴」とツリーベースのモデルのような、より理解しやすいモデルを組み合わせることができます。これは複雑なDLモデルの予測力と、よりシンプルなタイプのモデルの理解力との両方で、最高のものを得ることができます。

深層特徴は、このアプローチが特に価値のあるDLの領域です。深層特徴では、データセット内の特徴を識別するためだけにDLアルゴリズムを使用します。様々な動物の画像をDLネットワークに送り込んだとします。「これはライオンで、これは犬です」というのではなく、深層特徴プロセスでは、尻尾や長い鼻、短い耳など、より複雑な動物の特徴を取り、意思決定モデルと組み合わせて、よりスマートで解釈しやすいモデルを作成します。

私たちは (最終的に) モデルのバイアスと偏差を理解する世界に向かっており、これらの問題に対処し、説明する方法を開発しています。データサイエンスやこの領域で作成されたモデルは意思決定の自動化を可能にしますが、人間社会や法律の限界の下で業務を行うことへの責任と説明責任はまだまだ求められています。バイアスやモデルのミスフィットは、技術的な問題ではなく現実世界の問題であり、データサイエンスのモデルの中に存在し続け、最終的にはビジネスや社会に影響を与える問題を生み出しています。しかし、データサイエンティストは、より人間中心で、責任感があり、倫理的なデータサイエンスの実践の時代になると確信しています。


新しい機械学習プロジェクトを始めるなら、ホワイトペーパーをチェックしてみてください。:“Human’s Guide to Machine Learning Projects.”


記事担当者:アプリケーション企画開発部 積田
投稿日:2020/09/23