1 min read
Dr. Shou-De Lin Appier社 チーフマシンラーニングサイエンティスト 今日、企業が取り扱うデータ量は増加する一方で、また、データの入手サイクルも早くなっています。また、自社を取り巻く競合の状況も急速に変化しているため、迅速な意思決定を行う能力が不可欠です。
Jason JenningsとLaurence Haughtonが言うように、「大企業が小企業を制するのではなく、速い者が遅い者を制する」(先んずれば制す時代)です。
ビジネスの成功は、可能な限り最良の情報を使用して迅速な意思決定を行うことから生まれます。
機械学習(ML)がその進化を後押ししています。企業が顧客へレコメンデーションをするにしても、製造プロセスを磨き上げ、市場の変化を予測するなどのいかなる場面においても、機械学習は、大量のデータ処理をすることで、競争上の優位性を求める企業をより適切にサポートします。
とはいえ機械学習も、万能ではありません。機械学習システムは、大量のデータと複雑な計算を実行する機能に依存しています。顧客の期待の変更や想定外の市場の変動などの外部要因に対応するために、機械学習モデルは適宜モニターされ、メンテナンスされる必要があります。
さらに、機械学習には解決すべき多くの問題があります。ここでは、5つの主要な実質上の問題点と、そのビジネスへの影響を詳しく見ていきます。
1. データの品質
機械学習システムはデータに依存しています。そのデータは、大きく分けて、変数とラベルの2つのグループに分類できます。
変数とは、機械学習モデルへのインプットです。 たとえばそれはセンサーからであったり、顧客アンケート、ウェブサイトのCookie、または履歴情報からのデータかもしれません。
これらの変数の品質は様々です。 たとえば、顧客がアンケートに正しく記入しなかったり、回答を省略することがあります。 センサーは誤動作して誤ったデータを配信する可能性がありますし、ウェブサイトのCookieはウェブサイトでのユーザーの正確なアクションに関する不完全な情報を提供する可能性があります。 データセットの品質は、モデルを正しくトレーニングするために重要です。
また、データには不必要な情報、つまりノイズが含まれる場合もあります。これは機械学習モデルに誤った予測をさせる原因になります。 機械学習モデルのアウトプットはラベルです。システムへのインプットは見えるものの、発生したアウトプットは見えないというのも問題です。このような場合、変数とモデルのラベル間の関係を検出することは非常に困難で、マニュアル作業が必要になります。
インプットからアウトプットへの正確なマッピングがないと、モデルはインプットとアウトプットの間の正確な関係を学習できない場合があります。
機械学習は、インプットデータとアウトプットデータ間の相関関係から、将来のアクション予測やレコメンデーションを提供する、汎用モデルを生成します。インプットデータにノイズが多かったり、データが不完全だったり誤っている場合、ある特定のアウトプットやラベルが発生した理由を理解することは非常に困難です。
2. 複雑さと品質のトレードオフ
堅牢な機械学習モデルを構築するには、変数とラベルを処理するために多大な計算リソースが必要です。複雑なモデルのコーディングには、データサイエンティストとソフトウェアエンジニアの多大な努力が必要です。複雑なモデルは、実行に多大な計算能力を必要とすることがあり、使用可能な結果を得るのに時間がかかる場合があります。
これは企業にとっては、二者択一を迫られることになります。より速い反応を選択すれば、潜在的に正確性の低さを甘受せざるを得ません。あるいは遅い反応を甘受する代わりに、より正確な結果を追求することもできます。もちろんこれらの妥協が一律に悪いということではありません。より高速な反応か、費用をかけてより正確なモデルを採用するかの決定は、ケースバイケースです。
たとえば、小売ショッピングサイトで買い物客にレコメンデーションを実施するには、リアルタイムの反応が必要ですが、結果の予測が完全であることは必須ではありません。一方、株式取引システムには、より精度の高い結果が必要です。多くのデータを使用して計算を実行するモデルは、リアルタイムの結果が必要ない場合により適しています。
サービスとしての機械学習(MLaaS)が市場に参入すると、複雑さと品質の関係性は、さらに注目されるでしょう。 シカゴ大学の研究者によればMLaaSの有効性は、「分類子や機能選択などの主要な決定について十分なインサイトがあれば、スタンドアロンの分類子に匹敵する結果を得ることができる」とのことです。
3. データサンプリングにおけるバイアス
多くの企業が採用において、機械学習アルゴリズムを活用しています。たとえば、Amazonは、 入社候補者の選択を支援するために使用したアルゴリズムに偏りがあることを発見しました。また、プリンストンの研究者は、ヨーロッパの名前が他のシステムに支持されており、 人間の偏見を真似ていることを発見しました。
ここでの問題は、モデルに特有のものではありません。問題は、モデルのトレーニングに使用されるデータには独自のバイアスがあることです。ただし、データが偏っていることがわかった場合は、デバイアスまたはそのデータへの偏重を調整する方法があります。
最初の課題は、データに固有のバイアスがないかを判断することです。これには前処理が必要です。また、データからすべてのバイアスを取り除くことは不可能かもしれませんが、人間の知識を取り入れることで、その影響を最小限に抑えることができます。
場合によっては、データ内の変数の数を制限することが必要になります。たとえば、人種や肌の色などの特性を省略すると、データの偏りがモデルの結果に与える影響を制限できます。
4. 変化する期待とコンセプトのドリフト
機械学習モデルは特定の条件下・範囲内で動作します。たとえば、小売業者向けのレコメンデーションエンジンを強化する機械学習モデルは、顧客が特定の製品を見ている特定の時間に動作します。ただし、お客様のニーズは時間の経過とともに変化するため、機械学習モデルは、提供するように設計されたものから逸脱する可能性があります。
モデルは様々な理由で衰退する可能性があります。モデルに新しいデータが導入されると、ドリフト(ずれ)が発生する可能性があります。これはデータドリフトと呼ばれます。または、データの解釈が変化したときに発生することもあります。これがコンセプトドリフトです。
このドリフトに対応するために、導入されるデータを使用して継続的に更新および改善するモデルが必要です。つまり、モデルを継続的にチェックし続ける必要があります。
そのためには変数とラベルを収集し、変更に対応してモデルの更新と、再トレーニングが必要になります。一部の再トレーニングは自動でできますが、人間の介入が必要になる場合もあります。機械学習ツールの導入は1回限りのアクティビティではないことを認識することが重要です。
機械学習ツールで継続的に価値を提供するには、定期的なレビューと更新が必要です。
5. モニタリングとメンテナンス
モデルの作成は簡単ですし、その構築は自動化できます。ただし、モデルのメンテナンスと更新には計画とリソースが必要です。
機械学習モデルは、モデルのトレーニングに使用される変数から始まる長い連環です。変数の次には、変更と更新が必要なソフトウェアの一部であるモデル自体があります。そのモデルは、インプットの結果を認識して使用するためにラベルを必要とします。また、システム内のモデルと最終シグナルとの間で断線することもあります。
予測不能な結果の原因は多くの場合、機械学習ではなく、その他の部分です。たとえば、レコメンデーションエンジンが顧客に製品を提供していても、販売システムとレコメンデーションの間の接続が切断され、バグの発見に時間がかかる場合があります。この場合、レコメンデーションが成功したかをモデルに伝えるのは困難です。このような問題のトラブルシューティングは、かなりの労力を要します。
機械学習は企業に大きなメリットをもたらします。顧客の行動に影響を与え、ビジネスオペレーションをサポートする予測する機能は重要です。ただし、一方で多くの課題も存在します。企業にとって機械学習を自社のものにするためには、課題を認識し、対処のための戦略を整えることが必須となるでしょう。
* Appier の機械学習ソリューションにご興味がありましたら、 こちら からお問合せください。