強化学習ベースの価格設定アルゴリズムに「談合」の恐れ
アマゾンで買い物をするとき、購入したサービスや商品の価格を設定したのは、おそらく人間ではなくアルゴリズムだ。自動化システムがますます手ごろで簡単に実装できるようになるにつれ、価格設定アルゴリズムはあらゆるオンライン販売で使われるようになってきた。
航空会社やホテルは長らく機械を使って価格を設定してきたが、価格設定システムは進化しており、ルール・ベースのプログラムから強化学習ベースのプログラムへと移行し、価格を決定するロジックはもはや人間がコントロールするものではなくなった。
強化学習はAI(人工知能)エージェントに対し、特定の目標に向けて罰と報酬を使って動機付けする機械学習のサブセットである。アルファ碁(AlphaGo)が、囲碁で最強の棋士を打ち破るのに強化学習を使ったのは有名だ。価格設定システムは、たとえば、全体的な利益を最大化するなどの目標を与えられ、その後、シミュレーション環境でさまざまな戦略を実験し、最適な戦略を見付ける。だが、 ある新しい論文では、このシステムが大きな問題を起こす可能性を指摘している。強化学習を使った価格設定システムは、すぐに「談合」を学んでしまうのだ。
イタリアのボローニャ大学の研究者は、単純な強化学習ベースの価格設定アルゴリズムを2つ作り、制御環境へ投入した。その結果、2つの完全に自立したアルゴリズムはお互いのふるまいに反応することを学び、 単独で動作していたら付けるはずの価格より商品価格を高く引き上げることが分かった。
「もっとも心配な点は、2つのアルゴリズムが共同行為の証拠をまったく残さなかったことです」と研究者は書いている。「アルゴリズムは、自身が動作する環境に対する事前知識なしで、お互いにコミュニケーションをとることもなく、談合するように特に設計されたわけでも指示されたわけでもなく、純粋に試行錯誤によって談合を学びました」。強化学習による価格設定アルゴリズムは、商品の価格を上昇させ、最終的には消費者の利益を害するリスクがある。