人間の創造性を測定することを目的として作られたテストで、人工知能(AI)が好成績を上げるようになってきている。2023年9月14日のネイチャー・サイエンティフィック・リポーツ(Nature Scientific Reports)に掲載された研究によると、AIチャットボットが、創造性の評価テストとして普及している「オルタネイト・ユーシス・タスク( Alternate Uses Task=AUT、日本版注:J.P. ギルフォードが1967年に開発した拡散的思考を測定するためのテスト)」で、人間よりも高い平均スコアを達成した。
AI研究者の間では人間用に考案されたテストにコンピューターが合格することの、そもそもの意味について議論がなされているが、この研究はその動きに拍車をかけるだろう。とは言え、今回の結果は必ずしも、AIが人間特有の能力を培いつつあることを示すものではない。AIが創造性テストで好成績を上げたからといって、私たちが理解するところの創造性をAIが備えているとは限らない。しかしながらこのような研究を通して、人間と機械の創造的なタスクへの取り組み方について理解が深まる可能性はある。
今回の研究には、オープンAI(オープンAI)の「チャットGPT(ChatGPT)」と「GPT-4」、そしてGPT-3を基盤に構築されたライティングツール「コピーAI(Copy.Ai)」の3つのAIチャットボットが使われた。研究チームは最初、ロープ、箱、鉛筆、ロウソクの使い道を30秒以内にできるだけ多く考え出すようにチャットボットに命令した。
それぞれのチャットボットに対して各アイテムのオリジナルで創造的な使い方を挙げるように指示し、アイデアの量よりも質が重要だと説明するプロンプト(指示テキスト)を入力するテストを、4つのアイテムについて11回ずつ実施。さらに、256人の人間の実験参加者にも同じ指示をした。
そして、二つの方法で、AIと人間の両方の回答を評価した。一つ目は、出された使い道の案とアイテムの本来の用途との近さを評価するアルゴリズムを用いた。二つ目の方法では、6人の人間の評価者(回答の一部をAIシステムが生成していることは知らない)に、それぞれの回答のオリジナル性と創造性のレベルを1から5のスケールで評価してもらった。まったく当てはまらない場合は1、特に優れていれば5である。こうして人間とAIの両方の平均スコアを算出した。
その結果、チャットボットの回答は平均して人間の回答よりも優れていると評価されたが、最高得点は人間の回答のほうが高かった。
研究を共同主導したノルウェーのベルゲン大学心理学のシモーネ・グラッシーニ准教授によると、この研究の目的は、AIシステムが創造的な仕事において人間に代わり得る可能性を証明することではなかったが、人間固有の特性について哲学的な問いを提起しているという。
「ここ数年、人間の行動を模倣するテクノロジーが大きな進歩を遂げていることが示されてきました」とグラッシーニ准教授は言う。「大規模言語モデルは絶えず進化しています」 。
人間の創造性の測定を目的に設計されたタスクで機械が好成績を上げることが証明されても、独創的な思考能力があるとは言えない、と述べるのは、同じく研究にかかわったアラン・チューリング研究所上級研究員のライアン・バーネル博士だ。
テストを受けたチャットボットは「ブラックボックス」であり、どのデータに基づいて訓練されたのか、どのように回答を生成したのかは把握しようがないという。バーネル博士は「実験ではそれらしい回答をしていますが、モデルが斬新で創造的なアイデアを思いついたわけではありません。訓練データにあるものに基づいているだけです。訓練データの中にはまさにAUTが含まれている可能性もあります」と説明する。「その場合、創造性を測ったことにはなりません。この種のタスクに関してモデルが持っている過去の知識を測っているに過ぎません」。
とはいえ、「機械と人間がある種の問題にどのように対処するかを比較することが、まったく無意味だというわけではありません」と、言語モデルを研究しているマサチューセッツ工科大学(MIT)博士研究員のアンナ・イワノヴァは言う(同研究員はこの研究プロジェクトには参加していない)。
ただし、チャットボットは特定のリクエストに対しては優れているが、プロンプトを言い換えるなどのわずかな調整でパフォーマンスが低下し得ることを心に留めておくべきだという。この種の研究は、AIモデルにやらせようとしているタスクと、測ろうとしている認知能力との関連性を検討するきっかけになるはずだとイワノヴァ研究員は考えている。「前提として、人とモデルが同じように問題を解いていると考えるべきではありません」。