非営利の研究グループであるオープンAI(OpenAI)は、ポップス産業における新たな試みとして、ティーニーバップやカントリーから、ヒップホップ、ヘビーメタルまで、さまざまなスタイルでキャッチーな曲を生成できる「ジュークボックス(JukeBox)」と呼ばれるニューラル・ネットワークを発表した。このニューラルネットは、ちょっとした歌さえ歌うことができる。
ジャンルやアーティスト、歌詞をジュークボックスに入力すると、ジュークボックスはケイティ・ペリー、エルビス・プレスリー、ナズといった有名なパフォーマーのスタイルで、そこそこの出来の寄せ集めの歌を生成する。また、曲の最初の数秒を入力して、残りの部分を自動補完させることもできる。
コンピューターに音楽を生成させる試みは50年以上の歴史がある。人工知能(AI)はこれまで、オーケストラ・クラシックとアンビエント電子音楽の印象的な作品をたくさん生成してきた。ビデオゲームはしばしばバックグラウンド音楽として、コンピューターが生成した音楽を使用し、プレイヤーの操作に応じてその場でループしたり、音の強弱を変えたりしている。
しかし、コンピューターにとっては、ビートルズのような音楽を生成するよりも、バッハのような音楽を生成する方がはるかに簡単だ。多くのクラシック音楽には数学的な下支えがあり、AIが作曲でよく用いる音楽の記号表現に適しているからだ。ポップソングはよりシンプルであるが、そうではない。
ジュークボックスの訓練には、ピッチ、楽器、タイミングといった抽象的な表現ではなく、120万曲の生のオーディオデータ自体を使用した。しかし、そのためには、いわゆる依存関係、すなわち典型的なポップソングの再生時間である3分間から4分間にわたって現れる繰り返しメロディを追跡できるニューラル・ネットワークが必要だった。AIには難しいタスクだ。このタスクの感覚を獲得するため、ジュークボックスは1曲あたり数百万のタイムスタンプを追跡し続ける。これに対し、オープンAIの言語ジェネレータ「GPT-2」が文章を追跡するときに使用するタイムスタンプは1000である。
ジュークボックスの生成するポップソングは、正直に言えば、まだまだのレベルだ。技術的に印象的ではあるものの、不気味な谷のかなり深いところにあると気づくだろう。オープンAIが目標とする汎用人工知能(AGI)からにはまだほど遠い。しかしジュークボックスは、ニューラル・ネットワークがいかに人間を模倣するかを改めて示し、現実のものとそうでないものの境界線を曖昧にしている。たとえば、先週、ラッパーのジェイ・Zは、自身がビリー・ジョエルの曲を歌っているディープフェイクの削除を求める法的措置を開始した。オープンAIは、AIが知的財産権に及ぼす影響に関する研究を計画していると述べている。