オープンAI、有名アーティスト風のポップスを深層学習で生成
オープンAIは、深層学習アルゴリズムを用いてポップスの楽曲を生成する人工知能(AI)を発表した。ケイティ・ペリー、エルビス・プレスリー、ナズといった有名なパフォーマーのスタイルで、そこそこの出来の「歌」を生成できる。 by Will Douglas Heaven2020.05.05
非営利の研究グループであるオープンAI(OpenAI)は、ポップス産業における新たな試みとして、ティーニーバップやカントリーから、ヒップホップ、ヘビーメタルまで、さまざまなスタイルでキャッチーな曲を生成できる「ジュークボックス(JukeBox)」と呼ばれるニューラル・ネットワークを発表した。このニューラルネットは、ちょっとした歌さえ歌うことができる。
ジャンルやアーティスト、歌詞をジュークボックスに入力すると、ジュークボックスはケイティ・ペリー、エルビス・プレスリー、ナズといった有名なパフォーマーのスタイルで、そこそこの出来の寄せ集めの歌を生成する。また、曲の最初の数秒を入力して、残りの部分を自動補完させることもできる。
コンピューターに音楽を生成させる試みは50年以上の歴史がある。人工知能(AI)はこれまで、オーケストラ・クラシックとアンビエント電子音楽の印象的な作品をたくさん生成してきた。ビデオゲームはしばしばバックグラウンド音楽として、コンピューターが生成した音楽を使用し、プレイヤーの操作に応じてその場でループしたり、音の強弱を変えたりしている。
しかし、コンピューターにとっては、ビートルズのような音楽を生成するよりも、バッハのような音楽を生成する方がはるかに簡単だ。多くのクラシック音楽には数学的な下支えがあり、AIが作曲でよく用いる音楽の記号表現に適しているからだ。ポップソングはよりシンプルであるが、そうではない。
ジュークボックスの訓練には、ピッチ、楽器、タイミングといった抽象的な表現ではなく、120万曲の生のオーディオデータ自体を使用した。しかし、そのためには、いわゆる依存関係、すなわち典型的なポップソングの再生時間である3分間から4分間にわたって現れる繰り返しメロディを追跡できるニューラル・ネットワークが必要だった。AIには難しいタスクだ。このタスクの感覚を獲得するため、ジュークボックスは1曲あたり数百万のタイムスタンプを追跡し続ける。これに対し、オープンAIの言語ジェネレータ「GPT-2」が文章を追跡するときに使用するタイムスタンプは1000である。
ジュークボックスの生成するポップソングは、正直に言えば、まだまだのレベルだ。技術的に印象的ではあるものの、不気味な谷のかなり深いところにあると気づくだろう。オープンAIが目標とする汎用人工知能(AGI)からにはまだほど遠い。しかしジュークボックスは、ニューラル・ネットワークがいかに人間を模倣するかを改めて示し、現実のものとそうでないものの境界線を曖昧にしている。たとえば、先週、ラッパーのジェイ・Zは、自身がビリー・ジョエルの曲を歌っているディープフェイクの削除を求める法的措置を開始した。オープンAIは、AIが知的財産権に及ぼす影響に関する研究を計画していると述べている。
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
- ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
- AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。