映像に合ったリアルな音を機械学習で生成、アドビらが開発
ノースカロライナ大学チャペルヒル校とアドビの研究者が、映像に映った物体に合わせた音を生成するアルゴリズムを開発した。音声編集の自動化へ向けた道を切り開く興味深い研究だ。 by Emerging Technology from the arXiv2018.01.30
機械学習は、画像と画像を作る方法に関する考え方を変えつつある。研究者は顔を作成したり、漫画を描いたり、写真を絵画風に加工する方法を機械に学習させてきた。こうした方法をもう少し進化させれば、映像も生成できるはずだし、実際にそれは現実になりつつある。
映像を生成するということは、完全なバーチャル環境を機械によって作り出すことを指している。これが実現できれば、人間が経験する未来に対する、あらゆる可能性が開かれる。
だがそこには1つの問題がある。映像はただの視覚的体験だけではない。本物のような音声を生成することも、映像を生成するのと同様に重要だ。つまり、興味深い疑問点は、機械が映像の音声部分を本物らしく生成できるかどうかということだ。
ノースカロライナ大学チャペルヒル校のイーピン・シュウらとアドビ・リサーチの研究者の功績により、この疑問に対する答えが出た。研究チームは、短いビデオ・クリップに本物のようなサウンドトラックを付ける方法を機械学習アルゴリズムに学習させた。
実際に、機械が作り出す音声は、ほとんどの人間が本物だと勘違いするほどリアリティにあふれている。この動画の音を聞いて、本物の音と生成した音との違いを聞き分けてみてほしい。
研究チームは、機械学習の標準的な手法を採用している。アルゴリズムの優劣は訓練するために使 …
- 人気の記事ランキング
-
- AI reasoning models can cheat to win chess games 最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに
- Promotion Innovators Under 35 Japan × CROSS U 【3/14開催迫る!】研究者のキャリアを考える無料イベント
- Your boss is watching 機械化する人間たち—— 「見えない目」が変える 職場の風景
- OpenAI just released GPT-4.5 and says it is its biggest and best chat model yet 限界説に挑むオープンAI、最後の非推論モデル「GPT-4.5」
- Your boss is watching 機械化する人間たち—— 「見えない目」が変える 職場の風景