KADOKAWA Technology Review
×
2024/7/4(木)11:00〜14:00(予定)の間システムメンテナンスを実施します。
生成された動画のサンプル / KLING
I tested out a buzzy new text-to-video AI model from China

中国テック事情:話題の動画生成AI「Kling」を試してみた

中国のテック企業・快手(クアイショウ)が動画生成モデル「Kling」をリリースし、話題になっている。TikTokなどに投稿するショートクリップの制作方法を一変させるかもしれない。 by Zeyi Yang2024.06.25

この記事の3つのポイント
  1. 中国企業の快手が動画生成AIをリリース
  2. Klingは5秒の短編動画を生成可能
  3. ショート動画業界に大きな影響を与える可能性
summarized by Claude 3

この記事は米国版ニュースレターを一部再編集したものです。

「快手(クアイショウ)」という名前にはあまり馴染みがないかもしれない。だが、この中国企業はつい先日、大きなマイルストーンを達成した。テキストから動画を生成する人工知能(AI)モデルを初めてリリースし、一般ユーザーが自由に試せるようにしたのだ。

6億人以上のアクティブ・ユーザーを抱えるショート動画プラットフォームの快手は6月6日、この新しいツール「Kling(クリング)」を発表した。オープンAIの「Sora(ソラ)」のように、Klingは「1秒あたり30フレーム(fps)、最大1080p動画解像度で最長2分」の動画を生成できると、同社はWebサイトで説明している

発表から4カ月経った今でも一般公開されていないオープンAIのSoraとは異なり、Klingはすでにモデルを試せるようになっている。

私も実際に試してみた1人だ。快手の動画編集ツールをダウンロードして、中国の電話番号でサインアップした後、待機リストへ登録し、快手のユーザー・フィードバック・グループを通じて追加フォームへの記入を済ませると、Klingにアクセスできた。このモデルは、すべて英語で書かれたプロンプト(指示テキスト)は処理できないが、使用したいフレーズを中国語に翻訳するか、中国語の単語を1つか2つ含めた英語交じりのプロンプトを利用すれば英語ユーザーでも利用できる。

ではさっそく、Klingで生成した結果をいくつか紹介しよう。Soraが生成した東京のストリートシーン庭を突き進む猫の印象的なデモ映像を覚えているだろうか?以下はKlingが生成した映像だ。

プロンプト:雪に覆われた美しい東京の街がにぎわっている。カメラはにぎわう街の通りを移動しながら、美しい雪景色を楽しんだり、近くの売店で買い物をしたりする数人の人々を追う。ゴージャスな桜の花びらが、雪の結晶とともに風に舞っている。
プロンプト:温かみのある光を放つネオンとアニメーション表示の街頭看板でいっぱいの東京の通りを、1人のスタイリッシュな女性が歩いている。その女性は黒いレザージャケットに赤いロングドレス、黒いブーツを身につけ、黒いハンドバッグを持っている。彼女はサングラスをかけ、赤い口紅を塗っている。彼女は自信に満ち、さりげない様子で歩いている。通りは濡れていて光が反射し、色とりどりの照明を鏡のように映す効果を生み出している。多くの歩行者が歩き回っている。
プロンプト:白とオレンジの虎柄の猫が、何かを追いかけるように、鬱蒼とした庭を楽しそうに突き進んでいるのが見える。その猫は両目を大きく嬉しそうに開いて小走りに進み、枝や花や葉を見渡しながら歩く。猫は植物の間を通り抜ける狭い道を進む。このシーンは地表面から見たアングルで撮影され、猫に密着してその姿を追っており、低く親密な視点の映像になっている。画像は、温かみのある色調とざらざらした質感を持ち、映画のようである。上方の葉や植物の間から降り注ぐ日光が温かみのあるコントラストを生み出し、猫のオレンジ色の毛を際立たせている。被写界深度の浅い、クリアでシャープなショットである。

DALL-E(ダリー)で生成された、馬に乗った宇宙飛行士の画像を覚えているだろうか? 私はKlingに動画バージョンの生成を頼んでみた。

プロンプト:宇宙で馬に乗っている1人の宇宙飛行士。

これらの動画には優れた点がいくつかある。どの動画もプロンプトから大きく逸脱していないし、カメラのパンニング、揺れる葉、地球を背景に馬と宇宙飛行士が回転する方法など、物理的な挙動も適切なようだ。生成処理にはそれぞれ3分ほどかかった。待ち時間ゼロではないが、十分受け入れられるスピードだ。

ただ、明らかな不満もある。720pフォーマットの動画はぼやけて粒子が粗いように見えるし、Klingはプロンプトの主要な要求を無視することがある。そして最も重要なことは、現在のところ生成されるすべての動画の長さは5秒が上限であり、ダイナミックさや複雑さに欠けることだ。

とはいえ、これらの結果をSoraのデモ映像と比較するのは公平とは言えない。SoraのデモはオープンAIが厳選したものが公開されており、おそらく平均よりも良い結果が得られたものだろう。今回のKlingの動画は、私がプロンプトを入力して初めて試したものであり、「8K、フォトリアリズム」などのプロンプト・エンジニアリング・キーワードを追加して結果を微調整するようなことはしていない。

Klingが生成した動画をもっと見たいなら、中国のオープンソースAIコミュニティがまとめた便利なコレクションをチェックするといい。すばらしい結果と、あらゆる種類の失敗の両方が紹介されている。

北京在住のAIアーティストであるグイザン(本人の希望によりハンドルネームで記載)は、Klingは全般的に十分な能力を持つと話す。グイザンはこのAIモデルのリリース以来、テストを重ねており、SoraとKlingを直接比較して一連の記事にまとめてきた。Klingの欠点は、構図やカラーグレーディングといった結果の美的感覚にあると、グイザンは言う。「しかし、それは大きな問題ではありません。すぐに修正できます」。

本誌の取材に対し、グイザンは「モデルの核となる能力は、物理現象と実際の自然環境をどのようにシミュレートするかという点にあります」と話し、Klingはその点で良好であるとした。

Klingは、Soraと同じような仕組みで機能する。動画生成AIで従来から使われてきた拡散モデルをトランスフォーマー・アーキテクチャと組み合わせることで、より大きな動画データファイルを理解し、より効率的に結果を生成するのに役立てている。

だがKlingは、Soraをしのぐ重要な強みを持っている可能性がある。中国ではドウイン(Douyin:抖音)の最も有名なライバルである快手は、数億人のユーザーを抱える巨大な動画プラットフォームを有しており、Klingの訓練に使える信じられないほど大量の貴重な動画データがアップロードされている。快手は本誌の問い合わせに対し、「Klingは業界標準に従い、世界中のインターネットで公開されている利用可能なデータを使い、モデルを訓練しています」と回答。訓練データの詳細については説明しなかった(オープンAIもSoraについて同様の対応しかしておらず、知的財産権保護に関する懸念を引き起こしている)。

このモデルをテストした結果、Klingの有用性に関する最大の限界は、5秒の動画しか生成できないことだと感じた。

「動画が長ければ長いほど、モデルがハルシネーション(幻覚)を起こしたり、一貫性のない結果を生成したりする可能性が高くなります」と、北京の清華大学でAIとメディアについて研究するシェン・ヤン教授は話す。こうした限界のため、このテクノロジーは映画業界よりもショート動画業界に大きな影響を与えるだろうと、シェン教授は言う。

縦長の短編動画(スマホでの視聴を想定したもの)は通常、数秒で視聴者の注意を引き付ける。シェンによれば、中国のティックトック(TikTok)のようなプラットフォームは、スクロールして動画から離れる前に最初の3~5秒を何人が注視するかによって、その動画の成功を評価することが多いという。そのため、AIが生成した5秒しかない高品質の動画クリップは、ショート動画クリエーターにとってゲームチェンジャーになる可能性がある。

グイザンも、AIが短編動画のコンテンツ制作現場を混乱させる可能性があることに同意する。短期的には生産性を高めるツールとしてクリエイターに利益をもたらすだろうが、長期的には快手やドウインなどのプラットフォームが動画制作を引き継ぎ、ユーザーに応じてカスタマイズされたコンテンツを直接生成するようになることで、プラットフォームのスタークリエーターへの依存度が低下することをグイザンは懸念している。

このテクノロジーがそのレベルまで進歩するにはまだしばらく時間がかかるかもしれない。ただ、テキストから動画を生成するツールの分野は今、ますます大きな話題になりつつある。Klingのリリースから1週間後、米国カリフォルニア州のスタートアップ企業「ルマAI(Luma AI)」も、一般利用向けに同様のモデルをリリースした。動画生成分野の有名スタートアップ企業「ランウェイ(Runway)」は、自社のモデルをより強力にする大幅なアップデートを小出しに発表している。快手の最大のライバルであるバイトダンスもまた、近日中のリリースを目指して生成動画ツールに取り組んでいると伝えられる。「年末までに、私たちが利用できる多くの選択肢が登場するでしょう」と、グイザンは言う。

私はKlingに、「誰もが自分のニーズに応じて素早く動画クリップを生成できる」ようになった社会がどのようなものか、動画を生成するように頼んだ。その結果がこれである。手の表現は見事なものだが、質問には答えていない。ちょっと残念だ。

プロンプト:快手のKlingモデルがリリースされたことにより、ショート動画制作への参入障壁が下がり、ショート動画業界に大きな影響をもたらした。誰もが自分のニーズに応じて素早く動画クリップを生成することができる。そのようになった時の社会がどんな姿になっているか示してください。

中国関連の最新ニュース

1.新たな調査により、米軍がソーシャルメディアにおいて、2020年と2021年に反ワクチンのプロパガンダ投稿キャンペーンを密かに実施していたことが明らかになった。東南アジア諸国で中国製の新型コロナウイルス・ワクチンに対する不信感を植え付けることが目的だったという。(ロイター

2.中国の裁判所が、中国での#MeToo運動の立ち上げを支援したジャーナリスト、ホアン・フュエチンに 対し、「国家権力転覆扇動罪」で懲役5年の判決を下した。(ワシントンポスト

3.シーイン(Shein)のある幹部が、同社の企業価値が基本的に同社を米国企業にしていると述べた。しかし同社は現在、中国政府の気分を害さないように、その発言を隠そうとしている。(フィナンシャル・タイムズ

4.中国で世界最大の粒子加速器の建設に近づきつつある。建設は2027年中にも始まるかもしれない。(ネイチャー

5. 中国政府は、欧州連合(EU)による電気自動車への関税引き上げに報復するため、欧州が豚肉輸出に対し不当な補助金を提供している疑いがあるとして調査を開始した。(ニューヨーク・タイムズ

  • 食品に関連した話題:ドリアンに対する中国の需要が近年爆発的に伸びていることで、東南アジアにおいて60億ドル規模のビジネスが生まれ、ドリアン農園にするためジャングルやコーヒーの樹を伐採する農家も出てきている。(ニューヨーク・タイムズ

「おやすみ」メールを送るネット・サービスの話

2012年、当時20代の中国人女性ジウメイが、「おやすみ」メールを1通1人民元(約0.14ドル)で送るサービスをネット上で販売し始めた。

中国のオンラインメディア「パーソネージ(Personage)」によると、ジウメイは12年にわたり、3つの携帯電話と4つの電話番号を使って5万通以上のメッセージを送り続けている。顧客の中には、最も寂しい時や絶望的な気分の時に定期的に誰かと話したいと思い、自分自身のためにこのサービスを購入している者もいる。また、辛い状況にある友人や、連絡を絶った元恋人に対し、匿名でメッセージを送るために購入している者もいる。

このビジネスはあまり利益になっていない。ジウメイは本業に加えてこのビジネスから年間3000元(410ドル)ほどの収入を得ているが、近年は利益がさらに減っている。それでもジウメイがこのビジネスを続けているのは、それらのメッセージを送る行為が毎晩の儀式になっているからだ。顧客のためだけでなく、ジウメイ自身のための行為にもなっており、孤独や困難を感じるときに自分自身に慰めを与えている。

人気の記事ランキング
  1. Why does AI hallucinate? 解説:生成AIのハルシネーションはなぜ起きるのか
  2. Promotion NEDO Practical Realization Document 2024 日本発イノベーションの舞台裏に迫る「NEDO実用化ドキュメント」
  3. I tested out a buzzy new text-to-video AI model from China 中国テック事情:話題の動画生成AI「Kling」を試してみた
  4. What happened when 20 comedians got AI to write their routines AIは「笑い」を取れるか? プロがLLMにネタを書かせた結果
ヤン・ズェイ [Zeyi Yang]米国版 中国担当記者
MITテクノロジーレビューで中国と東アジアのテクノロジーを担当する記者。MITテクノロジーレビュー入社以前は、プロトコル(Protocol)、レスト・オブ・ワールド(Rest of World)、コロンビア・ジャーナリズム・レビュー誌、サウスチャイナ・モーニング・ポスト紙、日経アジア(NIKKEI Asia)などで執筆していた。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年も候補者の募集を開始しました。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
人気の記事ランキング
  1. Why does AI hallucinate? 解説:生成AIのハルシネーションはなぜ起きるのか
  2. Promotion NEDO Practical Realization Document 2024 日本発イノベーションの舞台裏に迫る「NEDO実用化ドキュメント」
  3. I tested out a buzzy new text-to-video AI model from China 中国テック事情:話題の動画生成AI「Kling」を試してみた
  4. What happened when 20 comedians got AI to write their routines AIは「笑い」を取れるか? プロがLLMにネタを書かせた結果
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る