GoogleがGoogle I/O 2026で「Gemini Omni」を発表したことで、撮影済みの実写動画に音声コマンドだけで物理演算つきVFXを後付けできるようになりました。
ステージで公開されたデモは、数時間以内に世界中のSNSで拡散されました。スマートフォンで撮った路地の映像を読み込み、「雨上がりの水たまりを加えて、車が通ったときに水が跳ねるようにして」と話しかけます。するとAIが映像内の地面の凹凸・光源・車の速度を解析し、物理法則に基づいた水しぶきとリフレクションをフレームごとに生成します。Adobe After Effectsも、レンダリング待ちも、専門知識も要りません。
発表前日の予測記事ではGemini Omniの動向が注目されていましたが、実際のデモはその想定を大きく上回るものでした。
「それっぽく見せる」から「物理的に正しくする」へ
これまでの動画生成AIは、指示に沿った「それらしい映像を新しく作る」ことが主な用途でした。Gemini Omniのアプローチはそれと根本的に違います。実写素材を入力として受け取り、映像内の奥行き・質感・光の当たり方を3D的に解析したうえで、「現実ならこう変化するはず」を計算して既存の映像を編集します。
ガラスを割る、雨を降らせる、炎を加える。どのエフェクトも単なるテクスチャ貼り付けではなく、シーンの物理パラメータを読み取った結果として生成されます。プロの映像制作者がAfter Effectsと各種プラグインを組み合わせ、数時間かけて仕上げていた作業が、音声コマンド1文で完結します。
映像制作の「中間層」に何が起きるか
最も影響を受けるのは、プロとアマチュアの間に位置してきた映像制作の中間層です。テレビCMクオリティのVFXはこれまで大手プロダクションが独占していましたが、個人や中小企業が同じクオリティのエフェクトを数分で追加できる環境が整います。
一方でプロの仕事がすべてなくなるかというと、現時点ではそうではありません。Gemini Omniはあくまで既存素材の「編集・加工」に特化しており、演出設計やナラティブの構成はまだ人間の領域です。ただし使いこなせる人とそうでない人の差は、これから急速に広がっていきます。
音声で「イメージを伝える」ことが編集の中心になる
特に注目すべきは、編集インターフェースが「音声コマンド」である点です。パネルをドラッグしてパラメータを細かく調整するのではなく、話しかけるだけでAIが意図を解釈して処理します。これは映像編集を「操作できる人の道具」から「イメージを言葉にできる人の道具」に変える転換点です。
スマートフォン1台で本格的なVFX編集ができる時代が、すでに始まっています。Googleが今回示したのは技術デモにとどまらず、映像制作へのアクセス層を根本から塗り替えるロードマップです。
FREE DOWNLOAD
実務で使えるお役立ちコンテンツを無料で見る
無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。
全PDFにアクセスする(無料)
無料会員登録して受け取る
映像制作って専門ソフトの習得が大変で、「自分には無理」と思っていた方も多いんじゃないでしょうか。
今回面白いと思ったのは「物理的に正しくする」という発想です。それっぽく見せるのではなく、現実の法則に従って計算する。その違いが、違和感のない映像につながっています。
言葉にできれば映像が作れる時代に入りました。まずは身近な動画で試してみてください。