Gemini Omniで商品動画を量産する方法｜画像・音声・テキストから作るEC販促動画の新常識

齋藤竹紘2026年6月6日2026年6月6日Gemini

Gemini Omniとは、画像・音声・動画・テキストを同時入力し動画を生成するGoogleのマルチモーダルモデルです。

商品画像が1枚あれば、撮影スタジオも演者もないまま短尺の販促動画が作れる時代に入りました。2026年のGoogle I/Oで発表されたGemini Omniは、これまで「テキストを孤立したピクセルへ変換する」だけだった動画生成を、画像・音声・動画・テキストの参照を同時に束ねる方式へ変えました。EC事業者にとって意味があるのは、自店の商品写真とブランドの声のトーンをそのまま素材として渡せる点です。この記事では、アパレル・食品・化粧品・家電のジャンル別に、商品画像1枚から楽天・Amazon・Yahoo!・自社EC・SNSで使える販促動画を作る手順と、動画生成プロンプトを4本、そして薬機法・景表法・AI生成表示まで含めた注意点を扱います。

Gemini Omniが商品動画の作り方をどう変えたか

Gemini Omniは「あらゆる入力からあらゆるものを作る」という設計思想を掲げ、最初の出力先として動画を選んだモデルです。従来の動画生成は、テキストプロンプトを受け取って映像のピクセルを一から推定する方式が主流でした。そのため「ニットを着た女性が振り向く」と書いても、ニットの編み目や商品の質感は毎回ガチャ的に変わり、自店の実商品とは別物が出てくるのが普通でした。現場で繰り返し見るのは、せっかく生成しても「これはうちの商品じゃない」という理由で使えないという壁です。

Omniが変えたのは入力の束ね方です。テキストだけでなく、商品の実写画像、ナレーション音声、参照動画を同時に渡し、Geminiが持つ実世界の知識に基づいて映像を組み立てます。力のかかり方など物理を理解する設計になっているため、たとえば布が落ちる動き、液体が注がれる動き、箱が開く動きが構造的に破綻しにくくなりました。商品画像を入力に含められるということは、自店のニットの編み目や食品のシズル感を保ったまま動かせるということです。ここがEC実務で効きます。

もう一つの変化点が会話的な編集です。一度シーンを生成したあと、テキスト指示でカメラアングルを変える、照明スタイルを調整する、人物のリップシンク（口の動きと音声のズレ）を直す、といった手直しができます。撮り直しに相当する作業を、再撮影ではなく対話で済ませられるわけです。短尺動画を1本作って終わりではなく、楽天用・Instagram用・YouTube Shorts用とアスペクト比や尺を変えた派生を量産する運用に向いています。

提供形態も押さえておきます。Gemini Omni Flashは、Google AI Plus / Pro / Ultraの加入者向けにGeminiアプリとGoogle Flowで即時提供が始まりました。さらにYouTube ShortsとYouTube Createアプリへの統合が追加費用なしで開始されています（出典：Google公式 I/O 2026 まとめ）。ShortsはEC事業者がすでに集客導線として使っている面なので、生成から投稿までの距離が近いのは実務上の利点です。Geminiのテキスト面・検索面でのEC活用はGemini 3.5のEC活用記事で扱っているので、テキスト生成と動画生成を合わせて設計したい場合はそちらも参照してください。

なお2026年6月時点のフラッグシップ構成は、GoogleがGemini 3.5系とGemini Omni、OpenAIがGPT-5.5系、AnthropicがClaude Opus 4.8という並びです。動画生成でいま自店の素材を活かしやすいのはOmni系ですが、台本やテロップ文面の作成はテキストモデルが得意なので、役割分担で考えるのが現実的です。

ここで一度、EC事業者にとっての論点を整理します。動画は静止画より制作コストが高く、これまでは「売れ筋の一部にしか付けられない贅沢な施策」でした。撮影、編集、音入れまで外注すると1本数日のリードタイムと数万円の費用がかかり、商品点数の多い店舗ほど全商品への展開は非現実的だったわけです。Omniが効くのは、この制約を「商品画像という既存資産の再利用」へ置き換える点にあります。商品撮影を一度済ませていれば、その写真を入力に動画を起こせるため、追加撮影なしで動画化できる商品の母数が一気に広がります。楽天/Amazonの両方を回している店舗で観測されたのは、動画を付けた商品から先にレビューと滞在時間が伸びる傾向で、特に質感や使用感が購入判断を左右するジャンルでその差が出やすいという点でした。

ジャンル別・商品画像1枚から販促動画を作る手順

ここからは実装パートです。基本の流れは、素材を揃える、台本と尺を決める、Omniに画像と指示を渡して生成する、会話的編集で各媒体向けに派生させる、表示ルールを確認して書き出す、の5ステップになります。商品ジャンルによって押さえどころが違うので、4ジャンルで具体化します。

アパレルでは、ニットやワンピースの落ち感・揺れ・振り向きの動きが購買の決め手になります。静止画では伝わらない素材の動きを6〜10秒の短尺で見せるのが定石です。商品画像はできれば正面とディテール（袖口、裾、生地アップ）の2枚を渡し、「布が自然に揺れる」「歩いて振り向く」程度の控えめなモーションに留めると破綻が減ります。アパレル系の単一店舗で試したケースでは、過度なカメラワークを指示するより、商品が画面中央で安定して見える動きのほうがCVR（購入率）に寄与しました。

食品では、シズル感が命です。湯気、注がれる飲料、とろける断面など、調理・実食の一瞬を切り取ります。商品画像に加えて、湯気や照りの参照イメージを渡すと、Omniの物理理解が効いて液体や蒸気の動きが自然になります。食品ギフトのように贈答シーンを訴求したい場合は、箱を開ける動き、リボンがほどける動きを足すと用途が伝わります。ただし「映え」を盛りすぎて実物と乖離すると景表法上の優良誤認リスクが出るため、実商品の色味から外れる演出は避けます。

化粧品では、テクスチャの伸び、肌へのなじみ、ボトルのプッシュといった使用感の表現が中心です。ここは薬機法（医薬品医療機器等法）の制約が最も重い領域なので、後述の注意点に従い、効果効能を映像で暗示する表現を入れないことが前提になります。動きは「クリームを手の甲で伸ばす」「ミストが広がる」など使用手順の範囲に限定するのが安全です。

家電では、サイズ感、開閉や稼働の動き、設置イメージが効きます。商品画像1枚から、ドアが開く、ファンが回る、ボタンを押すと表示が変わるといった機能を短く見せると、スペック表だけでは伝わらない使い勝手が伝わります。生活空間に置いた設置イメージを参照に渡すと、購入後のイメージが具体化します。家電は型番違いで写真を使い回しがちですが、Omniなら型番ごとに画像を差し替えるだけで個別の動画を起こせるため、シリーズ商品の動画化に向いています。

台本と尺の決め方にも触れておきます。短尺販促では最初の1秒で何の商品かを見せ切るのが原則です。SNSの縦型はスクロールで一瞬しか目に入らないため、商品が画面に入るのが遅いと離脱します。尺は媒体で変え、SNSは6〜10秒、商品ページ枠は10〜15秒を目安にすると収まりがよいケースが多いという感触です。台本はテキストモデルに「15秒で読み切れるナレーション原稿、誇大表現なし」と条件を付けて作らせ、その文面をOmniへ音声入力として渡す流れが回しやすい組み方です。会話的編集を前提にすると、まず1本を丁寧に作り、そこからカメラアングルと照明だけ変えて派生を増やすほうが、ゼロから何本も生成するより質が揃います。

媒体ごとの仕様も押さえます。楽天市場は商品画像が1商品あたり最大20枚、1枚3,840×3,840px以内（推奨700×700px以上）で、動画は商品ページの動画枠やRMSの動画機能に沿って入稿します。Amazonは商品紹介コンテンツ（A+）やブランド登録者向けの動画枠を使い、A+内に外部URLは原則置けません。Yahoo!ショッピングは商品ページの動画枠とLINE・PayPay経済圏向けの訴求を意識します。自社EC（Shopify、BASE、STORES含む）は外部誘導が自由なので、生成した縦型動画をそのままLPやSNSへ展開できます。SNS側はTikTokとInstagram Reelsが9:16の縦型、YouTube Shortsも縦型が基本で、Omniは前述のとおりShorts/Createに直結します。導入の進め方そのものに不安がある場合はEC×AI導入最初の90日で全体ステップを確認してから着手すると、動画だけが浮かずに済みます。

Gemini Omni向け動画生成プロンプト4本

動画生成は指示の粒度で仕上がりが大きく変わります。ここでは用途別に4本を用意しました。いずれも変数を {ジャンル} {商品名} などの中括弧で統一しています。台本やテロップ文面はテキストモデルでも作れますが、映像の動き・カメラ・尺はOmniへ直接渡す前提で書いています。なお商品説明のテキスト作成プロンプトを別途揃えたい場合はChatGPTの商品説明プロンプト集が使えます。

最初は土台となる1本目です。商品画像を主役に据え、媒体に依存しない基本動画を作るためのプロンプトです。

あなたは日本のEC向け短尺動画のディレクターです。
添付した商品画像を主役にした6〜10秒の販促動画の生成指示を作ってください。

商品情報：
- ジャンル：{ジャンル}
- 商品名：{商品名}
- 伝えたい魅力：{素材感・使用シーン・サイズ感など}

映像の条件：
1. 商品は常に画面の中心付近に安定して映す
2. カメラの動きはゆっくりとした寄りか、わずかな水平移動に限定する
3. 商品画像の色・形・質感を変えない（別商品に化けさせない）
4. 物理的に不自然な動き（浮遊、急な変形）を入れない
5. 文字・ロゴ・価格は映像に焼き込まない（後でWP側やSNS側で付与する）

出力：シーンごとの秒数・カメラワーク・被写体の動きを箇条書きで

2本目は媒体最適化です。同じ素材から縦型と横型を出し分けるための指示で、会話的編集の使いどころになります。

先ほど生成した{商品名}の動画をもとに、媒体別の派生版を作る編集指示を出してください。

派生先：
- TikTok / Instagram Reels / YouTube Shorts：9:16の縦型、最初の1秒で商品を画面いっぱいに
- 楽天市場・Amazon・Yahoo!の商品ページ枠：横型または正方形、商品全体が常に見える構図
- 自社EC（Shopify / BASE / STORES）のトップ用：横型、余白を活かした落ち着いた構図

各派生で指示してほしいこと：
1. アスペクト比と尺
2. カメラアングルの変更点
3. 照明スタイル（屋外光・スタジオ光など）の調整
4. 商品の色味は元画像から変えないことを明記

出力：派生先ごとに編集指示を分けて記述

3本目はナレーション付きのケースです。音声を入力に組み込み、口元のリップシンクのズレまで手直しする想定で書いています。実演者を出す場合に使います。

{商品名}の動画に、商品を紹介する人物のナレーションを合わせる指示を作ってください。

ナレーション原稿（読み上げ内容）：
{原稿テキスト。15秒で読み切れる長さ、誇大表現を含めない}

条件：
1. 話者の口の動きと音声のタイミングがズレないように合わせる
2. 声のトーンは{落ち着いた・明るい など}に統一する
3. 商品名と主要な特徴の発話タイミングで、その部分が画面に映るようにする
4. 効果効能を断定する表現（治る・痩せる・必ず など）は読ませない

出力：発話と映像の同期ポイントを時系列で

4本目はバリエーション量産です。1つの完成版から、配色や季節訴求を変えた複数案を一気に出すための指示で、セールや季節商戦の差し替えに向きます。

完成済みの{商品名}の動画を起点に、訴求軸だけ変えた派生案を3パターン作る指示を出してください。

パターンの軸：
- パターン1：{通常訴求}
- パターン2：{季節・イベント訴求（例：ギフト、夏向け）}
- パターン3：{価格・キャンペーン訴求（具体的なセール内容がある場合のみ）}

各パターンの条件：
1. 商品本体の見せ方（色・質感）は変えない
2. 背景・照明・テンポだけを訴求軸に合わせて変える
3. 景表法に触れる比較表現や最大級表現は使わない

出力：パターンごとに変更点と狙う媒体を1行で

動画生成でつまずく失敗例と回避策

最初のつまずきは、商品が別物に化けることです。テキストだけで指示すると、Omniでも質感や形が元商品から離れることがあります。回避策はシンプルで、必ず商品画像を入力に含め、プロンプト内で「色・形・質感を変えない」と明示することです。ディテールが重要なジャンル（アパレルの編み目、化粧品のボトル形状）では、アップ画像を1枚足すだけで安定度が上がります。

次に多いのが、盛りすぎによる景表法・薬機法リスクです。動画は静止画より訴求力が強いぶん、実物より良く見せた瞬間に優良誤認や薬機法違反に踏み込みます。化粧品で「シワが消える」ような変化を映像で暗示する、食品で実物と違う色のシズルを出す、といった演出は危険です。直近の支援案件で観測したのは、テロップで誇大表現を避けても映像表現で踏み込んでしまうケースでした。映像・音声・テロップの三つすべてを薬機法・景表法の基準で点検するのが安全です。

三つ目は、楽天市場の規約まわりです。楽天R-Mailや商品ページから自社サイト・SNS・LINE公式など楽天市場外へ誘導するURLや連絡先は置けません。動画内にQRコードや外部URLを焼き込むと、この禁止に抵触します。動画はあくまで楽天市場内の商品理解を深める用途に留め、外部送客はYahoo!や自社ECなど規約が許す面で行うという切り分けが必要です。

四つ目は、媒体ごとの再書き出しを忘れることです。横型1本をそのまま全媒体に流すと、SNSの縦型枠で上下が切れて商品が見切れます。プロンプト2本目のように、最初から派生前提で設計しておくと差し替えが速くなります。Amazonの商品紹介コンテンツ（A+）に外部URLは原則置けない点も合わせて意識し、動画内に他媒体への導線を入れない前提で素材を作っておくと、媒体をまたいだ使い回しでつまずきません。

五つ目は、生成物を検証せずに公開してしまうことです。Omniは物理を理解する設計とはいえ、指や持ち手の本数、文字らしき模様の崩れといった細部は完璧ではありません。5,000社支援の中で何度も再現したパターンとして、初稿をそのまま入稿してクレームになるより、一度静止画で各フレームを確認してから書き出すほうが事故が減りました。特に人物を出す動画はリップシンクのズレと手の表現を重点的に見ます。会話的編集で「手の動きを自然に」「口の動きを音声に合わせて」と指示すれば直せるので、検証と手直しを公開前の工程に組み込んでおくのが安全です。

費用・工数の目安とKPIの考え方

費用面では、Gemini Omni Flashの利用にGoogle AI Plus / Pro / Ultraのいずれかの加入が前提になります。Google AI Proは月額20米ドル前後が目安です（2026年6月時点、為替・プラン改定で変動するため公式の最新価格を要確認）。テキスト台本をChatGPTやClaudeで作る場合は、それぞれ月額20米ドル前後が別途かかります。撮影外注やスタジオ費と比べれば、月数十米ドルのツール費で動画本数を増やせる構造に変わります。

工数の目安は、商品画像が手元にある前提で、1本あたりの初稿生成が数分、媒体別派生まで含めて1商品30分〜1時間程度に収まるケースが多いという感触です（業界平均の見込み、要検証）。従来の外部委託では1本あたり数日のリードタイムと数万円規模の制作費がかかっていたことを踏まえると、回転数で差がつきます。

KPIは、動画を載せた商品ページの滞在時間とCVR、SNS経由の流入数とそこからの遷移率を見るのが基本です。店舗運営の現場感覚では、まず売れ筋上位の数SKUに動画を付け、動画あり・なしでCVRを比較する小さなA/Bから始めるのが失敗しにくい入り方です。全商品へ一気に展開するより、効く商品ジャンルを見極めてから広げるほうが工数対効果が読めます。

計測の設計でつまずきやすいのは、動画の効果を媒体横断でまとめて見ようとして結局どこが効いたか分からなくなることです。楽天は楽天のアクセス分析、自社ECはGA4のような自社解析、SNSは各プラットフォームのインサイトと、面ごとに見る指標が分かれます。最初は1面に絞り、たとえば自社ECで動画あり商品の直帰率と購入率を2週間追う、といった具体的な期間と指標を決めてから広げると判断しやすくなります。動画は作って終わりではなく、反応の鈍い動画を会話的編集で差し替えていく前提で運用するほうが、本数を増やすだけの施策に陥らずに済みます。差し替えコストが低いことがOmni運用の利点なので、KPIが伸びない動画は早めに見切って作り直すサイクルを回します。

今後の展望とEC事業者が今やるべきこと

動画生成がShortsやCreateに直結し、テキスト生成・検索・動画生成が同じGeminiの枠内で繋がっていく流れは、EC事業者にとって「素材を一度入れれば多面展開できる」方向への変化です。商品画像と声のトーンという自店固有の資産を起点に、媒体ごとの動画を量産できるようになると、差別化の源泉は「どれだけ自店らしい素材と訴求を持っているか」に移ります。汎用的なAI動画は誰でも作れるからこそ、実物との一致と表現の誠実さが効いてきます。

もう一段先を見ると、検索面の変化も無視できません。GoogleのAI検索や各モールの検索が画像・動画を理解する方向に進むと、動画があること自体が商品ページの評価に影響する可能性があります。現時点で断定はできませんが、動画を持つ店舗と持たない店舗の差は、表示面でも開いていくと考えておくのが無難です。今やるべきことは派手な施策ではなく、売れ筋から動画を整え、媒体別に出し分け、AI生成の開示と薬機法・景表法の点検を運用ルールに組み込むという地道な型づくりです。この型が一度回り出せば、新商品が増えても同じ流れで動画化でき、商品点数の多い店舗ほど効いてきます。

競合のSEOコンテンツがまだ手薄なのは、動画生成を「映像制作の話」で止めず、楽天の外部誘導規約・薬機法・AI生成表示まで束ねてEC実務に落とした視点です。生成AIで作った動画であることの表示は、各プラットフォームのガイドラインで強化が進む方向にあり、YouTubeなどではAI生成・改変コンテンツの開示が求められる場面が増えています。表示要否は媒体ごとに最新ガイドラインを要確認ですが、隠すより開示する前提で運用設計しておくほうが、後からの作り直しを避けられます。Google I/O全体の動きを俯瞰したい場合はGoogle I/O 2026のEC向けまとめを起点にすると、Omni以外の発表との関係も整理できます。

よくある質問

Gemini Omniは無料で使えますか

Gemini Omni Flashは、Google AI Plus / Pro / Ultraのいずれかの加入者向けに提供されています。完全無料での常用は前提とされていないため、まずはProプラン（月額20米ドル前後が目安、要確認）で試すのが現実的です。YouTube ShortsとYouTube Createへの統合は追加費用なしで開始されています。

商品画像が1枚しかなくても動画は作れますか

作れます。1枚でも生成は可能ですが、アパレルのディテールや化粧品のボトル形状など質感が重要なジャンルでは、アップ画像をもう1枚足すと仕上がりが安定します。プロンプトで「色・形・質感を変えない」と明示することも合わせて行ってください。

楽天市場の商品ページに生成動画を載せても規約上問題ありませんか

動画そのものの掲載は問題になりにくいですが、動画内に自社サイトやSNSへ誘導するURL・QRコード・連絡先を焼き込むと楽天市場外への誘導禁止に抵触します。動画は楽天市場内の商品理解を深める用途に限定し、外部送客は自社ECなど規約が許す面で行ってください。

化粧品やサプリの動画で気をつけることは何ですか

薬機法の制約が最も重い領域です。効果効能を断定する表現や、変化を映像で暗示する演出（シワが消える、痩せるなど）は映像・音声・テロップのいずれでも避けてください。使用手順や使用感の範囲に表現を留めるのが安全です。

AIで作った動画であることを表示する必要はありますか

媒体ごとのガイドライン次第ですが、AI生成・改変コンテンツの開示を求める方向で各社の運用が強化されています。要否は最新ガイドラインを要確認ですが、隠すより開示する前提で設計しておくと、後からの作り直しを避けられます。

ChatGPTやClaudeの動画機能と比べてどう使い分けますか

2026年6月時点で、自店の商品画像と声のトーンを素材としてそのまま動かしやすいのはGemini Omni系です。一方、動画の台本・テロップ文面・商品説明テキストの作成はGPT-5.5系やClaude Opus 4.8といったテキストモデルが得意です。映像はOmni、文面はテキストモデルという役割分担が実用的です。

まず何から始めればよいですか

売れ筋上位の数SKUを選び、商品画像から6〜10秒の基本動画を1本作り、媒体別に派生させて商品ページとSNSへ載せます。動画あり・なしのCVRを比較する小さなA/Bで効果を確かめてから、効くジャンルへ広げるのが堅実です。

著者：齋藤竹紘（株式会社オルセル編集長／5,000社以上のEC支援実績／書籍3冊）

※うるチカラでは、生成AIの導入支援から運用最適化まで、貴社のEC事業に合わせたカスタマイズ提案を行っています。無料相談（30分）も実施中ですので、お気軽にお問い合わせください。
https://uruchikara.jp/contact/

【監修】齋藤竹紘（株式会社オルセル代表 / 19年・5,000社のEC支援実績）

齋藤竹紘

株式会社オルセル代表取締役 / うるチカラ編集長。19年・5,000社以上のEC支援実績を持ち、楽天市場・Amazon・Yahoo!ショッピング・Shopify・Shopee越境ECの実装ノウハウを保有。AI×ECに関する書籍を3冊執筆。「現場で使えるAI実装」を一次情報として発信しています。

投稿者: 齋藤竹紘

株式会社オルセル代表取締役 / うるチカラ編集長。19年・5,000社以上のEC支援実績を持ち、楽天市場・Amazon・Yahoo!ショッピング・Shopify・Shopee越境ECの実装ノウハウを保有。AI×ECに関する書籍を3冊執筆。「現場で使えるAI実装」を一次情報として発信しています。齋藤竹紘のすべての投稿を表示