← 星辰的輪迴
Arcanum · Codex · 進階

AI 影片生成 · 進階

Seedance 2.0 的完整能力與進階用法。先把基礎(參考圖 + prompt → 影片)看過,再來這裡把可控性與規模往上拉。

完整能力 API 管線 參考影片 / 音頻 Blender AI 導演
📄 本頁:進階 | 回基礎配方版 | 流程速覽
本頁主題
  1. Seedance 完整能力
  2. 用 API 自動跑這條管線
  3. 參考影片(video-to-video)
  4. 參考音頻
  5. 用 Blender 做 3D 參考
  6. AI 導演:自動產分鏡
  7. 電影製作與影像敘事

Seedance 完整能力

Seedance 2.0 不只「圖 → 影片」。完整能力一覽:

生成模式

模式怎麼用
文生視頻(text-to-video)只給文字 prompt,不放圖
圖生視頻(image-to-video)給參考圖;可指定首幀 first_frame / 尾幀 last_frame,框住開頭或結尾畫面
影生視頻(video-to-video)給參考影片,照風格重新生成(見 ③)

參考輸入

參考控制什麼上限
🖼️ 參考圖片(image_urls / image_with_roles長相、構圖、首/尾幀9 張
🎞️ 參考影片(video_urls以整段影片為底換風格(video-to-video)3 段,1.8–15.2 秒,480–720P,不可真人
🔊 參考音頻(audio_urls聲音 / 配音參考3 個,≤ 15 秒

輸出設定

設定選項
有聲視頻generate_audio開 → AI 生成音效 / 環境音 / 聲音
比例size橫屏 16:9、竖屏 9:16、方形 1:1、超寬屏 21:9、4:3、3:4、自適應 adaptive
畫質resolution480p / 720p / 1080p / 4k
長度duration4–15 秒
模型modeldoubao-seedance-2.0 / -fast / -face / -fast-face / -mini

用 API 自動跑這條管線

真正「把參考圖 + prompt 自動變成影片」靠的是 apimart.ai 的 API(Seedance 2.0 的服務商)。一支零依賴的 Node 腳本就能跑完四步:

sequenceDiagram
    autonumber
    participant U as seedance.mjs
    participant API as apimart.ai
    U->>API: POST /v1/uploads/images(參考圖)
    API-->>U: 回圖片公開 URL
    U->>API: POST /v1/videos/generations(prompt + 圖 URL + 參數)
    API-->>U: 回 task_id
    loop 每 5 秒輪詢
        U->>API: GET /v1/tasks/{task_id}
        API-->>U: pending → processing → completed
    end
    U->>API: 取影片 URL
    API-->>U: 影片 .mp4
步驟端點回傳
上傳參考圖POST /v1/uploads/images圖片公開 URL(72h)
建生成任務POST /v1/videos/generationstask_id
查任務狀態GET /v1/tasks/{task_id}status / 影片 URL
export APIMART_API_KEY='sk-你的金鑰'
node seedance.mjs \
  --prompt-file my.prompt.txt \
  --ref refs/board.png --ref refs/char.png --ref refs/droid.jpeg \
  --model doubao-seedance-2.0-fast --resolution 720p --duration 15 --audio \
  --out out.mp4
🔐 金鑰只放環境變數,別寫進程式碼或 commit;外流就到 apimart 後台 rotate。
💡 兩個要點① 生成只吃圖片「URL」、不收 base64,所以要先上傳換 URL。② 影片要算幾分鐘 → 非同步 → 拿 task_id 每隔幾秒輪詢,completed 後立刻下載(URL 會過期)。

參考影片:video-to-video 風格轉換

參考輸入不只圖片。Seedance 也吃參考影片video_urls)——主要用途是 video-to-video 風格轉換:給一段影片,照你的 prompt 與參考圖把它重新生成成目標樣子(文件範例:把影片轉成動漫風)。

⚠️ 硬限制解析度需 480–720P、總長約 1.8–15.2 秒、最多 3 段,而且 不可出現真人。適合丟「動畫 / CG / 3D render」素材,不是真人實拍。

參考影片可以哪裡來

💡 一句話參考管「是誰、長怎樣」;參考影片管「以這段影片為底、換風格重演」。

參考音頻

除了 generate_audio 讓 AI 直接生成聲音,也可以用 audio_urls參考音頻當聲音範本(最多 3 個、總長 ≤ 15 秒)。適合想指定特定音色/節奏/配音感覺時使用。

用 Blender 做 3D 場景與動作參考

想更精準地控制構圖、鏡位、走位與連戲,可以先在 Blender 搭一個 3D 粗模,把「場景、相機、姿勢」render 出來當參考餵給 Seedance——比純文字描述可控得多。

flowchart LR
    BL["🧊 Blender 3D 粗模:場景 + 相機 + 角色 pose/動畫"] --> R1["🖼️ render 場景/鏡位/pose → 參考圖 / first_frame"]
    BL --> R2["🎞️ render 一段動畫 → video-to-video 來源"]
    R1 --> SEED["🎬 Seedance"]
    R2 --> SEED
    SEED --> V["✅ 更可控的影片"]
    style V fill:#16241b,stroke:#8ef6c8,color:#f1e7d0
📎 對應到哪個輸入場景/鏡位/pose render → 圖片參考(image_urls / first_frame,上限 9 張);render 一段動畫 → 當 video_urls 做 video-to-video(CG render 沒有「不可有真人」的限制)。粗模 + 灰階就夠當藍圖。

AI 導演:自動產分鏡

基礎流程裡「產分鏡圖的 prompt」是人手寫的。再往前加一層 AI 導演,使用者就只要給「參考圖 + 想要的敘事/表現」,由 AI 反饋建議、並自動生成分鏡表

flowchart TD
    U["🧑 使用者:參考圖 + 電影敘事 / 想要的表現"] --> AI["🎩 AI 導演 (LLM)"]
    AI -->|"建議:鏡頭 / 運鏡 / 節奏 / 連戲風險"| U
    AI --> BP["📝 自動產出 分鏡圖 prompt"]
    BP --> IMG["🖼️ 影像模型 如 gpt-image-2"]
    IMG --> BOARD["🗂️ 自動生成 分鏡表"]
    R2["🖼️ 參考圖片"] --> SEED
    BOARD --> SEED["🎬 Seedance 2.0"]
    SEED --> V["✅ 影片"]
    style BOARD fill:#10243a,stroke:#5aa6ff,color:#f1e7d0
    style V fill:#16241b,stroke:#8ef6c8,color:#f1e7d0
🎯 一句話AI 導演的價值不是「聊天」,是把導演的每個決定翻譯成三種東西之一:參考圖的鎖、分鏡圖 prompt(Pass 1)、每鏡 Seedance prompt(Pass 2),並在付費生成前用連戲與就緒度把問題擋下來。

導演的決定 → AI 導演怎麼協助

導演職責AI 導演在這條管線能做的
劇本/敘事拆解產 beat 草稿並標敘事功能/情緒/節奏、畫情緒曲線;把段落切成「可生成單位」——一支是 4–15 秒積木,回答這段切幾鏡、各幾秒、哪幾鏡靠首尾幀接、哪幾鏡是剪接點。
分鏡與鏡頭表(景別、鏡位、coverage)為每個 beat 展開 shot list,補齊缺的 establishing/reaction/insert,標主鏡與備鏡;因重生成便宜,主動建議「關鍵動作生 3 個景別給你剪」。
場面調度 blocking(走位、方向)在分鏡圖 prompt 寫死版面(主體左/右、面向、前後景),每鏡寫明方位;用 first_framelast_frame 鎖走位接續,並主動警示螢幕方向翻面(180 度線)。
攝影機(運鏡、POV)把運鏡翻成 Seedance 看得懂的詞,每鏡只給一個主運鏡,並校驗運鏡是否配情緒。
節奏與剪輯點把 4–15 秒預算分到每鏡(緊張短切、抒情長鏡),切點切在動作完成幀;用「上鏡 last_frame=下鏡 first_frame」做 match cut;MV 依主歌/副歌/間奏對齊。
表演/角色(情緒、動作意圖)把「意圖」翻成具體可見動作(不是形容詞,是「拔刀、後退半步、肩膀下沉、眼神收緊」),每鏡附 ACTION RULE 鎖死容易漂的點。
連戲與一致性風險用 9 張參考圖鎖 identity 與構圖、首尾幀鎖接續,自動產連戲檢查清單;偵測數量鎖、道具狀態回跳、螢幕方向翻面並標風險。
美術/光/色的敘事在場景參考圖鎖光色錨點,prompt 寫明光源方向、key/fill、色溫與情緒色;每鏡重複錨點防止逐鏡飄移。
產出就緒(可生成性檢查)生成前跑就緒度檢查:參考是否覆蓋角色/對手/場景/分鏡表、每鏡是否有動作+ACTION RULE+運鏡+景別、首尾幀鏈是否連續、比例/畫質/秒數是否設定;輸出 low/medium/high,high 才放行。

AI 導演能輸出的可交付物

最該優先自動化:首尾幀接續鏈 + ACTION RULE

這條管線裡,AI 導演層最該優先自動化的不是文采,是這兩個硬骨架:

其餘(shot list、運鏡、光色、情緒曲線)都是可接受/拒絕的建議層;只有這兩項是讓「很多段 ×(連戲+剪接)」真的成立的前提。

運鏡詞彙與情緒匹配

不要丟「運鏡有張力」這種空話,給可貼的詞並校驗配不配情緒:

鐵律:每鏡只給一個主運鏡(多運鏡會讓模型亂掉);景別走階梯式變化(wide→medium→close),不要大廣角直砍大特寫。

兩段 prompt 的分工:分鏡圖鎖版面、Seedance 鎖動作

Pass 1 分鏡圖 prompt 寫死版面與螢幕方向:

生成 1 張 2×2 黑白分鏡草圖。格1 廣景:兩名持刀者於雨夜廢墟對峙,
C1 在 frame left 面向右、C2 在 frame right 面向左。格2 中景:C1 拔刀起手。
線稿、不上色、不加文字標籤。

Pass 2 每鏡 Seedance prompt 管「這 4–15 秒怎麼動」,動作段+ACTION RULE:

中景。雨夜廢墟,冷藍光。C1(依參考圖外觀)位於畫面左側面向右,
緩慢拔刀至起手式,肩膀下沉、視線鎖定對手。鏡頭:緩慢 push-in。16:9,6 秒,1080p。

ACTION RULE:只做「拔刀至起手」這一個連續動作;畫面僅 2 人,不得出現第三人或多餘肢體;
刀為 1 把,出鞘後不得回鞘;外觀嚴格依參考圖;鏡頭只做一次 push-in;
最後一幀停在「刀已舉至肩高、刀尖指向 C2」。

把這鏡的 last_frame 設為下個攻擊鏡的 first_frame,就形成 match cut,刀的位置不跳。

MV/直式案例:段落對齊與音訊

MV preset(9:16)把副歌 12 秒切成 3 鏡跟鼓點:

音訊:MV 通常先有歌,建議關閉 generate_audio、改用參考音頻對節奏或後製對軌。限制:video-to-video 風格轉換不可用真人素材。

🚧 現況以上是 AI 導演層的能力藍圖(部分尚未內建)。需要的元件都現成:一個懂分鏡語言的 LLM、一個影像生成模型、一個讓你來回給回饋的介面。

電影製作與影像敘事

一支 15 秒片段只是一塊積木。要做更長、更有敘事的作品,就把這條管線當「單鏡產生器」,再往上疊三層:多鏡組裝、連戲、影像敘事技法。

flowchart TD
    STORY["🎬 故事 / 敘事意圖"] --> BOARD["🗂️ 分鏡表 多鏡藍圖"]
    BOARD --> SP["每一鏡:Seedance prompt"]
    SP --> CLIPS["🎞️ 多段片段 各自生成"]
    CLIPS --> EDIT["✂️ 剪接 + 轉場 + 配樂"]
    EDIT --> FILM["🎥 完整作品"]
    style FILM fill:#16241b,stroke:#8ef6c8,color:#f1e7d0
    style BOARD fill:#10243a,stroke:#5aa6ff,color:#f1e7d0

核心心法:開發/前製做不紮實,製作階段的 15 秒積木就接不起來。重點不是拍得多漂亮,是讓很多段能連戲+剪接成一支完整作品。把傳統四階段映射到這條管線:

1. 開發 Development

目標:把一句概念變成可生成的敘事藍圖,定下全片不變的風格與技術規格。

2. 前製 Pre-production

目標:備齊 9 張參考圖、展開 shot list、規劃首尾幀鏈與切點,跑就緒度檢查。

3. 製作 Production

目標:逐鏡生成 15 秒積木,每鏡帶 ACTION RULE 與單一主運鏡,串好首尾幀。

4. 後製 Post-production

目標:依分鏡節奏剪接、統一風格與音軌,輸出成片。

跨鏡連戲:技巧與陷阱(這是逐鏡生成最容易崩的地方)

✅ 連戲技巧(做法 + 為什麼)
⚠️ 會讓連戲崩掉的陷阱
📋 從零到成片 checklist
  1. 定 preset、比例、畫質,全片鎖死一組值(避免逐鏡用 adaptive)。
  2. 寫 VISUAL STYLE 塊、角色字典、道具字典(含數量鎖與狀態時間線)。
  3. 備齊並鎖定 9 張參考圖:角色身分卡/對手/場景定場/分鏡表,留 1 張機動。
  4. 產 beat+情緒曲線,段落切成鏡,標每鏡秒數與切點(切在動作中段)。
  5. Pass 1 生分鏡圖 sheet,人工核准版面、走位、螢幕方向(守 180 度線)。
  6. 規劃首尾幀鏈:哪幾鏡 last_frame→first_frame 接(match cut)、哪幾鏡 hard cut。
  7. Pass 2 每鏡 prompt=VISUAL STYLE+字典+單一動作+ACTION RULE+單一主運鏡+景別+秒數。
  8. 跑就緒度檢查,high 才放行;首次付費生成前人工再確認一次。
  9. 逐鏡生成:圖生+一致性模型、固定 seed、每鏡導出尾幀串接。
  10. 後製:按分鏡節奏剪接、v2v 統一風格(真人除外)、對音軌、過連戲清單補生漂移鏡。
🎩 接回 AI 導演這正是「AI 導演層」要自動化的:從敘事意圖 → 分鏡 + 鏡頭語言 + 每鏡 prompt(見 )。

基礎流程與實際範例見 配方版;快速流程見 流程速覽版