| 適用對象 | 客戶(電商/品牌行銷/自媒體經營者)與教學人員 |
| 版本 | v1.1(草稿,截圖已遮蔽機密提示詞) |
| 建立日期 | 2026-06-05 |
🏠 平台概覽
aivideospeed 是整合多家 AI 引擎的「圖片與影片自動生成平台」,主要服務電商、品牌行銷與自媒體經營者。左側主選單分為:圖片專案、影片專案、創作流工作室、Claude 動畫工作室、視覺庫、API 設定、教學中心。
| AI 引擎 | 用途 |
|---|---|
| kie.ai(GPT Image-2) | 主要圖片生成模型:UGC 人物、場景、帶貨、分鏡圖 |
| fal.ai | 人物產品多角度、影片升畫質(upscale 至 1080p);部分功能需自設 key |
| Anthropic Claude | 提示詞/分鏡腳本的文字生成與改寫 |
| KLING 3.0(可靈) | 無限網紅分身影片;自動生成符合人臉的聲音 |
| C-DANCE 2.0 Fast | 分鏡影片生成,支援參考影片、參考音訊與長影片接續 |
🔎 我想做…(依需求找功能)
| 我想要… | 建議使用的功能 |
|---|---|
| 我要一個專屬虛擬代言人/網紅臉 | UGC 虛擬人物 |
| 讓人物出現在我的店面/場景 | UGC 場景 |
| 人物手拿商品的真實帶貨照/片 | UGC 帶貨/UGC 帶貨(影片版) |
| 做專業廣告短片(15 秒) | 廣告影片創作大師 |
| 做 60 秒以上的長影片 | 延伸長影片(接續)/無限網紅分身 |
| 虛擬主播講知識/Podcast | 無限網紅分身 |
| 卡通/旁白說書影片 | 知識影片導演 |
| 大量電商商品圖/整套上架圖 | 快速產品圖/大量改圖小幫手 |
| 商品或 model 多角度展示 | 人物產品多角度 |
🧭 功能索引(點擊跳到該功能)
📘 操作前必讀:符號與參考標記
| 符號/標記 | 意義 |
|---|---|
| @image1 / @1 | 第一張參考素材,通常代表「人物」 |
| @image2 / @2 | 第二張參考素材,通常代表「場景」或「商品」 |
| @image3 / @3 | 第三張參考素材,例如分鏡版 |
| @one / @two / @three | UGC 虛擬人物中,三張要融合的人物參考照 |
| @VDO1(VDO1) | 參考影片標記,用於長影片接續 |
| Audio1 / Audio2 | 參考音訊標記,指定不同角色配音 |
為什麼提示詞常用英文 / image1、image2?
AI 制圖模型主要以英文訓練,對英文提示詞理解度較高。
填提示詞時建議把 @1、@2 改寫為 image1、image2,再描述場景/動作,辨識更準。
🗂 功能詳解
用途用三張人物照融合出一個全新、不存在於現實的高擬真虛擬人物。
適合情境想要一個專屬、可長期重複使用的虛擬代言人或網紅臉孔。
操作步驟
操作要點
三張照片性別必須一致(男配男、女配女)。
此人物可作為後續所有影片功能的主角。
用途把虛擬人物(image1)放進你指定的場景(image2)。
適合情境想讓人物出現在特定背景,例如你的店面、工廠、櫃位。
操作步驟
用途把人物轉成「手機隨拍感」的擬真畫面,並讓人物手持你的商品。
適合情境要做像真人拍攝的開箱/帶貨照,效果極度擬真。
操作步驟
用途生成人物的正面、側面、背面三視圖,並附人臉正面特寫(含髮型)。
適合情境製作影片前的必要前置——讓影片中人物的姿勢與動作保持一致。
操作步驟
為什麼重要
三視圖是廣告影片創作大師的必備素材,建議做影片前先把它做好。
用途以分鏡圖為基礎,由 C-DANCE 2.0 讀懂每一格畫面後生成影片。
適合情境已經有分鏡圖,想快速轉成影片。
操作步驟
| 設定項目 | 建議值 |
|---|---|
| 生成模型 | C-DANCE 2.0 Fast |
| 畫面比例 | 16:9(橫)或 9:16(直) |
| 單段時長 | 最長 15 秒 |
| 解析度 | 480p/720p(1080p 約 700 點,太貴,不建議直接出) |
| 分鏡圖解析度 | 建議 4K |
提示詞公式
讓 image2 跟著 image1 的分鏡腳本內容與運鏡方式,轉換成影片。
用途用「首尾接續」把多段 15 秒影片串成 60 秒以上的連貫影片。
適合情境需要 60 秒以上、人物與場景前後一致的長影片。
操作步驟
重點
60 秒 = 4 張分鏡圖 + 3~4 段接續影片。
用 C-DANCE 2.0,因為它支援上傳參考影片接續。
用途上傳一支動畫影片當參考,讓真人/虛擬人物模仿其動作。
適合情境搞怪/動畫類創作,例如讓兩個真人模仿動畫角色的對打動作。
操作步驟
用途上傳配音,指定影片中不同角色使用的聲音。
適合情境要讓影片中的角色用指定的聲音講台詞。
操作步驟
用途上傳虛擬人物+輸入講稿,由 KLING 3.0 生成虛擬主播影片,並以首尾幀串接成任意長度。
適合情境要做知識型 Podcast、虛擬主播、長口播影片。
操作步驟
優點
文字越長段數越多——2000~3000 字可做 10 分鐘以上。
KLING 3.0 會自動生成符合該人臉的聲音,換場景/髮型聲音仍一致。
用途卡通/虛擬人物知識影片,搭配「說書式旁白」念稿(非人物本人講話)。
適合情境經營卡通頻道、Q 版人物說明、知識說書型影片。
操作步驟
用途由人物照+商品快速生成帶貨影片,自動產生台詞。
適合情境要快速產出真人感的商品帶貨短片。
操作步驟
用途業界標準工作流:角色三視圖+產品圖+分鏡版 → 生成分鏡腳本 → 15 秒廣告片。
適合情境要做專業廣告短片,場景控制與人物一致性最高。
操作步驟
延伸用法
要超過 60 秒:請 GPT/Claude 改各鏡頭動作,再依「延伸長影片」接續。
用途批量上傳圖片,套用同一段提示詞一次改完並批量下載。
適合情境賣場需要大量、風格一致地出圖。
操作步驟
用途生成同一人物/產品的不同角度,可控制垂直與左右角度。
適合情境服裝、時尚廣告需要多角度 model;產品要多視角展示。
操作步驟
用途輸入商品資訊,自動生成電商(如蝦皮)九宮格產品圖與文案,可多風格套組。
適合情境電商上架要快速產出整套商品圖與文案。
操作步驟
💰 點數與成本
| 項目 | 成本概念 |
|---|---|
| C-DANCE 1080p 直接生成 | 約 700 點/次,最貴,不建議 |
| 15 秒影片生成 | 約 270 點(偏高,使用前先評估) |
| fal.ai 影片升畫質(upscale) | 每秒約幾美分,最省,建議先低解析度再升 1080p |
| 畫質 Stand vs Pro | 先用 Stand 測試 → 確認後轉 Pro(Pro ≈ 720p,較便宜) |
| 可靈 3.0 | 一步約 70~80 點,較便宜,且自動生成符合人臉的聲音 |
省錢三原則
1. 先低後高:先用 480p/Stand 測試,OK 再升解析度。
2. 升畫質走 fal.ai upscale,不要直接用 C-DANCE 出 1080p。
3. 長影片用 5 秒分段接續,失敗率最低、最省重做成本。
❓ 常見問題(FAQ)
Q:要做 60 秒以上的影片?
A:把腳本切成多張分鏡圖,用「延伸長影片(VDO1 接續)」逐段串接。
Q:人物在不同鏡頭長得不一樣?
A:務必先用「UGC 三視圖」做角色圖,才能維持人物與姿勢一致。
Q:提示詞要中文還英文?
A:建議把 @1、@2 改寫成 image1、image2,並用英文描述場景/動作。
Q:想要 1080p 但太貴?
A:先出 720p,再用 fal.ai upscale 升 1080p,每秒僅幾美分。
Q:虛擬主播聲音可以換嗎?
A:KLING 3.0 以該人臉生成後聲音即固定;需不同聲音請改用其他工作流或參考音訊。
Q:分鏡圖解析度設多少?
A:建議 4K。