← Back to MedLoom
MedLoom 调研报告
AI 视频生成 / 编辑工具全景分析 · 2026年5月 · 为医学科普垂类产品寻找最优产品形态
一、市场全景:2026年 AI 视频工具格局
2026年的 AI 视频市场已从"一个模型打天下"演变为按场景选模型的格局。核心分层:
| 层级 | 代表产品 | 核心能力 | 定价区间 |
| 底层模型 | Veo 3.1, Sora 2, Kling 3.0, Seedance 2.0, Wan 2.6 | text/image → 视频片段生成 | $0.01–0.15/秒 |
| 创作工具 | 即梦, 可灵, Runway, Pika | 生成 + 编辑 + 编排 一站式 | 免费–$95/月 |
| 端到端平台 | InVideo AI, HeyGen, Synthesia | text → 成品视频(含脚本/配音/素材) | $25–$89/月 |
| 编程框架 | Remotion, HyperFrames, OpenMontage | 代码驱动的视频制作管线 | 开源/免费 |
| 垂类产品 | Medeo, MedLoom | 行业定制的视频工作流 | 待定 |
二、六种交互范式分类
基于对 15+ 产品的调研,当前 AI 视频工具的交互可归纳为六种范式:
01
Text-First(文本即视频)
用户输入一段文字描述 → AI 自动生成完整视频(含脚本、画面、配音、字幕、音乐)
InVideo AI Sora Veo Pika (简单版)
✓ 门槛最低 · ✓ 速度最快 · ✗ 控制力弱 · ✗ 医学准确性无保障
02
Canvas/Board(无限画布)
类 Figma/PS 的空间化操作,多资产并行管理,非线性创作
即梦 画布 可灵 灵动画布
✓ 可视化强 · ✓ 多素材并行 · ✗ 学习曲线 · ✗ 不适合纯内容消费者
03
Agent-Driven(对话式创作)
用户通过自然语言对话驱动创作,AI 理解意图并执行(多轮)
即梦 Agent 可灵 灵动画布Agent InVideo Agent One Medeo Canary
✓ 最自然 · ✓ 适合非技术用户 · ✗ 精确控制难 · ✗ 依赖LLM质量
04
Timeline/NLE(时间轴编辑增强)
传统非线性编辑器 + AI 能力加持(智能剪辑、自动配乐、AI 特效等)
Runway Editor 剪映 Descript
✓ 精确控制 · ✓ 专业用户熟悉 · ✗ 门槛高 · ✗ 不适合快速出片
05
Keyframe-Bridge(关键帧驱动)
用户提供首帧+尾帧(或多个关键帧),AI 生成中间过渡动画
即梦 智能多帧2.0 Pika Pikaframes 可灵 首尾帧控制
✓ 可控性高 · ✓ 适合已有素材 · ✗ 需要准备素材 · ✗ 过渡质量不稳定
06
Reference-Remix(参考驱动)
从已有视频/素材出发,AI 分析结构后生成变体或衍生内容
Runway Edit Studio (Aleph 2.0) OpenMontage 可灵 Omni 参考生成
✓ 起点有保障 · ✓ 风格可延续 · ✗ 原创性受限 · ✗ 版权问题
三、重点产品深度拆解
3.1 即梦 AI(字节 · 剪映生态)
核心亮点:从"聊天框"到"画布"的交互革命。即梦是目前国内将 Canvas + Agent + 多帧 三种范式结合最好的产品。
📷 操作流程实录

Step 1: 输入 画布入口:输入 prompt 描述你想创作的内容,或从模板快速开始

Step 2: 生成+编排 画布工作区:左侧工具栏 + 中央画布排布多资产 + 右侧 AI 对话面板自动生成内容

Step 3: 输出 分镜输出:输入"电影感,两人对峙场面,分镜"→ AI 生成一致角色的多场景分镜
交互设计拆解
- 无限画布:类 Figma 左侧工具栏 + 中央画布,支持多资产并行、风格统一
- Agent 模式:灵感搜索 + 创意设计,对话即创作,系统主动预测下一步动作
- 智能多帧 2.0:上传视频段落拼接,首创视频片段锁定+局部修改,最多20帧
- 预测式交互:生成一张图后,自动推荐"扩图→封面"或"转视频→动效"
- 剪映闭环:素材直接导入剪映精修和发布
对 MedLoom 的启发
即梦的预测式交互可以借鉴——用户选了"银屑病病因"后,系统自动推荐"要不要加上预防措施?"或"生成30秒快速版还是2分钟完整版?"
但即梦的问题在于它是通用工具,医学内容的准确性完全靠用户自己把控。
3.2 可灵 AI(快手 · Omni One)
核心亮点:Omni One 统一架构将理解/生成/编辑融为一体。7合1编辑器 + 原生音画同步。
📷 创作界面

Step 1: 选择模型+输入 视频创作界面:视频3.0模型选择 + Prompt 输入 + 首尾帧控制 + 智能分镜,左侧导航含创意圈/Omni/灵动画布
📸 更多界面参考(点击展开 Google Images)

可灵 AI 灵动画布 Agent 模式、7合1编辑器、参考驱动生成等
交互设计拆解
- 灵动画布 Agent:自然语言多轮对话创作,支持局部修改、批量生成、风格统一
- 7合1多模态编辑器:在一个界面内完成增删元素、换背景、调风格、接镜头
- 参考驱动生成:上传参考视频,AI提取人物视觉+声音特征,新场景中复现
- 自动分镜:系统根据文本自动设计分镜,用户可手动调整
- 数字人 2.0:支持多语言/方言对话,口型同步
对 MedLoom 的启发
可灵的数字人+自动分镜组合适合医学科普场景——数字人讲解 + 系统自动匹配解剖图切片。参考驱动生成能力允许以已有手绘素材为参考,保持风格一致。
3.3 Runway(Gen-4.5 + Edit Studio + Aleph 2.0)
核心亮点:从 model company 进化为 product company。Edit Studio 是第一个围绕"编辑现有素材"设计的完整产品体验。
📷 工作界面

Home Runway 工作台:Apps 分区(Generate/Edit Videos/Images)+ Gen-4.5/Aleph 2.0 工具矩阵 + Assets 管理
📸 更多界面参考(点击展开 Google Images)

Runway Gen-4.5 生成器、Aleph 2.0 编辑器、Edit Studio、Timeline Editor(来源:2026评测文章)
交互设计拆解
- Edit Studio:单帧编辑画布 → 变更传播到全视频。先预览图片效果再提交生成
- Timeline Editor:传统 NLE 风格,拖放生成片段、剪切、转场、混音
- Apps 架构:Home / Assets / Sessions / All Tools / Editor 分区明确
- 逐步升级路径:Gen-4 Turbo(快速迭代)→ Gen-4.5(精品输出)→ Aleph(编辑素材)
对 MedLoom 的启发
Runway 的 "先预览再生成"思路极具价值——用户选完切片后,先看一张合成预览图确认效果,满意了再渲染完整视频。减少浪费。
3.4 InVideo AI(端到端视频 Agent)
核心亮点:输入一段文字,5分钟出完整视频(含脚本、素材匹配、配音、字幕、音乐)。编辑用自然语言:"删掉第3幕"、"音乐换活泼一点的"。
📷 操作流程实录

Step 1: 输入 prompt 输入界面:一个大输入框 + "Generate my video" 按钮,底部快捷入口(Advertising Studio, Boards Agent, Clone myself 等)

Step 2: AI 工具编辑 AI 工具集:Looks(风格变体)/ Boards(分镜板)/ Angles(镜头角度)—— 用自然语言编辑

Step 3: 预览+导出 视频预览:生成完毕后的视频播放界面,底部有 "Edit & Download" 按钮,支持版本管理
交互设计拆解
- Prompt → Draft:描述主题/语气/受众/时长 → AI 生成完整视频草稿
- 语义编辑:"让开头更有吸引力" → AI 自动加快剪辑节奏、换转场、提高音乐BPM
- AI Twin:上传30秒录音 → 克隆声音用于所有视频
- 1600万素材库:自动匹配 iStock 授权素材
- Agent One:跨场景/地点/角色的持久记忆,支持长片叙事
对 MedLoom 的启发
InVideo 的核心能力:用户只需说"给我一个银屑病预防的2分钟科普视频",系统就能出成品。它使用通用素材库,如果换成专业医学素材库,这个 text-to-video 范式值得参考。
3.5 Pika(社交短视频快速生成)
📸 更多界面参考(点击展开 Google Images)

Pika 界面:极简 prompt → 生成、Pikaffects 一键特效、Pikaframes 关键帧控制(来源:评测和教程视频)
- 核心流程:prompt → clip,极简交互
- 特色工具:Pikaffects(一键特效)、Pikaswaps(换元素)、Pikaframes(关键帧过渡)、Pikaformance(口型同步)
- 定位:TikTok/Reels 格式的短视频,不追求长片叙事
对 MedLoom 的启发:Pika 的一键特效+换元素思路可以用于医学场景——"把这个关节图从正常状态切换到发炎状态"。
3.6 Medeo Canary(ONE2X · 软件生成系统)
📸 更多界面参考(点击展开 Google Images)

Medeo/ONE2X 界面:AI 视频创作、一键编辑、Agent 模式、自然语言驱动(来源:评测和产品页)
核心理念:"视频工具应该是为每个人个性化生成的"——他们做的不是一个视频产品,而是一个能根据用户需求定制视频工具的系统。
用户痛点收集(与 MedLoom 高度相关)
- "我有自己的素材库,能否支持批量化生成?" ← 这就是我们!
- "能不能支持导入固定工作流?" ← 这也是我们!
- "能不能支持无限画布、具备导演视图?"
- "能不能做 OEM 贴牌?"
Medeo 的参考价值:验证了"专业素材库 + 定制化工作流"的产品形态。AI 辅助医学内容生成存在可行的产品路径。
3.7 补充参考:Sora 与 Luma

Sora (OpenAI):极简输入框 + 社区展示,纯 Text-First 范式
Sora
OpenAI 的视频生成产品,定位纯 Text-to-Video。交互极简:一个输入框+生成按钮。代表了"模型即产品"的极端路线。
Text-First 模型驱动

Luma Dream Machine:创意 Agent 定位,"让你高产"的创作助手
Luma Dream Machine
Luma 的定位从"3D重建"转向"Creative agents that make you prolific"。走 Agent-Driven 路线,强调创意产出效率。
Agent-Driven 创意效率
四、MedLoom 适配分析
4.1 素材特征分析(决定产品形态)
| 维度 | 特征 | 对产品设计的影响 |
| 背景 | 全部纯黑底 | 可叠加任何背景,适合合成;但成品需要设计感 |
| 音频 | 全部静音 (-91dB) | 必须后配 TTS/数字人;但也意味着完全的灵活性 |
| 时长 | 单切片 2-8秒,单知识点 6-66秒 | 天然适合短视频(30秒-2分钟) |
| 分辨率 | 1920×1080 / 24fps / H.264 | 专业级,无需上采样 |
| 编码体系 | 9=总结版,Q=扩展版,1-6=标准版 | 支持"快速版/标准版/深度版"三种输出模式 |
| 内容类型 | 解剖图/人物/微生物/药物/器械/复合图示 | 视觉丰富,但风格偏科普卡通而非写实 |
| 覆盖范围 | 银屑病全部12模块/57知识点/463切片 | 单病种完整度极高,适合 PoC |
4.2 用户场景矩阵
| 用户 | 场景 | 期望输入 | 期望输出 | 时间预算 |
| 医生 | 给患者做科普 | 说一句话/选个病 | 30秒-2分钟视频 | < 1分钟 |
| 药房药师 | 门店科普屏/公众号 | 选病+选模块 | 1-3分钟视频 | < 5分钟 |
| 药厂市场部 | 产品推广素材 | 上传文案+选风格 | 定制化视频 | 可接受 30 分钟 |
| MCN/内容团队 | 批量生产科普内容 | 批量 query 列表 | 批量视频 | 批量自动化 |
五、三套交互方案
方案 A:一键出片(InVideo 范式)
核心交互
用户输入: "银屑病的病因是什么?"
↓
系统理解 → 匹配知识模块 (BY-1, BY-2, BY-9)
↓
自动编排: A区(总结 BY-9) → B区(核心 BY-1) → C区(延展 BY-Q1)
↓
展示预览卡片: 文字摘要 + 切片缩略图 + 预估时长
↓
用户确认 / 调整("去掉延展部分" / "加上预防")
↓
渲染: 切片拼接 + TTS配音 + 字幕叠加 → MP4
界面草图
- 首页:一个输入框 + "试试这些问题"的推荐卡片
- 预览页:左侧视频预览 + 右侧切片列表(可拖拽排序)
- 输出页:视频播放 + 下载/分享按钮
优势
- 医生 1 分钟内出片,门槛最低
- PoC 阶段最快实现(核心只是:query → 匹配 → 拼接)
- 直接利用已有专业素材库
劣势
- 创作自由度低,高级用户可能觉得不够
- 编排质量完全依赖 AI 的匹配准确度
方案 B:分镜画布(即梦范式)
核心交互
选择病种: 银屑病
↓
展示知识地图: 12个模块的卡片网格
↓
用户点选模块 → 展开知识点列表(带缩略图)
↓
拖拽知识点到时间轴/画布 → 实时预览拼接效果
↓
可选:添加背景色 / 选数字人 / 选TTS音色 / 加字幕样式
↓
渲染导出
优势
- 创作自由度高,适合专业内容团队
- 可视化的知识地图让用户理解素材全貌
- 即梦/可灵用户会觉得熟悉
劣势
- 开发成本高(画布/拖拽/时间轴)
- 医生可能觉得太复杂
方案 C:对话+预览(Agent 范式)
核心交互
用户: "我是皮肤科医生,患者问银屑病会不会遗传,帮我做个科普视频"
↓
Agent: "好的,我找到了以下相关内容:
1. 病因-遗传(25秒)
2. 病因-免疫异常(16秒)
3. 预防-生活习惯(45秒)
建议做一个 1 分钟版本,先讲遗传因素,再讲预防。要加入您的数字人形象吗?"
↓
用户: "好,不要预防部分,只讲遗传。不用数字人。"
↓
Agent: "已生成预览 [缩略图],总时长 35 秒。确认生成?"
↓
用户: "确认"
↓
渲染输出
优势
- 最贴近医生的日常沟通方式
- 无需学习任何界面
- 可以处理复杂需求("适合给老年患者看的版本")
劣势
- 对 LLM 理解能力要求高
- 多轮对话的延迟影响体验
- 难以精确控制输出细节
六、最终建议
建议:PoC 用方案 A,产品化后 A+C 混合
理由:
- 方案 A(一键出片)开发最快(核心只是 query匹配 + 切片拼接 + TTS),3天可闭环
- 方案 A 最能体现核心价值——用户输入一句话,得到专业准确的医学科普视频
- 产品化后在方案 A 的基础上叠加方案 C(Agent对话)作为高级模式——"对话微调"
- 方案 B(画布)留给后期 Pro 版,面向药厂/MCN 专业用户
排除了:
- 纯方案 B 起步:开发成本高,医生用不上,PoC 来不及
- 纯方案 C 起步:LLM 匹配准确度不够稳定,PoC 可控性差
不确定的(你比我清楚的部分):
- 核心用户画像——决定方案优先级
- 一键出片的"简单"交互如何平衡专业感和易用性
- 手绘卡通风格在2026年的市场接受度
PoC 阶段的交互流程(方案 A 细化)
┌─────────────────────────────────────┐
│ 🔍 银屑病的病因是什么? │ ← 输入框
│ ───────────────────────────────── │
│ 推荐: 银屑病怎么预防 | 银屑病能根治吗 │ ← 热门 query
└─────────────────────────────────────┘
↓ 用户输入后
┌─────────────────────────────────────┐
│ 📋 生成方案 │
│ │
│ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │ 30s │ │ 1m │ │ 2m │ ← 时长选择│
│ │速览版│ │标准版│ │深度版│ │
│ └─────┘ └─────┘ └─────┘ │
│ │
│ 已选知识点: │
│ ☑ 遗传因素 (25s) [BY-1] │
│ ☑ 免疫异常 (16s) [BY-2] │
│ ☐ 病因总结 (6s) [BY-9] │ ← 可勾选
│ ☐ 遗传详解 (29s) [BY-Q1] │
│ │
│ 配音: ○ AI女声 ○ AI男声 ○ 不配音 │
│ 字幕: ☑ 中文 ☐ 英文 │
│ │
│ [ 预览 ] [ 生成视频 ] │
└─────────────────────────────────────┘
↓ 点击"预览"
┌─────────────────────────────────────┐
│ ▶ 视频预览 │
│ ┌───────────────────────┐ │
│ │ │ │
│ │ [视频播放器] │ │
│ │ │ │
│ └───────────────────────┘ │
│ │
│ 时间轴: ──●──────●──────●── │
│ BY-1-1 BY-1-3 BY-2-1 │
│ │
│ [ ↓ 下载 MP4 ] [ 🔗 分享链接 ] │
└─────────────────────────────────────┘