MedLoom 调研报告

AI 视频生成 / 编辑工具全景分析 · 2026年5月 · 为医学科普垂类产品寻找最优产品形态

一、市场全景：2026年 AI 视频工具格局

2026年的 AI 视频市场已从"一个模型打天下"演变为按场景选模型的格局。核心分层：

层级	代表产品	核心能力	定价区间
底层模型	Veo 3.1, Sora 2, Kling 3.0, Seedance 2.0, Wan 2.6	text/image → 视频片段生成	$0.01–0.15/秒
创作工具	即梦, 可灵, Runway, Pika	生成 + 编辑 + 编排一站式	免费–$95/月
端到端平台	InVideo AI, HeyGen, Synthesia	text → 成品视频（含脚本/配音/素材）	$25–$89/月
编程框架	Remotion, HyperFrames, OpenMontage	代码驱动的视频制作管线	开源/免费
垂类产品	Medeo, MedLoom	行业定制的视频工作流	待定

二、六种交互范式分类

基于对 15+ 产品的调研，当前 AI 视频工具的交互可归纳为六种范式：

Text-First（文本即视频）

用户输入一段文字描述 → AI 自动生成完整视频（含脚本、画面、配音、字幕、音乐）

InVideo AI Sora Veo Pika (简单版)

✓ 门槛最低 · ✓ 速度最快 · ✗ 控制力弱 · ✗ 医学准确性无保障

Canvas/Board（无限画布）

类 Figma/PS 的空间化操作，多资产并行管理，非线性创作

即梦画布可灵灵动画布

✓ 可视化强 · ✓ 多素材并行 · ✗ 学习曲线 · ✗ 不适合纯内容消费者

Agent-Driven（对话式创作）

用户通过自然语言对话驱动创作，AI 理解意图并执行（多轮）

即梦 Agent 可灵灵动画布Agent InVideo Agent One Medeo Canary

✓ 最自然 · ✓ 适合非技术用户 · ✗ 精确控制难 · ✗ 依赖LLM质量

Timeline/NLE（时间轴编辑增强）

传统非线性编辑器 + AI 能力加持（智能剪辑、自动配乐、AI 特效等）

Runway Editor 剪映 Descript

✓ 精确控制 · ✓ 专业用户熟悉 · ✗ 门槛高 · ✗ 不适合快速出片

Keyframe-Bridge（关键帧驱动）

用户提供首帧+尾帧（或多个关键帧），AI 生成中间过渡动画

即梦智能多帧2.0 Pika Pikaframes 可灵首尾帧控制

✓ 可控性高 · ✓ 适合已有素材 · ✗ 需要准备素材 · ✗ 过渡质量不稳定

Reference-Remix（参考驱动）

从已有视频/素材出发，AI 分析结构后生成变体或衍生内容

Runway Edit Studio (Aleph 2.0) OpenMontage 可灵 Omni 参考生成

✓ 起点有保障 · ✓ 风格可延续 · ✗ 原创性受限 · ✗ 版权问题

三、重点产品深度拆解

3.1 即梦 AI（字节 · 剪映生态）

一站式 AI 片场范式 02+03+05

核心亮点：从"聊天框"到"画布"的交互革命。即梦是目前国内将 Canvas + Agent + 多帧三种范式结合最好的产品。

📷 操作流程实录

Step 1: 输入画布入口：输入 prompt 描述你想创作的内容，或从模板快速开始

Step 2: 生成+编排画布工作区：左侧工具栏 + 中央画布排布多资产 + 右侧 AI 对话面板自动生成内容

Step 3: 输出分镜输出：输入"电影感，两人对峙场面，分镜"→ AI 生成一致角色的多场景分镜

交互设计拆解

无限画布：类 Figma 左侧工具栏 + 中央画布，支持多资产并行、风格统一
Agent 模式：灵感搜索 + 创意设计，对话即创作，系统主动预测下一步动作
智能多帧 2.0：上传视频段落拼接，首创视频片段锁定+局部修改，最多20帧
预测式交互：生成一张图后，自动推荐"扩图→封面"或"转视频→动效"
剪映闭环：素材直接导入剪映精修和发布

对 MedLoom 的启发

即梦的预测式交互可以借鉴——用户选了"银屑病病因"后，系统自动推荐"要不要加上预防措施？"或"生成30秒快速版还是2分钟完整版？"

但即梦的问题在于它是通用工具，医学内容的准确性完全靠用户自己把控。

3.2 可灵 AI（快手 · Omni One）

导演级多模态创作平台范式 03+04+06

核心亮点：Omni One 统一架构将理解/生成/编辑融为一体。7合1编辑器 + 原生音画同步。

📷 创作界面

Step 1: 选择模型+输入视频创作界面：视频3.0模型选择 + Prompt 输入 + 首尾帧控制 + 智能分镜，左侧导航含创意圈/Omni/灵动画布

📸 更多界面参考（点击展开 Google Images）

可灵 AI 灵动画布 Agent 模式、7合1编辑器、参考驱动生成等

交互设计拆解

灵动画布 Agent：自然语言多轮对话创作，支持局部修改、批量生成、风格统一
7合1多模态编辑器：在一个界面内完成增删元素、换背景、调风格、接镜头
参考驱动生成：上传参考视频，AI提取人物视觉+声音特征，新场景中复现
自动分镜：系统根据文本自动设计分镜，用户可手动调整
数字人 2.0：支持多语言/方言对话，口型同步

对 MedLoom 的启发

可灵的数字人+自动分镜组合适合医学科普场景——数字人讲解 + 系统自动匹配解剖图切片。参考驱动生成能力允许以已有手绘素材为参考，保持风格一致。

3.3 Runway（Gen-4.5 + Edit Studio + Aleph 2.0）

专业影视级创作套件范式 04+06

核心亮点：从 model company 进化为 product company。Edit Studio 是第一个围绕"编辑现有素材"设计的完整产品体验。

📷 工作界面

Home Runway 工作台：Apps 分区（Generate/Edit Videos/Images）+ Gen-4.5/Aleph 2.0 工具矩阵 + Assets 管理

📸 更多界面参考（点击展开 Google Images）

Runway Gen-4.5 生成器、Aleph 2.0 编辑器、Edit Studio、Timeline Editor（来源：2026评测文章）

交互设计拆解

Edit Studio：单帧编辑画布 → 变更传播到全视频。先预览图片效果再提交生成
Timeline Editor：传统 NLE 风格，拖放生成片段、剪切、转场、混音
Apps 架构：Home / Assets / Sessions / All Tools / Editor 分区明确
逐步升级路径：Gen-4 Turbo（快速迭代）→ Gen-4.5（精品输出）→ Aleph（编辑素材）

对 MedLoom 的启发

Runway 的 "先预览再生成"思路极具价值——用户选完切片后，先看一张合成预览图确认效果，满意了再渲染完整视频。减少浪费。

3.4 InVideo AI（端到端视频 Agent）

文本 → 成品视频的全自动管线范式 01+03

核心亮点：输入一段文字，5分钟出完整视频（含脚本、素材匹配、配音、字幕、音乐）。编辑用自然语言："删掉第3幕"、"音乐换活泼一点的"。

📷 操作流程实录

Step 1: 输入 prompt 输入界面：一个大输入框 + "Generate my video" 按钮，底部快捷入口（Advertising Studio, Boards Agent, Clone myself 等）

Step 2: AI 工具编辑 AI 工具集：Looks（风格变体）/ Boards（分镜板）/ Angles（镜头角度）—— 用自然语言编辑

Step 3: 预览+导出视频预览：生成完毕后的视频播放界面，底部有 "Edit & Download" 按钮，支持版本管理

交互设计拆解

Prompt → Draft：描述主题/语气/受众/时长 → AI 生成完整视频草稿
语义编辑："让开头更有吸引力" → AI 自动加快剪辑节奏、换转场、提高音乐BPM
AI Twin：上传30秒录音 → 克隆声音用于所有视频
1600万素材库：自动匹配 iStock 授权素材
Agent One：跨场景/地点/角色的持久记忆，支持长片叙事

对 MedLoom 的启发

InVideo 的核心能力：用户只需说"给我一个银屑病预防的2分钟科普视频"，系统就能出成品。它使用通用素材库，如果换成专业医学素材库，这个 text-to-video 范式值得参考。

3.5 Pika（社交短视频快速生成）

短平快的社交内容工厂范式 01+05

📸 更多界面参考（点击展开 Google Images）

Pika 界面：极简 prompt → 生成、Pikaffects 一键特效、Pikaframes 关键帧控制（来源：评测和教程视频）

核心流程：prompt → clip，极简交互
特色工具：Pikaffects（一键特效）、Pikaswaps（换元素）、Pikaframes（关键帧过渡）、Pikaformance（口型同步）
定位：TikTok/Reels 格式的短视频，不追求长片叙事

对 MedLoom 的启发：Pika 的一键特效+换元素思路可以用于医学场景——"把这个关节图从正常状态切换到发炎状态"。

3.6 Medeo Canary（ONE2X · 软件生成系统）

"生成视频工具"的工具范式 03+04

📸 更多界面参考（点击展开 Google Images）

Medeo/ONE2X 界面：AI 视频创作、一键编辑、Agent 模式、自然语言驱动（来源：评测和产品页）

核心理念："视频工具应该是为每个人个性化生成的"——他们做的不是一个视频产品，而是一个能根据用户需求定制视频工具的系统。

用户痛点收集（与 MedLoom 高度相关）

"我有自己的素材库，能否支持批量化生成？" ← 这就是我们！
"能不能支持导入固定工作流？" ← 这也是我们！
"能不能支持无限画布、具备导演视图？"
"能不能做 OEM 贴牌？"

Medeo 的参考价值：验证了"专业素材库 + 定制化工作流"的产品形态。AI 辅助医学内容生成存在可行的产品路径。

3.7 补充参考：Sora 与 Luma

Sora (OpenAI)：极简输入框 + 社区展示，纯 Text-First 范式

Sora

OpenAI 的视频生成产品，定位纯 Text-to-Video。交互极简：一个输入框+生成按钮。代表了"模型即产品"的极端路线。

Text-First 模型驱动

Luma Dream Machine：创意 Agent 定位，"让你高产"的创作助手

Luma Dream Machine

Luma 的定位从"3D重建"转向"Creative agents that make you prolific"。走 Agent-Driven 路线，强调创意产出效率。

Agent-Driven 创意效率

四、MedLoom 适配分析

4.1 素材特征分析（决定产品形态）

维度	特征	对产品设计的影响
背景	全部纯黑底	可叠加任何背景，适合合成；但成品需要设计感
音频	全部静音 (-91dB)	必须后配 TTS/数字人；但也意味着完全的灵活性
时长	单切片 2-8秒，单知识点 6-66秒	天然适合短视频（30秒-2分钟）
分辨率	1920×1080 / 24fps / H.264	专业级，无需上采样
编码体系	9=总结版，Q=扩展版，1-6=标准版	支持"快速版/标准版/深度版"三种输出模式
内容类型	解剖图/人物/微生物/药物/器械/复合图示	视觉丰富，但风格偏科普卡通而非写实
覆盖范围	银屑病全部12模块/57知识点/463切片	单病种完整度极高，适合 PoC

4.2 用户场景矩阵

用户	场景	期望输入	期望输出	时间预算
医生	给患者做科普	说一句话/选个病	30秒-2分钟视频	< 1分钟
药房药师	门店科普屏/公众号	选病+选模块	1-3分钟视频	< 5分钟
药厂市场部	产品推广素材	上传文案+选风格	定制化视频	可接受 30 分钟
MCN/内容团队	批量生产科普内容	批量 query 列表	批量视频	批量自动化

五、三套交互方案

方案 A：一键出片（InVideo 范式）

🎯 推荐 · 最适合 PoC 范式 01+03

核心交互

用户输入: "银屑病的病因是什么？" ↓ 系统理解 → 匹配知识模块 (BY-1, BY-2, BY-9) ↓ 自动编排: A区(总结 BY-9) → B区(核心 BY-1) → C区(延展 BY-Q1) ↓ 展示预览卡片: 文字摘要 + 切片缩略图 + 预估时长 ↓ 用户确认 / 调整（"去掉延展部分" / "加上预防"） ↓ 渲染: 切片拼接 + TTS配音 + 字幕叠加 → MP4

界面草图

首页：一个输入框 + "试试这些问题"的推荐卡片
预览页：左侧视频预览 + 右侧切片列表（可拖拽排序）
输出页：视频播放 + 下载/分享按钮

优势

医生 1 分钟内出片，门槛最低
PoC 阶段最快实现（核心只是：query → 匹配 → 拼接）
直接利用已有专业素材库

劣势

创作自由度低，高级用户可能觉得不够
编排质量完全依赖 AI 的匹配准确度

方案 B：分镜画布（即梦范式）

适合药厂/MCN 进阶用户范式 02+05

核心交互

选择病种: 银屑病 ↓ 展示知识地图: 12个模块的卡片网格 ↓ 用户点选模块 → 展开知识点列表（带缩略图） ↓ 拖拽知识点到时间轴/画布 → 实时预览拼接效果 ↓ 可选：添加背景色 / 选数字人 / 选TTS音色 / 加字幕样式 ↓ 渲染导出

优势

创作自由度高，适合专业内容团队
可视化的知识地图让用户理解素材全貌
即梦/可灵用户会觉得熟悉

劣势

开发成本高（画布/拖拽/时间轴）
医生可能觉得太复杂

方案 C：对话+预览（Agent 范式）

最自然但最不可控范式 03

核心交互

用户: "我是皮肤科医生，患者问银屑病会不会遗传，帮我做个科普视频" ↓ Agent: "好的，我找到了以下相关内容： 1. 病因-遗传（25秒） 2. 病因-免疫异常（16秒） 3. 预防-生活习惯（45秒）建议做一个 1 分钟版本，先讲遗传因素，再讲预防。要加入您的数字人形象吗？" ↓ 用户: "好，不要预防部分，只讲遗传。不用数字人。" ↓ Agent: "已生成预览 [缩略图]，总时长 35 秒。确认生成？" ↓ 用户: "确认" ↓ 渲染输出

优势

最贴近医生的日常沟通方式
无需学习任何界面
可以处理复杂需求（"适合给老年患者看的版本"）

劣势

对 LLM 理解能力要求高
多轮对话的延迟影响体验
难以精确控制输出细节

六、最终建议

建议：PoC 用方案 A，产品化后 A+C 混合

理由：

方案 A（一键出片）开发最快（核心只是 query匹配 + 切片拼接 + TTS），3天可闭环
方案 A 最能体现核心价值——用户输入一句话，得到专业准确的医学科普视频
产品化后在方案 A 的基础上叠加方案 C（Agent对话）作为高级模式——"对话微调"
方案 B（画布）留给后期 Pro 版，面向药厂/MCN 专业用户

排除了：

纯方案 B 起步：开发成本高，医生用不上，PoC 来不及
纯方案 C 起步：LLM 匹配准确度不够稳定，PoC 可控性差

不确定的（你比我清楚的部分）：

核心用户画像——决定方案优先级
一键出片的"简单"交互如何平衡专业感和易用性
手绘卡通风格在2026年的市场接受度

PoC 阶段的交互流程（方案 A 细化）

┌─────────────────────────────────────┐ │ 🔍 银屑病的病因是什么？ │ ← 输入框 │ ───────────────────────────────── │ │ 推荐: 银屑病怎么预防 | 银屑病能根治吗 │ ← 热门 query └─────────────────────────────────────┘ ↓ 用户输入后 ┌─────────────────────────────────────┐ │ 📋 生成方案 │ │ │ │ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │ 30s │ │ 1m │ │ 2m │ ← 时长选择│ │ │速览版│ │标准版│ │深度版│ │ │ └─────┘ └─────┘ └─────┘ │ │ │ │ 已选知识点: │ │ ☑ 遗传因素 (25s) [BY-1] │ │ ☑ 免疫异常 (16s) [BY-2] │ │ ☐ 病因总结 (6s) [BY-9] │ ← 可勾选 │ ☐ 遗传详解 (29s) [BY-Q1] │ │ │ │ 配音: ○ AI女声 ○ AI男声 ○ 不配音 │ │ 字幕: ☑ 中文 ☐ 英文 │ │ │ │ [ 预览 ] [ 生成视频 ] │ └─────────────────────────────────────┘ ↓ 点击"预览" ┌─────────────────────────────────────┐ │ ▶ 视频预览 │ │ ┌───────────────────────┐ │ │ │ │ │ │ │ [视频播放器] │ │ │ │ │ │ │ └───────────────────────┘ │ │ │ │ 时间轴: ──●──────●──────●── │ │ BY-1-1 BY-1-3 BY-2-1 │ │ │ │ [ ↓ 下载 MP4 ] [ 🔗 分享链接 ] │ └─────────────────────────────────────┘

MedLoom 调研报告

目录

一、市场全景：2026年 AI 视频工具格局

二、六种交互范式分类

Text-First（文本即视频）

Canvas/Board（无限画布）

Agent-Driven（对话式创作）

Timeline/NLE（时间轴编辑增强）

Keyframe-Bridge（关键帧驱动）

Reference-Remix（参考驱动）

三、重点产品深度拆解

3.1 即梦 AI（字节 · 剪映生态）

📷 操作流程实录

交互设计拆解

对 MedLoom 的启发

3.2 可灵 AI（快手 · Omni One）

📷 创作界面

交互设计拆解

对 MedLoom 的启发

3.3 Runway（Gen-4.5 + Edit Studio + Aleph 2.0）

📷 工作界面

交互设计拆解

对 MedLoom 的启发

3.4 InVideo AI（端到端视频 Agent）

📷 操作流程实录

交互设计拆解

对 MedLoom 的启发

3.5 Pika（社交短视频快速生成）

3.6 Medeo Canary（ONE2X · 软件生成系统）

用户痛点收集（与 MedLoom 高度相关）

3.7 补充参考：Sora 与 Luma

Sora

Luma Dream Machine

四、MedLoom 适配分析

4.1 素材特征分析（决定产品形态）

4.2 用户场景矩阵

五、三套交互方案

方案 A：一键出片（InVideo 范式）

核心交互

界面草图

优势

劣势

方案 B：分镜画布（即梦范式）

核心交互

优势

劣势

方案 C：对话+预览（Agent 范式）

核心交互

优势

劣势

六、最终建议

建议：PoC 用方案 A，产品化后 A+C 混合

PoC 阶段的交互流程（方案 A 细化）