阅读时间:1 分钟
0 字

模型与能力协作

工作流里最容易让人混淆的一点,就是:

对话模型、图片模型、视频模型、向量模型,到底分别干什么?

你可以直接这样理解:

1. 对话模型负责理解和组织

对话模型的主要作用是:

  • 理解输入
  • 判断下一步该做什么
  • 组织回复内容
  • 把多个能力结果整合成最终输出

如果你的工作流里需要“理解需求”或“整理结果”,通常都离不开对话模型。

2. 图片模型负责图片生成

图片模型主要负责:

  • 文生图
  • 图生图
  • 输出图片结果

它本身不负责流程编排,只负责生成图片。

3. 视频模型负责视频生成

视频模型主要负责:

  • 提交视频生成任务
  • 生成视频结果

但因为视频通常是异步任务,所以更适合由工作流来控制整个执行过程。

4. 向量模型负责知识库向量化

向量模型主要负责:

  • 把文档内容转换成向量
  • 给知识库检索准备底层数据

它不是拿来直接和用户对话的,而是给知识库链路使用的。

5. 能力节点负责执行具体动作

工作流里的能力节点,本质上是把这些模型能力或业务动作真正执行出来。

例如:

  • 知识库检索
  • HTTP 请求
  • MCP 调用
  • 图片生成
  • 视频生成
  • 通知发送

6. 工作流负责把它们串起来

工作流本身最重要的作用不是“做某一件事”,而是:

  • 控制输入
  • 控制执行顺序
  • 控制异步恢复
  • 控制输出结构
  • 留下执行日志

所以你可以把它理解成:

  • 模型负责“做某类事”
  • 能力负责“执行动作”
  • 工作流负责“把这些动作有顺序地组织起来”

推荐理解方式

如果你是第一次用工作流,建议直接按下面这句来记:

对话模型负责理解,专用模型负责生成,能力节点负责执行,工作流负责编排。