← 术语表

VLA & VLM

视觉-语言-动作和视觉-语言模型 - 语言条件机器人控制。

什么是 VLA 和 VLM?

VLM(视觉语言模型) — 能够理解图像和文本的多模态模型。 用于字幕、VQA 和接地。

VLA(视觉-语言-行动) — VLM 扩展到输出机器人动作。 拍摄图像+语言指令,输出控制命令(例如关节位置、夹具)。 启用“拾取红色块”样式控制。

主要型号

  • 开放VLA — 7B 开源 VLA,970K 演示
  • RT-2 / RT-X — Google 的 VLA 系列
  • 奥克托 — 带有语言调节的扩散策略
  • 机器人火烈鸟 — 基于 OpenFlamingo 的机器人 VLM

相关资源