VLA & VLM

视觉-语言-动作和视觉-语言模型 - 语言条件机器人控制。

什么是 VLA 和 VLM？

VLM（视觉语言模型） — 能够理解图像和文本的多模态模型。用于字幕、VQA 和接地。

VLA（视觉-语言-行动） — VLM 扩展到输出机器人动作。拍摄图像+语言指令，输出控制命令（例如关节位置、夹具）。启用“拾取红色块”样式控制。

主要型号

开放VLA — 7B 开源 VLA，970K 演示
RT-2 / RT-X — Google 的 VLA 系列
奥克托 — 带有语言调节的扩散策略
机器人火烈鸟 — 基于 OpenFlamingo 的机器人 VLM

相关资源

开源 VLA 和 VLM 模型 — 带链接的完整目录
数据集 — 语言标记的操作数据