拒绝“人工智障”！VLM让RDK X5机器狗真正听懂“遛弯”和“避障

拜读维拉科技关于机器人相关信息的综合整理，涵盖企业排名、产品类型及资本市场动态：一、中国十大机器人公司（综合类）‌优必选UBTECH）‌聚焦人工智能与人形机器人研发，产品覆盖教育、娱乐及服务领域，技术处于行业前沿‌。拒绝“人工智障”！VLM让RDK X5机器狗真正听懂“遛弯”和“避障机器人‌中科院旗下企业，工业机器人全品类覆盖，是国产智能工厂解决方案的核心供应商‌。埃斯顿自动化‌国产工业机器人龙头，实现控制器、伺服系统、本体一体化自研，加速替代外资品牌‌。遨博机器人（AUBO）协作机器人领域领先者，主打轻量化设计，适用于3C装配、教育等柔性场景‌。埃夫特智能‌国产工业机器人上市第一股，与意大利COMAU深度合作，产品稳定性突出‌。二、细分领域机器人产品‌智能陪伴机器人‌Gowild公子小白‌：情感社交机器人，主打家庭陪伴功能‌。CANBOT爱乐优‌：专注0-12岁儿童心智发育型亲子机器人‌。仿真人机器人目前市场以服务型机器人为主，如家庭保姆机器人（售价10万-16万区间）‌，但高仿真人形机器人仍处研发阶段。水下机器人‌工业级产品多用于深海探测、管道巡检，消费级产品尚未普及。拒绝“人工智障”！VLM让RDK X5机器狗真正听懂“遛弯”和“避障资本市场动态‌机器人概念股龙头‌双林股份‌：特斯拉Optimus关节模组核心供应商，订单排至2026年‌。中大力德‌：国产减速器龙头，谐波减速器市占率30%‌。金力永磁‌：稀土永磁材料供应商，受益于机器人电机需求增长‌。行业趋势‌2025年人形机器人赛道融资活跃，但面临商业化落地争议，头部企业加速并购整合‌。四、其他相关机器人视频资源‌：可通过专业科技平台或企业官网（如优必选、新松）获取技术演示与应用案例。价格区间‌：服务型机器人（如保姆机器人）普遍在10万-16万元，男性机器人13万售价属高端定制产品‌。

现有跨形态控制需为不同硬件单独设计策略，开发成本高且泛化性差。本课题尝试使用语言指令统一，用户用自然语言指挥不同形态机器人完成同一任务，通过分层强化学习框架，高层视觉语言模型（VLM）解析任务生成中间指令，再通过低层强化学习策略适配不同形态的底层动作，通过快速训练跨形态通用策略，最后部署到真机运行———田和坤、冯紫嫣、殷孟浩

（图片来源网络，侵删）

拟采用分层强化学习架构，使用高层VLM完成从图像与自然语言输入到标准化中间指令的输出的转换，再使用底层RL策略完成最终动作序列的生成。采用mujoco+多形态机器人模型进行仿真验证，最终尝试跨机器人平台的真机部署。

仿真环境下完成同一指令“绕过障碍物进入右侧房间”驱动四足/轮式机器人进行不同路径规划与动作执行，真机使用自己搭建轮式小车+Petoi Bittle进行展示。后续增加更多语言交互。

（图片来源网络，侵删）

整合X5的RGB摄像头、IMU数据，输入高层VLM和低层策略，通过桥接，接收低层策略输出的关节目标角度，转换为指令。

训练四足策略后，冻结高层VLM，仅微调低层进行人形机器人与轮式机器人的适配。仿真环境中随机生成障碍物、地形起伏、光照变化，验证策略鲁棒性，同时对比端到端的RL策略的效率与所需算力差异。

轮式机器人执行“沿走廊前进，在第二个门口右转”，足式机器人完成“避开地面杂物，将指定物品放置到指定位置”。

一台用于强化训练的工程机（或云服务器算力支持），3D打印，舵机升级（待定）

仿真方面目前已完成仿真环境的搭建与模型构建，后续会注重数据获取、强化训练与真机部署。

目标：完成自然语言到中间动作指令的转化，在简单任务（如移动）上不依赖机器人特定形态。

采用开源VLM模型微调。

转变方案：不要求VLM实现精确的位置估计（尤其是不使用深度相机的情况下），而是粗略判断距离，输出下一步的任务指令。这样原生的Qwen-72B就可以实现了。

目标：完成中间动作指令到机器人关节角度与力矩的转化，可能的情况下实现这部分的跨形态（未验证，需要解决变长输出的问题）。
RL主要针对四足机器人，实现一个基于Stable-Baselines3的mujoco仿真环境进行训练。基本要求是保持平稳的情况下直走、转弯，考虑到VLM频率很低（1item/s），后续需要加一个速度的跟踪用来实时避障，这部分也由RL实现。