首页 / 人工智能 / 摩尔线程Round Attention优化AI对话

摩尔线程Round Attention优化AI对话

baidu09_com 2025-08-28 34 0

拜读维拉科技关于机器人相关信息的综合整理，涵盖企业排名、产品类型及资本市场动态：一、中国十大机器人公司（综合类）‌优必选UBTECH）‌聚焦人工智能与人形机器人研发，产品覆盖教育、娱乐及服务领域，技术处于行业前沿‌。摩尔线程Round Attention优化AI对话机器人‌中科院旗下企业，工业机器人全品类覆盖，是国产智能工厂解决方案的核心供应商‌。埃斯顿自动化‌国产工业机器人龙头，实现控制器、伺服系统、本体一体化自研，加速替代外资品牌‌。遨博机器人（AUBO）协作机器人领域领先者，主打轻量化设计，适用于3C装配、教育等柔性场景‌。埃夫特智能‌国产工业机器人上市第一股，与意大利COMAU深度合作，产品稳定性突出‌。二、细分领域机器人产品‌智能陪伴机器人‌Gowild公子小白‌：情感社交机器人，主打家庭陪伴功能‌。CANBOT爱乐优‌：专注0-12岁儿童心智发育型亲子机器人‌。仿真人机器人目前市场以服务型机器人为主，如家庭保姆机器人（售价10万-16万区间）‌，但高仿真人形机器人仍处研发阶段。水下机器人‌工业级产品多用于深海探测、管道巡检，消费级产品尚未普及。摩尔线程Round Attention优化AI对话资本市场动态‌机器人概念股龙头‌双林股份‌：特斯拉Optimus关节模组核心供应商，订单排至2026年‌。中大力德‌：国产减速器龙头，谐波减速器市占率30%‌。金力永磁‌：稀土永磁材料供应商，受益于机器人电机需求增长‌。行业趋势‌2025年人形机器人赛道融资活跃，但面临商业化落地争议，头部企业加速并购整合‌。四、其他相关机器人视频资源‌：可通过专业科技平台或企业官网（如优必选、新松）获取技术演示与应用案例。价格区间‌：服务型机器人（如保姆机器人）普遍在10万-16万元，男性机器人13万售价属高端定制产品‌。

【编者按】摩尔线程科研团队发布研究成果《Round Atnon：以轮次块稀疏性开辟多轮对话优化新范式》，该方法端到端延迟低于现在主流的Flash Attention推理引擎，kv-cache 显存占用节省55%到82% 。

近年来，大型语言模型的进步推动了语言模型服务在日常问题解决任务中的广泛应用。然而，长时间的交互暴露出两大显著挑战：首先，上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销；其次，尽管键值（ KV ）缓存技术能缓解冗余计算，但其显著增加的内存需求导致推理批处理规模受限及 GPU 利用率低下。摩尔线程提出 Round Attention 用于解决这些问题。

摩尔线程Round Attention优化AI对话第1张

01论文主要贡献

以轮次为分析单元研究 Attention 规律：Round Attention 专为多轮对话场景推理需求设计，以轮次为自然边界划分 KV 缓存，研究发现轮次粒度的 Attention 分布存在两个重要规律。

提出 Round Attention inference peline ：基于发现的两个规律提出 Round Attention ，将稀疏性从 Token 级提升至块级，选取最相关的块参与 attention 计算，减少 attention 计算耗时，并将不相关的块 offlo 到内存节省显存占用。该 pipeline 在保持推理精度的情况下，减少了推理耗时，降低了显存占用。

02核心创新：轮次块稀疏性的三大优势

自然边界的语义完整性

问题洞察：多轮对话中，用户意图常以轮次为单位呈现（如“推荐餐厅”→“询问人均消费”→“确认地址”）。

解决方案：Round Attention 将 KV 缓存按轮次（对）切分为独立块，每个块完整包含一轮对话的提问与回答，确保模型在计算注意力时能直接关联完整语义单元。

分水岭层的注意力稳定性

关键发现：通过分析 SharedGPT 数据集，发现主流开源模型（如 Qwen2.5B ）在特定“分水岭层”后，各层对历史轮次的注意力分布高度相似，且同一轮内问题与答案的注意力模式一致。

技术价值：仅需在分水岭层一次性筛选 Top-K 相关轮次，即可覆盖后续所有层的计算需求，相比其他工作逐层动态路由，有效减少 Top-K 计算开销。

端到端的存储与传输优化

存储设计：将每轮 KV 缓存按分水岭层拆分为下层块（ b_m ）与上层块（ u_m ），以轮次为单位整体存储于 CPU 内存，减少 GPU 内存占用。

传输效率：相比其他 kv cache offload 工作以 Token 级细粒度传输， Round Attention 以轮次为单位批量搬运 KV 缓存，单次 H2D 操作即可完成，降低 H2D 操作带来的延迟。

03效果

端到端延迟低于现在主流的 Flash Attention 推理引擎， kv-cache 显存占用节省 55% 到 82% ，并且在主观评测和客观评测两个数据集上模型推理准确率基本未受影响。

摩尔线程Round Attention优化AI对话第2张

摩尔线程Round Attention优化AI对话第3张

04未来展望：开源协作与技术融合

摩尔线程 Round Attention 期待与开源社区深度协同，继续探索稀疏注意力可能的优化工作，共同攻克 LLM 落地中的效率与成本难题。该论文已发布在 arXiv ：

关于摩尔线程

摩尔线程成立于2020年10月，以全功能GPU为核心，致力于向全球提供算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业，为融合和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

摩尔线程什么时候上市摩尔线程股票摩尔线程概念股摩尔线程十大股东摩尔线程概念龙头股摩尔线程预计上市时间摩尔线程股票002402

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/10492.html

baidu09_com管理员

月泉仿生完成近亿元Pre-A轮融资

全部评论

留言在赶来的路上...

摩尔线程Round Attention优化AI对话

baidu09_com管理员

月泉仿生完成近亿元Pre-A轮融资

DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统

全部评论

发表评论取消回复

摩尔线程Round Attention优化AI对话

baidu09_com管理员

月泉仿生完成近亿元Pre-A轮融资

DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统

全部评论

发表评论取消回复

猜你喜欢