首页 / 人工智能 / AI眼镜大模型激战：多大模型协同、交互时延低至1.3S

AI眼镜大模型激战：多大模型协同、交互时延低至1.3S

baidu09_com 2025-08-26 45 0

拜读维拉科技关于机器人相关信息的综合整理，涵盖企业排名、产品类型及资本市场动态：一、中国十大机器人公司（综合类）‌优必选UBTECH）‌聚焦人工智能与人形机器人研发，产品覆盖教育、娱乐及服务领域，技术处于行业前沿‌。AI 眼镜大模型激战：多大模型协同、交互时延低至1.3S机器人‌中科院旗下企业，工业机器人全品类覆盖，是国产智能工厂解决方案的核心供应商‌。埃斯顿自动化‌国产工业机器人龙头，实现控制器、伺服系统、本体一体化自研，加速替代外资品牌‌。遨博机器人（AUBO）协作机器人领域领先者，主打轻量化设计，适用于3C装配、教育等柔性场景‌。埃夫特智能‌国产工业机器人上市第一股，与意大利COMAU深度合作，产品稳定性突出‌。二、细分领域机器人产品‌智能陪伴机器人‌Gowild公子小白‌：情感社交机器人，主打家庭陪伴功能‌。CANBOT爱乐优‌：专注0-12岁儿童心智发育型亲子机器人‌。仿真人机器人目前市场以服务型机器人为主，如家庭保姆机器人（售价10万-16万区间）‌，但高仿真人形机器人仍处研发阶段。水下机器人‌工业级产品多用于深海探测、管道巡检，消费级产品尚未普及。AI眼镜大模型激战：多大模型协同、交互时延低至1.3S资本市场动态‌机器人概念股龙头‌双林股份‌：特斯拉Optimus关节模组核心供应商，订单排至2026年‌。中大力德‌：国产减速器龙头，谐波减速器市占率30%‌。金力永磁‌：稀土永磁材料供应商，受益于机器人电机需求增长‌。行业趋势‌2025年人形机器人赛道融资活跃，但面临商业化落地争议，头部企业加速并购整合‌。四、其他相关机器人视频资源‌：可通过专业科技平台或企业官网（如优必选、新松）获取技术演示与应用案例。价格区间‌：服务型机器人（如保姆机器人）普遍在10万-16万元，男性机器人13万售价属高端定制产品‌。

电子发烧友网报道（文/莫婷婷）“百镜大战”开始时，也是大模型在眼镜端加速落地的开始，一场关于智能眼镜的“百模大战”也同步进行。几乎今年刚推出的AI智能眼镜都搭载了AI大模型。随着AI智能眼镜与AI大模型的深度融合，一场技术演进与场景革命正在悄然进行。

一款眼镜搭载多个大模型：AI智能眼镜下的“百模大战”

AI大模型指的是具有大量参数（通常超过数十亿）的模型。这些模型有着复杂计算结构、经过大规模数据集训练后，能够在自然语言处理、等多个领域表现出色。例如，GPT-4在文本生成方面有着更强的表现；而DALL·E 2能在图像生成领域带来技术突破。这类模型不仅能够理解复杂的语义信息，还能根据上下文生成相应的响应或内容，极大地提升了人机交互的质量。

一般来说，AI大模型具备泛化性、通用性、实用性三大特点。AI大模型包括云侧大模型和端侧大模型，云侧AI大模型在云端部署，具备参数多，且算力和数据存储需求大的特点，例如通用大模型和行业大模型；端侧大模型主要应用在、汽车等产品上，具备参数小、本地运行等特点。

与传统眼镜相比，AI智能眼镜最大的特点就是增加了AI功能，且目前来看，智能音频眼镜、AI智能眼镜、AR智能眼镜这三大类AI智能眼镜都搭载了AI大模型。

例如Ray-Ban Meta新型号搭载的是Meta Llama3大模型，李未可Meta Lens Chat AI眼镜搭载了自研大模型WAKE-AI大模型等。同时，我们也看到了一款智能眼镜会搭载多个AI大模型，例如Rokid Glasses搭载了通义千问、DeepSeek、豆包、智谱清言、纳米搜索等多个大模型，蜂巢界环AI眼镜搭载了包括通义、百川等在内的14 个大模型。

图：AI智能眼镜的功能介绍（电子发烧友网制图）

搭载多个大模型将带来多个优势，一是增强的功能多样性，这些大模型专注于不同的任务，有的擅长自然语言处理，有的则在图像识别领域有着出色的表现。通过集成多种模型，智能眼镜可以提供更加丰富和全面的服务。

二是提高性能与准确度，每个大模型都有其独特的和训练数据集，因此在特定任务上可能具有独特的优势。当用户的需求不同时，系统会根据实际应用场景选择最适合的模型进行处理。

三是快速响应与高效处理。Rokid Glasses 将产品搭载的大模型分为基础模型、视觉模型、搜索模型等类型。基础大模型负责对话，和调用产品功能等整体 AI 能力；视觉大模型负责识别物体等需要处理视觉信息的任务；信息大模型负责搜索当下最新信息对所回答的问题进行信息整合与归纳。

那么，这么多的大模型，在接收到任务时会不会“打架”？Rokid在Rokid Glasses端侧集成自研的意图分类模型，做到2 毫秒内完成对意图的分类，再将请求分发给不同的模型。由此带来快速的AI 响应速度快、更高的处理效率。

Rokid认为“目前还没有一款能力覆盖全面的大模型，更多的是某大模型在特定领域内表现出色。因此多模型的协同使用或许是更优解。”

AI智能眼镜的“大脑革命”：端侧推理与交互时延重塑

智能眼镜的进化史，本质是端侧算力与交互时延的博弈，随着Llama、盘古、通义等大模型的升级，更强大的端侧推理能力和极低的交互时延，将提供更流畅且即时的用户体验。具体来看主流AI智能眼镜的AI大模型的特点。

Ray-Ban Meta搭载了Llama系列多模态模型，实现了实时视觉-语言协同（VLM），支持实时同声传译，支持动态物体追踪和环境语义分割，能够识别超过1000类物体，环境感知准确率提升至92%。

华为的智能眼镜产品已经搭载了盘古多模态大模型。从2021年发布盘古大模型1.0版本至今，盘古大模型就一直在更新升级，盘古大模型5.0能够更精准地理解物理世界，融合了语言和视觉跨模态信息，支持图像理解等功能。在接入华为智能眼镜后，唤醒小艺助手，能够进行对话和其他交互功能。据了解，盘古大模型5.0的推理速度提升了300%。如若搭载在华为智能眼镜上，将带来更快速的交互体验。

李未可科技的Meta Lens Chat AI智能眼镜基于WAKE-AI大模型平台，用户在AI智能眼镜上调用大模型能在500毫秒内快速精准地识别用户指令，一般对话时延在1.8秒左右、2秒以内。

2025年1月，雷鸟V3宣布接入阿里云通义大模型，还定制了全新意图识别模型，AI 平均响应速度为 1.3s，识别准确率高达98%。

也是在2025年1月，百度智能云发布了AI眼镜大模型互动方案，针对智能眼镜场景，提供语音交互、视觉理解、复杂任务等端到端解决方案。在交互响应速度方面，多模态实时互动方案能做到端到端音频延时低至1.4s，语音打断延时小于0.8s，端到端视觉延时低至2.5s。

通过上述各产品技术参数对比来看，AI智能眼镜大模型的端侧推理速度、交互时延将是AI大模型迭代的两大关键。

端侧推理速度持续提升，处理延迟会随着技术迭代持续下降。在时延方面，1.8s是一个分水岭，此前，大多数应用在智能眼镜的交互时延都在5s左右，通过上述最新产品来看，视觉延时在2.5s左右，语音交互时延的要求则更低，普遍要求在1.3s左右。

XREAL创始人兼CEO徐驰在接受媒体采访时曾表示AI眼镜的核心壁垒在大模型，他认为在AI智能眼镜中，大模型占70%的决定性作用，硬件研发投入占30%，两者需要深度融合。就在2025年2月，XREAL宣布将与海信视像科技展开合作，合作内容包括显示、AI大模型应用等领域。

小结：

随着的不断进步，智能眼镜正在经历一场前所未有的“大脑革命”。从Ray-Ban Meta到华为智能眼镜，再到李未可科技的Meta Lens Chat，这些产品展示了各自在AI大模型应用上的独特优势。通过搭载Llama、盘古、通义等先进大模型，智能眼镜现在能够实现更快的端侧推理速度和更低的交互时延，为用户提供更加流畅且即时的体验。此外，越来越多的产品开始采用多大模型协同工作的模式。这一切都预示着，在不久的将来，智能眼镜将不仅仅是一个简单的穿戴设备，而是一个集成了最先进AI技术的多功能平台。

另一个值得关注的是，“百镜大战”不仅仅是硬件的竞争，更是背后AI大模型技术和应用场景的较量。各大厂商纷纷探索如何更好地应用大模型，以期在保持设备轻量化的同时提供强大的计算能力。未来会如何发展，我们也将持续关注。