微软mono
-
发布了文章 2个月前
OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据
OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任...
-
发布了文章 2个月前
Mora – 微软等推出的可生成12秒视频的多AI智能体框架
Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频...
没有更多内容




