WeGen – 中科大联合上海交大等推出的统一多模态生成模型

baidu09_com 2025-08-31 40 0

WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型，基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型（MLLM）和扩散模型，处理文本到图像生成、条件驱动生成、图像编辑、风格迁移等多种任务。WeGen 的核心优势能在用户指令较模糊时提供多样化的创意输出，在用户有具体需求时保持生成结果与指令和参考图像的一致性。WeGen 基于动态实例一致性（DIIC）数据管道和提示自重写（PSR）机制，解决实例身份一致性和生成多样性两大挑战，展现出作为用户友好型设计助手的潜力。