PixWizard – 开源的AI图像视觉助手，多功能图像生成、编辑、翻译

baidu09_com 2025-08-30 38 0

PixWizard是一个多功能的图像到图像视觉助手，基于自然语言指令执行图像生成、编辑和翻译等任务。系统通过统一的图像-文本到图像生成框架，将多种视觉任务整合在一起，通过构建一个包含3000万数据点的全面训练集支持这些任务。PixWizard用基于流的Diffusion Transformer（DiT）作为基础模型，引入结构感知和语义感知指导，有效处理输入图像的信息。实验结果表明，PixWizard在多种分辨率的图像上展现出强大的生成和理解能力，能处理在训练过程中未遇到的新任务和指令，显示出良好的泛化能力。