Playground v3 – Playground Research推出超越人类设计师的文本到图像模型

baidu09_com 2025-08-30 32 0

Playground v3（PGv3）是由Playground Research推出的最新文本到图像模型，基于深度融合的大型语言模型（LLM）技术，实现在图形设计任务上超越人类设计师的能力。PGv3拥有240亿参数量，能精确理解和生成复杂的图像内容，包括精确的RGB颜色控制和多语言文本生成。PGv3的模型架构是一个潜扩散模型（LDM），基于变分自编码器（VAE）和经验扩散模型（EDM）进行训练。用DiT风格的模型结构，每个Transformer块与语言模型中的对应块相同，增强提示理解和遵循能力。PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色，尤其在设计应用中，如表情包、海报和logo设计，展现超凡的设计能力。PGv3引入新的基准CapsBench，评估详细的图像描述性能，推动图像描述评估方法的发展。