GPT 4o 和 Gemini 2.5 Pro 都生成了令人惊叹的图像。两幅图像都包含了提示中提到的所有元素和顺序。GPT 4o 花了很长时间生成图像,而 Gemini 2.5 Pro 则在质量和速度上都很出色。
在这项任务中,Gemini 2.5 Pro 是赢家。GPT 4o 第二,Grok 3 第三。
提示词 1: A photorealistic image of a blue chainsaw
提示词 2:Make an ad for this chainsaw, of a grandma carving the turkey at the Thanksgiving dinner table. add a tagline
GPT 4o输出效果
Gemini 2.5 Pro输出效果
Grok 3输出效果
虽然 GPT 4o 花的时间超过了所需时间,但所有模型都很好地生成了第一幅图像。在第二幅图像中,所有模型都出现了一些问题。但在这三幅图中,我最喜欢 GPT 4o 的结果,因为它的输出质量很高,而且与提示的精髓非常接近。
在这项任务中,GPT 4o 是赢家。Grok 3 第二,Gemini 2.5 Pro 第三。
GPT 4o: 改变了图像生成领域的游戏规则,在与 Gemini 2.0 Flash 图像生成(实验版)和 Grok 3 的竞争中脱颖而出。
Gemini 2.5 Pro:以速度快、能快速生成和完善图像而著称,在对话式编辑方面表现出色。它能很好地按照说明进行编辑,但在文字编辑方面做得更好一些。该模式能很好地生成初稿,只需精心设计的提示即可生成更好的回复。此外,通过多重提示,您可以从模型中获得任何类型的结果。
Grok 3: 提供快速图像生成功能,注重创作自由和实时调整。虽然它在创意迭代方面表现出色,但在准确性方面却很吃力,可能会遗漏重要的细节,因此对于需要详细和结构化图像创建的任务来说,它并不可靠。
多模态人工智能模型的飞速发展为图像生成和编辑提供了新的可能性,GPT-4o、Gemini 2.5 Pro 和 Grok 3 都带来了独特的优势。GPT-4o 在精确度、上下文感知和质量方面都达到了很高的标准,但却牺牲了速度。另一方面,Gemini 2.5 Pro 将快速结果和对话式编辑放在首位。与此同时,Grok 3 强调创作自由和快速迭代,但在准确性和结构化任务方面却举步维艰。
就目前而言,“最佳”模型最终取决于个人需求–是 GPT-4o 无与伦比的准确性、Gemini 2.5 Pro 的灵活性,还是 Grok 3 富有想象力的灵活性。人工智能驱动视觉效果的未来是光明的,各行各业和创意领域的创新潜力无穷无尽。
全部评论
留言在赶来的路上...
发表评论