中国的 Z-Image 取代 Flux 成为 AI 艺术之王——而且你的土豆电脑也能运行它

币搜网报道:

阿里巴巴统一实验室上周发布的这款拥有 60 亿参数的图像生成模型,做出了一个简单的承诺:在你实际拥有的硬件上实现最先进的质量。

这一承诺正在迅速兑现。发布几天后,开发者们就开始大量开发 LoRA(定制的微调自适应设备),其速度已经超过了 Flux2——Black Forest Labs 备受瞩目的 Flux 型号的继任者,后者广受欢迎。

Z-Image 的最大优势在于其高效性。虽然像 Flux2 这样的竞争对手至少需要 24GB 的显存(完整版甚至高达 90GB),但 Z-Image 只需 6GB 显存即可在量化配置下运行。

这相当于 RTX 2060 的性能水平——基本上是 2019 年的硬件。根据分辨率的不同,用户最快可以在 30 秒内生成图像。

对于业余爱好者和独立创作者来说,这是一扇以前紧闭的大门。

人工智能艺术界很快就对这个模型给予了赞扬。

“这才是SD3应该有的样子,”用户Saruhey在CivitAI(全球最大的开源AI艺术工具库)上写道。“它对提示的响应非常出色……一个能立即处理文本的模型简直是颠覆性的。它拥有与Flux不相上下甚至更强大的能力,这本身就是魔法。中国人在AI领域遥遥领先。”

Z-Image Turbo 已上市自上周四发布以来,该游戏已获得超过 1200 条好评。作为对比,Flux2——比 Z-Image 早几天发布——已经…….

该模型完全未经任何审查,从零开始制作。名人、虚构人物,以及露骨内容,统统都在考虑范围内。

截至目前,仅在 Civitai 上就有大约 200 个与该模型相关的资源(微调、LoRA、工作流程),其中许多资源不适合工作场所观看。

在Reddit上,用户Regular-Forever5876用一些血腥的提示测试了该模型的极限,结果惊呆了:“我的天哪!!!这东西对血腥场面的理解简直绝了!它能完美地生成血腥画面!”.

Z-Image Turbo 的技术秘诀在于其 S3-DiT 架构——一种单流 Transformer 模型,它从一开始就将文本和图像数据一起处理,而不是稍后合并。这种紧密集成,结合先进的数据蒸馏技术,使得该模型能够达到通常需要五倍于其规模的模型才能达到的质量基准。

模型测试

我们对 Z-Image Turbo 进行了多维度的广泛测试。以下是我们的发现。

速度:SDXL 速度,次世代品质

Z-Image Turbo 采用九步生成图像,其速度与 SDXL 的通常 30 步生成图像的速度大致相同——SDXL 是 2023 年推出的一款机型。

区别在于,Z-Image 的输出质量与 Flux 相当甚至更胜一筹。在一台配备 RTX 2060 GPU 和 6GB 显存的笔记本电脑上,处理一张图像耗时 34 秒。

相比之下,Flux2 生成类似图像所需的时间大约是原来的十倍。

现实主义:新的标杆

Z-Image Turbo 是目前消费级硬件上最逼真的开源模型。它完全超越了 Flux2,而且其基础精简模型的性能也优于 Flux 的各种专门针对真实性进行微调的版本。

皮肤和头发纹理看起来细致自然。臭名昭著的“Flux下巴”和“塑料皮肤”基本消失了。身体比例匀称,而且用于进一步增强真实感的LoRA渲染器也已开始流通。

文本生成:终于,有了有效的词语

这正是 Z-Image 的真正优势所在。它是最好的开源图像内文本生成模型,性能与谷歌的 Nanobanana 和 Seedream 不相上下——而这两款模型正是目前的行业标准。

对于普通话使用者来说,Z-Image 无疑是最佳选择。它能原生理解中文,并正确渲染字符。

专业提示:一些用户报告称,用普通话进行提示实际上有助于模型产生更好的输出,开发人员甚至发布了一个普通话的“提示增强器”。

英文文本同样强大,只有一个例外:像“decentralized”这样不常见的长词可能会让它出错——Nanobanana 也存在同样的局限性。

空间感知能力和快速响应能力:卓越

Z-Image 的响应速度非常出色。它对风格、空间关系、位置和比例的理解极其精准。

例如,考虑以下提示:

一只戴着红帽子的狗站在一台电视机上,屏幕上显示着“Decrypt 是世界上最好的加密货币与人工智能媒体网站”。左边,一位身穿职业套装的金发女子手里拿着一枚硬币;右边,一个机器人站在一个急救箱上,箱子后面是一个绿色的金字塔。整个场景超现实。一只猫倒立在一个白色足球上,就在狗的旁边。一位美国宇航局的宇航员举着一块写着“Emerge”(现身)的牌子,放在机器人旁边。

值得注意的是,它只有一个拼写错误,可能是由于语言混合造成的,但除此之外,所有元素都准确地呈现了出来。

画面溢出现象极少,即使是包含多个主体的复杂场景也能保持清晰度。在这方面,它优于 Flux,并且与 Nanobanana 相比毫不逊色。

接下来会发生什么?

阿里巴巴计划发布另外两个版本:用于微调的 Z-Image-Base 和用于基于指令的修改的 Z-Image-Edit。如果它们能像 Turbo 一样完善,开源格局将会发生翻天覆地的变化。

目前来看,社区的结论很明确:Z-Image 已经取代 Flux 成为行业翘楚,就像 Flux 曾经取代 Stable Diffusion 一样。

真正的赢家将是能够吸引最多开发者在其平台上进行开发的人。

但如果你问我们,是的,Z-Image 是我们目前最喜欢的面向家庭用户的开源模型。

免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复

(0)
上一篇 2025年12月2日 上午10:54
下一篇 2025年12月2日 上午10:54

相关推荐

风险提示:理性看待区块链,提高风险意识!