超越 Nano Banana，这个国产 AI 刚刚拿下全球生图第一 | 附详细体验(超越∞的数) |科技 |Nano |国产 |全球 |混元 |modelId

这几天 AI 圈都在被 Sora 2 刷屏，没想到国产 AI 也悄咪咪地干了票大的。

腾讯的混元图像大模型 3.0，才发布一周，就在全球最硬核的 AI 竞技场 LMArena 上杀疯了——在26 个全球顶级模型混战，拿下文生图全球榜单的 Top 1！

这可不是什么野榜，LMArena 是加州大学伯克利分校搞的，纯靠全球网友「盲测」投票，谁好谁坏，全凭真实体验说话。

简单说，就是把所有模型的名字都遮住，让你凭感觉二选一，选出你更喜欢的那张图。这种机制下拿第一，含金量可想而知。

LMArena 官方也发文祝贺，说这是「文生图排行榜大洗牌」，称混元图像 3.0 已经超过了 Google 爆火的 nano banana。

腾讯这个开源模型实打实把一众顶级闭源模型都给「干沉默」了.

APPSO 也深度体验了混元图像大模型 3.0，再次分享给大家。中秋佳节将至，不妨用它来传达些有意思的祝福，APPSO 预祝大家团团圆圆阖家欢乐。

混元图像 3.0 的最大的亮点是，不仅能画图，还能准确「理解」，和利用世界知识「推理」。

比如我们想做一张广告海报，它能把商品画出来，还顺手把文字排版好；想做一套漫画，输入一句话，它就能帮我们画好分镜。

听起来是很强，但也让人好奇，它真能替代设计师吗？还是只是多了点「聪明」的生图？

毕竟我们手上已经有 nano banana 这样强大的图像编辑模型，更不用说其他层出不穷的生图模型。

体验地址： https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

在开始我们的实测之前，先看看这次 3.0 更新了什么内容。

这是首个开源的工业级原生多模态生图模型。多模态的能力，意味着它不仅能画画，还具备语言模型的理解和推理能力，在画之前，它可以先想清楚要画什么。

开源方面，混元图像 3.0 的体量和能力都处于最前列，参数规模高达 80B，是目前最大的开源生图模型。

腾讯混元图像 3.0 模型框架图，80B 参数的 MoE 结构

原生多模态架构，也让一个模型，就可以同时处理文字、图像、视频、音频的输入输出，而不是把几个不同模型拼凑在一起；

此外，文本生成的能力，也是混元图像 3.0 的一大主打，它号称能解析千字级别的复杂语义内容，精确生成长文本文字。

腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向，它就能用常识和世界知识把画面补全，生成真实、细腻、带有美学质感的图像。

采用了常用于评估图像生成效果的 GSB（好/一样/差）评价方法。总共使用了1000 个文本提示，100 多名专业评估人员，混元图像 3.0 与 nano banana 和字节跳动的 Seedream，以及 GPT-IMG 对比，一样好的情况占比最多，而深灰色部分，则代表混元图像 3.0 更好，浅灰色代表用来对比的模型更好。

光说不练假把式。从常识到创意，从专业到玩梗，我们用不同的提示词，全方位地测试了这个混元图像 3.0 模型的生图能力，结果低估它了？