这几天 AI 圈都在被 Sora 2 刷屏,没想到国产 AI 也悄咪咪地干了票大的。
腾讯的 混元图像大模型 3.0,才发布一周,就在全球最硬核的 AI 竞技场 LMArena 上杀疯了——在26 个全球顶级模型混战, 拿下文生图全球榜单的 Top 1!
这可不是什么野榜,LMArena 是加州大学伯克利分校搞的,纯靠全球网友「盲测」投票,谁好谁坏,全凭真实体验说话。
简单说,就是把所有模型的名字都遮住,让你凭感觉二选一,选出你更喜欢的那张图。这种机制下拿第一,含金量可想而知。
LMArena 官方也发文祝贺,说这是「文生图排行榜大洗牌」,称混元图像 3.0 已经超过了 Google 爆火的 nano banana。
腾讯这个开源模型实打实把一众顶级闭源模型都给「干沉默」了.
APPSO 也深度体验了混元图像大模型 3.0,再次分享给大家。中秋佳节将至,不妨用它来传达些有意思的祝福,APPSO 预祝大家团团圆圆阖家欢乐。
混元图像 3.0 的最大的亮点是, 不仅能画图,还能准确「理解」,和利用世界知识「推理」。
比如我们想做一张广告海报,它能把商品画出来,还顺手把文字排版好;想做一套漫画,输入一句话,它就能帮我们画好分镜。
听起来是很强,但也让人好奇,它真能替代设计师吗?还是只是多了点「聪明」的生图?
毕竟我们手上已经有 nano banana 这样强大的图像编辑模型,更不用说其他层出不穷的生图模型。
体验地址: https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual
在开始我们的实测之前,先看看这次 3.0 更新了什么内容。
这是首个开源的工业级原生多模态生图模型。多模态的能力,意味着它不仅能画画,还具备语言模型的理解和推理能力,在画之前,它可以先想清楚要画什么。
开源方面,混元图像 3.0 的体量和能力都处于最前列,参数规模高达 80B,是目前最大的开源生图模型。
腾讯混元图像 3.0 模型框架图,80B 参数的 MoE 结构
原生多模态架构,也让一个模型,就可以同时处理文字、图像、视频、音频的输入输出,而不是把几个不同模型拼凑在一起;
此外,文本生成的能力,也是混元图像 3.0 的一大主打,它号称能解析千字级别的复杂语义内容,精确生成长文本文字。
腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向,它就能用常识和世界知识把画面补全,生成真实、细腻、带有美学质感的图像。
采用了常用于评估图像生成效果的 GSB(好/一样/差)评价方法。总共使用了1000 个文本提示,100 多名专业评估人员,混元图像 3.0 与 nano banana 和字节跳动的 Seedream,以及 GPT-IMG 对比,一样好的情况占比最多,而深灰色部分,则代表混元图像 3.0 更好,浅灰色代表用来对比的模型更好。
光说不练假把式。从常识到创意,从专业到玩梗,我们用不同的提示词,全方位地测试了这个混元图像 3.0 模型的生图能力,结果低估它了?