28日,腾讯把自家800亿参数的工业级原生多模态生图模型,HunyuanImage 3.0,给开源了,个人和公司都能免费用(月活≤1亿)。

这是目前全球参数量最大、性能最好的开源图像生成模型,也是第一个敢说自己是工业级的开源原生多模态生图模型。

媲美业界顶级的闭源模型,中英文的精准渲染和超长文本的理解能力是一大亮点。

️世界知识推理、MoE架构等技术加持

混元图像3.0的底层架构用的异构MoE架构,同时搞了个混合路由策略。

除了MoE,它还用了一种叫Transfusion的方法,把Diffusion(扩散)图像建模技术塞进了LLM的架构里。

混元图像3.0用一套统一的自回归框架,实现了端到端的学习。

原生多模态:“混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对,视频帧,图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练,使得模型能够充分融合多任务效果,实现超强的语义理解能力,能够响应复杂的长文本,生成长文本文字,同时具有LLM的世界知识,能够利用世界知识进行推理。”

世界知识推理能力。这不是简单地听懂你说的“画一只猫”,而是能理解你说的“画一个九宫格教程,教我怎么素描一只鹦鹉”,甚至能给你图解“爱因斯坦相对论”。它能动用自己的知识储备,把稀疏的提示词,自动补全成一幅细节丰富、逻辑自洽的图像。这在教育、科普、创意设计领域,想象空间巨大。

超长文本理解。它能处理上千个字符的复杂描述。

你写一篇小作文给它,里面包含复杂的场景、多个人物、多层细节要求,它都能给你画出来,而且基本不会漏掉关键信息。这在现有的开源模型里,几乎是独一份。

精确的文字渲染。在图里加字,一直是AI绘画的痛点,要么写出错别字,要么字体歪歪扭扭。混元图像3.0在这方面表现很突出,不管是海报标题、信息图表里的标注,还是品牌logo,甚至中英文混排,都能处理得相当到位。之前的2.1版本准确率就超过了95%,这次的3.0更上一层楼。

多样的艺术风格。无论是追求细节的摄影写实风、脑洞大开的插画设计风、还是需要光影质感的3D渲染风,它都能驾驭。

当然,这么强的模型,对电脑配置的要求也不低。

官方推荐至少需要3张80GB显存的GPU,最好是4张。硬盘得有170GB空间,内存64GB以上。

️混元图像3.0的成色如何?

腾讯用SSAE(结构化语义对齐评估)的机器评测体系来检验混元图像3.0。从12个类别的3500个关键点进行打分。

数据很直观,无论是在平均图像准确率还是全局准确率上,混元图像3.0都与Seedream 4.0,Nano Banana,GPT-Image这些业界闭源顶级选手持平甚至有超越。

在GSB(好/相同/坏)人工评测中,100多位专业评估师对1000个提示词生成的图像(首次生成无挑选)进行盲评。

结论同样明显,认为同样好比例最高,而认为混元更好的比例在与Seedream 4.0和Nano Banana比较时,都更高。

不管是机器打分还是人工盲评,混元图像3.0都证明了自己在图像生成质量、文本理解和艺术表现力上的竞争力。

混元图像3.0完全开源,并且给了商业许可。对于开发者和中小企业来说,可以直接免费用上世界顶级的图像生成技术,大大降低了技术门槛和应用成本。

官方还贴心地整理了一份提示词手册。

️HunyuanImage 3.0 提示词手册

通用的简单提示词撰写规则:避免使用tag形式的提示词,使用自然语言描述想象的场景,万能公式 [主体] + [动作] + [场景] 。

场景玩法:

️●摄影

撰写技巧:主体场景+画质风格+构图视角+光线氛围+技术参数,前后可以接关键词

例如:

️●风格化

HunyuanImage 3.0支持超多风格,以下只列举部分,更多风格等你探索。

提示词技巧:主体场景+画质风格+构图视角+光线氛围+技术参数,前后可以接关键词

️●材质

HunyuanImage 3.0支持不同材质的渲染。

提示词示例:正面视角的构图,3D渲染形式的【xxx】材质的文字"Hunyuan"构成了画面的绝对中心主体,背景是简洁的蓝灰色。

️●中英双语文字渲染

️●长文本渲染

长文本渲染tips:

大段的文字拆成多句并使用多个引号,文字会更准确。文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:

  • 在渲染的文本前使用“第几行写着”、“左边写着”之类提示布局信息的词
  • 修改图片长宽比
  • 换一种内容布局的方式(如左右布局换成上下布局)

️●四宫格漫画

四宫格漫画的提示词遵循以下模版:

  • 开篇表明是四宫格漫画:“一幅黑白四格漫画。”
  • 分格子描述画面:“第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。”
  • 可以展开你的想象,填充细节,这样效果会更好。

️●表情包

表情包的提示词遵循以下模版:

开篇表明是九宫格表情包和风格:“一个像素艺术风格呈现的图像,整体构图为一个标准的九宫格(3x3网格),展示了九个独立的企鹅表情包。”

分行来描述每个格子的表情:“第一行,第一个方格,企鹅呈现出开心的表情,中间方格,……”;“第二行,左侧方格,……,中间方格,……,右侧方格,……”;“第三行,左下角方格,……,中间的……,右下角最后一个方格……”

结尾句:再强调一下风格,增强整体的风格响应:“整体视觉呈现出xxx风格”

若需要表情包配文字,则添加文字的描述:“下方配有文字:“开心””

可以展开你的想象,填充细节,这样效果会更好。

参考资料:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

https://www.tencent.com/zh-cn/articles/2201685.html

https://hub.baai.ac.cn/view/39800

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

https://hunyuan.tencent.com/image

https://huggingface.co/tencent/HunyuanImage-3.0

END