28日,腾讯把自家800亿参数的工业级原生多模态生图模型,HunyuanImage 3.0,给开源了,个人和公司都能免费用(月活≤1亿)。
这是目前全球参数量最大、性能最好的开源图像生成模型,也是第一个敢说自己是工业级的开源原生多模态生图模型。
媲美业界顶级的闭源模型,中英文的精准渲染和超长文本的理解能力是一大亮点。
️世界知识推理、MoE架构等技术加持
混元图像3.0的底层架构用的异构MoE架构,同时搞了个混合路由策略。
除了MoE,它还用了一种叫Transfusion的方法,把Diffusion(扩散)图像建模技术塞进了LLM的架构里。
混元图像3.0用一套统一的自回归框架,实现了端到端的学习。
原生多模态:“混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对,视频帧,图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练,使得模型能够充分融合多任务效果,实现超强的语义理解能力,能够响应复杂的长文本,生成长文本文字,同时具有LLM的世界知识,能够利用世界知识进行推理。”
世界知识推理能力。这不是简单地听懂你说的“画一只猫”,而是能理解你说的“画一个九宫格教程,教我怎么素描一只鹦鹉”,甚至能给你图解“爱因斯坦相对论”。它能动用自己的知识储备,把稀疏的提示词,自动补全成一幅细节丰富、逻辑自洽的图像。这在教育、科普、创意设计领域,想象空间巨大。
超长文本理解。它能处理上千个字符的复杂描述。
你写一篇小作文给它,里面包含复杂的场景、多个人物、多层细节要求,它都能给你画出来,而且基本不会漏掉关键信息。这在现有的开源模型里,几乎是独一份。
精确的文字渲染。在图里加字,一直是AI绘画的痛点,要么写出错别字,要么字体歪歪扭扭。混元图像3.0在这方面表现很突出,不管是海报标题、信息图表里的标注,还是品牌logo,甚至中英文混排,都能处理得相当到位。之前的2.1版本准确率就超过了95%,这次的3.0更上一层楼。
多样的艺术风格。无论是追求细节的摄影写实风、脑洞大开的插画设计风、还是需要光影质感的3D渲染风,它都能驾驭。
当然,这么强的模型,对电脑配置的要求也不低。
官方推荐至少需要3张80GB显存的GPU,最好是4张。硬盘得有170GB空间,内存64GB以上。
️混元图像3.0的成色如何?
腾讯用SSAE(结构化语义对齐评估)的机器评测体系来检验混元图像3.0。从12个类别的3500个关键点进行打分。
数据很直观,无论是在平均图像准确率还是全局准确率上,混元图像3.0都与Seedream 4.0,Nano Banana,GPT-Image这些业界闭源顶级选手持平甚至有超越。
在GSB(好/相同/坏)人工评测中,100多位专业评估师对1000个提示词生成的图像(首次生成无挑选)进行盲评。
结论同样明显,认为同样好比例最高,而认为混元更好的比例在与Seedream 4.0和Nano Banana比较时,都更高。
不管是机器打分还是人工盲评,混元图像3.0都证明了自己在图像生成质量、文本理解和艺术表现力上的竞争力。
混元图像3.0完全开源,并且给了商业许可。对于开发者和中小企业来说,可以直接免费用上世界顶级的图像生成技术,大大降低了技术门槛和应用成本。
官方还贴心地整理了一份提示词手册。
️HunyuanImage 3.0 提示词手册
通用的简单提示词撰写规则:避免使用tag形式的提示词,使用自然语言描述想象的场景,万能公式 [主体] + [动作] + [场景] 。
场景玩法:
️●摄影
撰写技巧:主体场景+画质风格+构图视角+光线氛围+技术参数,前后可以接关键词
例如:
️●风格化
HunyuanImage 3.0支持超多风格,以下只列举部分,更多风格等你探索。
提示词技巧:主体场景+画质风格+构图视角+光线氛围+技术参数,前后可以接关键词
️●材质
HunyuanImage 3.0支持不同材质的渲染。
提示词示例:正面视角的构图,3D渲染形式的【xxx】材质的文字"Hunyuan"构成了画面的绝对中心主体,背景是简洁的蓝灰色。
️●中英双语文字渲染
️●长文本渲染
长文本渲染tips:
大段的文字拆成多句并使用多个引号,文字会更准确。文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:
- 在渲染的文本前使用“第几行写着”、“左边写着”之类提示布局信息的词
- 修改图片长宽比
- 换一种内容布局的方式(如左右布局换成上下布局)
️●四宫格漫画
四宫格漫画的提示词遵循以下模版:
- 开篇表明是四宫格漫画:“一幅黑白四格漫画。”
- 分格子描述画面:“第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。”
- 可以展开你的想象,填充细节,这样效果会更好。
️●表情包
表情包的提示词遵循以下模版:
开篇表明是九宫格表情包和风格:“一个像素艺术风格呈现的图像,整体构图为一个标准的九宫格(3x3网格),展示了九个独立的企鹅表情包。”
分行来描述每个格子的表情:“第一行,第一个方格,企鹅呈现出开心的表情,中间方格,……”;“第二行,左侧方格,……,中间方格,……,右侧方格,……”;“第三行,左下角方格,……,中间的……,右下角最后一个方格……”
结尾句:再强调一下风格,增强整体的风格响应:“整体视觉呈现出xxx风格”
若需要表情包配文字,则添加文字的描述:“下方配有文字:“开心””
可以展开你的想象,填充细节,这样效果会更好。
参考资料:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
https://www.tencent.com/zh-cn/articles/2201685.html
https://hub.baai.ac.cn/view/39800
https://docs.qq.com/doc/DUVVadmhCdG9qRXBU
https://hunyuan.tencent.com/image
https://huggingface.co/tencent/HunyuanImage-3.0
END