5月16日消息,腾讯今日正式推出了业内首个实现毫秒级响应的实时生图大模型——混元图像2.0(Hunyuan Image2.0),该模型已在腾讯混元官方网站上线,并对外开放注册体验。这一创新技术的发布,标志着AI图像生成领域迈入了一个全新的实时交互时代。
腾讯混元图像2.0的最大亮点在于其前所未有的生图速度。相比前代模型,新模型参数量提升了一个数量级,并借助超高压缩倍率的图像编解码器以及全新扩散架构,实现了生图速度的显著提升。在同类商业产品每张图推理速度仍需5到10秒的情况下,腾讯混元图像2.0已经能够做到毫秒级响应。这意味着用户可以在打字或说话的同时,即时看到生成的图像,彻底改变了传统“抽卡—等待—抽卡”的图像生成方式,为用户带来了前所未有的流畅体验。
除了速度上的飞跃,腾讯混元图像2.0在图像生成质量上也实现了显著提升。通过强化学习等先进算法以及引入大量人类美学知识对齐,生成的图像不仅真实感强,而且细节丰富、可用性高。在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准GenEval上,腾讯混元图像2.0的准确率超过95%,远超其他同类模型,展现了其卓越的图像生成能力。
腾讯混元图像2.0还引入了多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化caption系统,能够深入理解用户的文本输入,并精准推测出用户希望画面如何表达。即使是一句话中包含的多层含义,模型也能一一拆解并生动呈现。此外,该模型还支持语音直接输入提示词,系统将语音自动转写为文字后即时生成图像,这一功能特别适用于直播讲解、移动创作等场景。用户还可以上传草图作为参考,模型能自动识别线稿的结构与构图逻辑,结合提示词内容补全光影、材质、背景等细节,迅速扩展成图。