过于低调的文生图工具:腾讯混元大模型。

过于低调的文生图工具:腾讯混元大模型。

前几天,腾讯混元DiT模型宣布开源训练代码,同时还宣布开源混元 DiT LoRA 小规模数据集训练方案和可控制插件 ControlNet。

腾讯混元文生图还是国内首个中文原生的 DiT架构文生图开源模型,用户在通过混元的 DiT训练代码进行精调的时候,可以直接使用中文的数据与标签,无需再将数据翻译成英文。

别的我就不多说了,光是这一点,就足以对腾讯喊一声:牛X。

可能很多人并不太知道什么是DiT架构,其实作为非计算机专业的人,特别还不是理科出身的,这些概念我也研究了好长时间,今天算是献丑吧,简单科普一下。

DiT架构,即Diffusion Transformer架构,是一种结合了Transformer架构的扩散模型,主要用于图像和视频生成任务。它能够高效地捕获数据中的依赖关系并生成高质量的结果。

这里面还提到了一个词,Transformer。Transformer架构是一种深度学习模型架构,主要用于自然语言处理(NLP)和其他序列到序列的任务。问题来了,这句话啥意思呢,举个栗子:

  • 自然语言处理:如机器翻译、文本摘要、情感分析等。

  • 其他序列到序列的任务如语音识别、图像描述生成等。

我们所熟知的ChatGPT就是基于Transformer架构开发的,而ChatGPT中GPT的英文全称是Generative Pre-Trained Transformer(生成式预训练Transformer模型),具体啥意思不详细讲了,简单来说就是可以进行数据训练的、文本生成的深度模型模型。

此前,腾讯混元文生图大模型已经在Github等平台发布,才一个月的时间Github Star数达到2.4k。

图片[1]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

那刚才说的LoRA模型和ControlNet又是啥呢?

1、LoRA模型

全称Low-RankAdaptation of Large Language Models,是一种用于微调大型语言模型的低秩适应技术。

大概意思就是使用几张照片,设计固定好一个专属形象,模样不动的情况下,对服饰、妆容、动作进行微调

或者说一种固定的风格,主体会随着不同情况进行更换,比如草间弥生的大原点风格,可以设计成茶杯、书包、家用电器、盲盒等。

比如说青花瓷风格,可以设计成盘子、香插、书本等等。

如果有用过AI 写真的小伙伴会发现,在使用AI写真的时候,你是要上传十几张自己的各角度照片去训练模型,这就是在训练LoRA模型。

混元DiT本次发布的专属LoRA插件,支持开发者最少仅需一张图即可创作出专属的模型比如,导入四张青花瓷图片与相应的提示词,即可完成模型训练,创建了一个“青花瓷”生成模型:用户输入简单提示词,即可生成想要的青花瓷图像。

部分训练数据:

图片[2]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

训练后模型的推理结果示例:

 

图片[3]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

2、ControlNet插件

ControlNet插件是一种基于神经网络的插件,用于更精细地控制生成图像的各种参数,如人物姿势、景深、线稿上色等。

目前,腾讯混元提供了能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件的三个首发ControlNet模型,让开发者直接使用其进行推理。

图片[4]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

其实今天我并不是来科普这些知识的,差点跑偏了……

我就是想感叹一下腾讯混元的文生图多么好用:

1、先看来速度。

图片[5]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

早上 7 点钟,我让它生成一副宫保鸡丁的图片,掐着时间看了一下,7.66 秒钟!快啊……

再来一个,北京故宫的早上,时间 8.52 秒……总之一个字:绝。

图片[6]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

2、人像

一个中国的 4 岁女孩,穿着古装长衫,大眼睛,中古古代,摄影风格,汉服。

图片[7]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

一个中国男青年在飞机场,穿着休闲装,背着双肩包,机场内部,摄影风格,高度详细。

图片[8]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

生成一个中国中老年男人在乡野,穿着朴素,站在稻田旁,远处山峦,近景,摄影风格,摄影照片,高度真实。

图片[9]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

真是……又快又准又好,谁看了不说一句炸裂。

3、真实场景
桂林丽江的山水,江上游一艘小船,摄影风,真实感。
图片[10]-过于低调的文生图工具:腾讯混元大模型。-夜影资源
雪山,高耸入云,白雪皑皑,远景,摄影风格,摄影照片,极度真实。
图片[11]-过于低调的文生图工具:腾讯混元大模型。-夜影资源
4、 古诗词
我觉得这是最厉害的!!混元能识别到中国的古诗词!不愧是国内首个中文原生的文生图模型!
「锄禾日当午,汗滴禾下土。」

图片[12]-过于低调的文生图工具:腾讯混元大模型。-夜影资源

「轻舟已过万重山,水墨画风格。」

图片[13]-过于低调的文生图工具:腾讯混元大模型。-夜影资源
腾讯混元文生图,在人像真实感、场景真实感上有比较明显的优势。同时在中国风景、动漫游戏等场景生成上也有比较好的表现。业界公认难度较高的人脸画像生成上,混元文生图也交出了比较令人满意的作品。
总而言之,就是觉得混元太低调了……在今年的高考作文对比中,元宝在作文写作能力上出圈了,能力远远超过其他大模型~
现在知道的人还是太少了,加油啊小企鹅,看好你!!!
 
附 腾讯混元开源文生图大模型项目链接
官网:
https://dit.hunyuan.tencent.com/
代码:
https://github.com/Tencent/HunyuanDiT
模型:
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文:
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
数据制作流程:
https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

 

© 版权声明
THE END
喜欢就点赞支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情图片

    暂无评论内容