过于低调的文生图工具：腾讯混元大模型。-夜影资源

过于低调的文生图工具：腾讯混元大模型。

过于低调的文生图工具：腾讯混元大模型。

0339

8个月前更新

前几天，腾讯混元DiT模型宣布开源训练代码，同时还宣布开源混元 DiT LoRA 小规模数据集训练方案和可控制插件 ControlNet。

腾讯混元文生图还是国内首个中文原生的 DiT架构文生图开源模型，用户在通过混元的 DiT训练代码进行精调的时候，可以直接使用中文的数据与标签，无需再将数据翻译成英文。

别的我就不多说了，光是这一点，就足以对腾讯喊一声：牛X。

可能很多人并不太知道什么是DiT架构，其实作为非计算机专业的人，特别还不是理科出身的，这些概念我也研究了好长时间，今天算是献丑吧，简单科普一下。

DiT架构，即Diffusion Transformer架构，是一种结合了Transformer架构的扩散模型，主要用于图像和视频生成任务。它能够高效地捕获数据中的依赖关系并生成高质量的结果。

这里面还提到了一个词，Transformer。Transformer架构是一种深度学习模型架构，主要用于自然语言处理（NLP）和其他序列到序列的任务。问题来了，这句话啥意思呢，举个栗子：

自然语言处理：如机器翻译、文本摘要、情感分析等。
其他序列到序列的任务如语音识别、图像描述生成等。

我们所熟知的ChatGPT就是基于Transformer架构开发的，而ChatGPT中GPT的英文全称是Generative Pre-Trained Transformer(生成式预训练Transformer模型)，具体啥意思不详细讲了，简单来说就是可以进行数据训练的、文本生成的深度模型模型。

此前，腾讯混元文生图大模型已经在Github等平台发布，才一个月的时间Github Star数达到2.4k。

图片[1]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

那刚才说的LoRA模型和ControlNet又是啥呢？

1、LoRA模型

全称Low-RankAdaptation of Large Language Models，是一种用于微调大型语言模型的低秩适应技术。

大概意思就是使用几张照片，设计固定好一个专属形象，模样不动的情况下，对服饰、妆容、动作进行微调。

或者说一种固定的风格，主体会随着不同情况进行更换，比如草间弥生的大原点风格，可以设计成茶杯、书包、家用电器、盲盒等。

比如说青花瓷风格，可以设计成盘子、香插、书本等等。

如果有用过AI 写真的小伙伴会发现，在使用AI写真的时候，你是要上传十几张自己的各角度照片去训练模型，这就是在训练LoRA模型。

混元DiT本次发布的专属LoRA插件，支持开发者最少仅需一张图即可创作出专属的模型。比如，导入四张青花瓷图片与相应的提示词，即可完成模型训练，创建了一个“青花瓷”生成模型：用户输入简单提示词，即可生成想要的青花瓷图像。

部分训练数据：

图片[2]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

训练后模型的推理结果示例：

图片[3]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

2、ControlNet插件

ControlNet插件是一种基于神经网络的插件，用于更精细地控制生成图像的各种参数，如人物姿势、景深、线稿上色等。

目前，腾讯混元提供了能提取与应用图像的边缘（canny）、深度（depth）、人体姿势（pose）等条件的三个首发ControlNet模型，让开发者直接使用其进行推理。

图片[4]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

其实今天我并不是来科普这些知识的，差点跑偏了……

我就是想感叹一下腾讯混元的文生图多么好用：

1、先看来速度。

图片[5]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

早上 7 点钟，我让它生成一副宫保鸡丁的图片，掐着时间看了一下，7.66 秒钟！快啊……

再来一个，北京故宫的早上，时间 8.52 秒……总之一个字：绝。

图片[6]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

2、人像

一个中国的 4 岁女孩，穿着古装长衫，大眼睛，中古古代，摄影风格，汉服。

图片[7]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

一个中国男青年在飞机场，穿着休闲装，背着双肩包，机场内部，摄影风格，高度详细。

图片[8]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

生成一个中国中老年男人在乡野，穿着朴素，站在稻田旁，远处山峦，近景，摄影风格，摄影照片，高度真实。

图片[9]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

真是……又快又准又好，谁看了不说一句炸裂。

3、真实场景

桂林丽江的山水，江上游一艘小船，摄影风，真实感。

图片[10]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

雪山，高耸入云，白雪皑皑，远景，摄影风格，摄影照片，极度真实。

图片[11]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

4、古诗词

我觉得这是最厉害的！！混元能识别到中国的古诗词！不愧是国内首个中文原生的文生图模型！

「锄禾日当午，汗滴禾下土。」

图片[12]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

「轻舟已过万重山，水墨画风格。」

图片[13]-过于低调的文生图工具：腾讯混元大模型。-夜影资源

腾讯混元文生图，在人像真实感、场景真实感上有比较明显的优势。同时在中国风景、动漫游戏等场景生成上也有比较好的表现。业界公认难度较高的人脸画像生成上，混元文生图也交出了比较令人满意的作品。

总而言之，就是觉得混元太低调了……在今年的高考作文对比中，元宝在作文写作能力上出圈了，能力远远超过其他大模型～

现在知道的人还是太少了，加油啊小企鹅，看好你！！！

附腾讯混元开源文生图大模型项目链接

官网：

https://dit.hunyuan.tencent.com/

代码：

https://github.com/Tencent/HunyuanDiT

模型：

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

论文：

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

数据制作流程：

https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

© 版权声明

1、本网站名称：夜影资源

2、本站永久网址：https://www.maikeking.top/

3、本站文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系客服微信：maike500E 进行删除处理。

4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。

5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向客服举报

6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

7、更多网赚项目可关注公众号：夜影科技

THE END

喜欢就点赞支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容