2月15日,OpenAI发布了逆天的文生视频工具Sora,震惊了全球。
短短两个多月的时间,世界大厂们仿佛被踩了尾巴的猫,各个张牙舞爪地秀肌肉,从质疑Sora,到成为Sora,再到追赶Sora的声音此起彼伏,更甚者一些有“经商”头脑的人开始做起了Sora培训的生意……
虽然喊破喉咙我们绝不能服输,但一直也没有实质性的进展,虽说像Pixverse这种已经算是华人之光了,但差距仍然非常明显,特别是在长视频生成方向,仍然在“襁褓”状态。
昨天,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学发布了一条短片,竟然让我们燃起了希望之火……
这是国内首个长时长、高一致性、高动态性视频大模型——「Vidu」。
终于不再是动图了……终于有个像样的视频了,它的最长时间达到了16秒,并且画面效果非常接近Sora,让人非常惊喜,感谢生数科技和清华大学人工智能研究院。
模型采用的是原创Diffusion与Transformer融合的架构U-ViT,分辨率高达1080P,在多镜头语言、时间和空间一致性、遵循物理规律等方面都有不错的表现。
提示词:在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合
虽然时长还差得远,但内容真的和Sora差别不大了。
特别是听说这个团队在Sora发布后成立了攻坚小组,加速了Ai短视频的研发速度,3月份实现了8秒视频生成,4月份实现了16秒……
要知道,Sora并没有公布太多的技术细节,能在这么短的时间内突破,真的要说一句:向你们致敬。
感性放一放,咱们理性地来看一下,我个人理解的Vidu的重大突破。
从三个方面分析一下:一个视频多个镜头、懂得物理规律、多角度一致性。
这是我个人感觉最绝的一点,在这之前,大多数工具文生视频或者图生视频都非常别扭。
不是人物或者物品扭曲,就是听不懂我们说的话,但这段视频展示的效果,真的像一个人拿着手机拍了三段合成一段的感觉。
提示词:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。
在之前OpenAI也放出过类似的视频,大家对汽车稳稳行驶在悬崖边,并且轮胎卷起的尘土印象深刻。
而Vidu的这段视频,也丝毫不输,也能够清晰地看到轮胎卷起的尘土,以及随着汽车前行,光影和树木的变化,虽说画质有点达不到电影级别,但也已经比较接近了。
提示词:镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上行驶土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩
视频的流畅性和连贯性对于观众的观看体验至关重要,它们是构成叙事结构和视觉享受的基础。
在视频制作中,确保人物动作和场景转换的时空一致性是一大挑战。
然而,「Vidu」技术在这一领域取得了突破性进展。这个视频为例,即便是在镜头不断移动的情况下,画面中的猫——作为视频的焦点——其表情和服饰始终保持高度一致性。
整个视频无论在时间上还是在空间上,都展现出了卓越的连贯性和流畅性,显著提升了视频的整体质量和观赏性。这不仅证明了「Vidu」在视频生成技术方面的先进性,也预示着未来视频制作领域的巨大潜力。
提示词:这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的女孩》,画面上戴着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光
我的心情久久还没平静下来,或许有些夸张,真的为国人感到骄傲。
Sora出来的时候我们被群嘲过,说退潮之后才知道谁在裸泳,确实国内的科技水平着实一时半会儿赶不上国外,不过我们真的很努力地在追赶了。
照这个速度,真的无法想象一年以后会发生什么……拭目以待!
暂无评论内容