一文读懂昆仑万维Skyreels V2视频生成大模型(1/2)

在如今这个人工智能飞速发展的时代,各种新奇的技术和产品不断涌现。其中,ai视频生成技术更是备受瞩目,它让我们普通人也能轻松创作出高质量的视频内容。而昆仑万维的skyreels v2视频生成大模型,无疑是这个领域的一颗璀璨明星。今天,咱们就用最通俗易懂的大白话,来聊聊这个超级厉害的大模型。

一、为啥skyreels v2这么牛?

(一)解决了视频生成的老大难问题

在skyreels v2出现之前,ai视频生成技术一直被几个大难题困扰着。首先就是提示词遵循能力不足。啥意思呢?比如说你想让ai生成一个“宇航员在火星漫步,周围有沙尘暴正在形成,要有电影质感”的视频,结果生成出来的视频要么和你说的完全不一样,要么只是勉强沾点边,这就是提示词遵循能力差的表现。这种情况在以前的ai视频生成中太常见了,创作者们常常为了让生成的视频符合自己的想法,反复修改提示词,可效果还是不尽人意。

还有就是视觉质量和运动动态难以兼顾。有些视频生成模型生成的视频画面看起来很清晰,但是里面的人物或者物体运动起来特别不自然,就像在看木偶戏一样;而有些模型生成的运动画面倒是挺流畅,可画面质量却很差,模糊不清,噪点还很多。想象一下,你看一个电影,画面一会儿模糊得看不清人脸,一会儿人物动作又像机器人一样僵硬,那观影体验得多差。

另外,视频时长也是个大问题。以前的ai视频生成模型,生成的视频时长通常只有5 - 10秒,这么短的时长,根本没办法用来创作完整的故事或者复杂的内容,最多只能生成一些小片段,实用性大打折扣。像一些想要制作短剧或者微电影的创作者,这点时长完全满足不了他们的需求。

而skyreels v2就像一个超级英雄,把这些难题都给解决了。它不仅能准确理解你输入的提示词,生成和你描述高度相符的视频,还能在保证视觉质量高清、色彩准确、结构完整的同时,让视频里的运动画面自然流畅,符合物理规律。更厉害的是,它支持生成30秒、40秒的视频,而且理论上还能实现无限时长的视频生成,这可就为视频创作打开了一扇全新的大门。比如你想制作一个有完整剧情的短剧,skyreels v2就能帮你生成足够时长的视频,让你的故事完整地展现出来。

(二)给创作者带来了超多便利

对于广大视频创作者来说,skyreels v2简直就是一个创作神器。以前,创作一个高质量的视频,不仅需要专业的拍摄设备、剪辑软件,还得掌握各种拍摄技巧和剪辑手法,门槛非常高。就算你具备了这些条件,创作过程也非常繁琐,需要花费大量的时间和精力。比如拍摄一个简单的广告视频,可能需要先找演员、租场地,然后拍摄各种镜头,再把这些镜头导入电脑,用专业的剪辑软件进行剪辑、调色、添加特效等等,整个过程下来,没个几天时间根本搞不定。

现在有了skyreels v2,一切都变得简单多了。只要你有一个创意,把它用文字描述出来,输入到模型里,它就能快速帮你生成一个高质量的视频。不管你是想制作电影、广告、短剧,还是音乐视频、虚拟电商展示视频,它都能轻松胜任。比如说,你是一个自媒体创作者,想要制作一个有趣的短视频来吸引粉丝,你只需要把你脑海中的创意告诉skyreels v2,它就能帮你把想法变成现实,大大节省了创作时间和成本。又比如,你是一个电商商家,想要为自己的产品制作一个精美的展示视频,skyreels v2也能在短时间内帮你搞定,让你的产品更具吸引力。有商家反馈,用skyreels v2生成产品展示视频后,店铺的流量和销量都有了明显的提升。

二、skyreels v2是怎么做到这么牛的?

(一)独特的技术架构

1. 强大的视频理解模型:skycaptioner-v1

skyreels v2有一个非常厉害的“大脑”,那就是影视级视频理解模型skycaptioner-v1。这个模型就像是一个超级电影迷,对各种电影场景、镜头语言了如指掌。它采用了一种很独特的结构化视频表示方法,把多模态大语言模型的一般描述和子专家模型的详细镜头语言结合在了一起。

这有什么好处呢?举个例子,当你输入一个提示词,比如“一个女孩在花园里开心地跳舞,阳光洒在她身上,周围的花朵随风摇曳”,skycaptioner-v1就能像一个专业的导演一样,精准地识别出视频里的主体是女孩,她的动作是跳舞,表情是开心的,周围的环境有花园、花朵,阳光的照射情况等等。而且,它还能理解像“推镜头”“摇摄”这样的专业镜头语言,知道在什么时候该用什么样的镜头来展现画面,这就大大提高了生成视频对提示词的遵循能力,让生成的视频和你想要的效果更加接近。

为了让skycaptioner-v1变得这么厉害,研发团队可是下了大功夫。他们找了很多专业的人对大量的视频进行人工标注,然后用这些标注好的数据来训练模型,让它不断学习和进步。现在,这个模型已经开源了,其他开发者也可以用它来开发自己的应用,这就促进了整个ai视频生成领域的发展。有开发者基于skycaptioner-v1开发出了专门用于视频内容分析的工具,帮助视频创作者更好地理解自己的作品。

2. 运动质量偏好优化技术

以前的视频生成模型在运动质量方面表现都不太好,生成的视频里人物或者物体的运动总是怪怪的,看起来很不真实。skyreels v2为了解决这个问题,采用了一种运动质量偏好优化技术。

它通过强化学习训练框架,就像是给模型请了一个严格的体育教练,让它不断地学习和改进。同时,为了让模型学习到更真实、更合理的运动数据,团队还使用了人工标注和合成失真数据。比如说,他们会把一些运动不合理、动态扭曲的视频找出来,然后人工标注出问题所在,再用这些数据来训练模型,让它知道什么样的运动是好的,什么样的是不好的。

为了降低数据标注的成本,团队还设计了一个很巧妙的半自动数据收集管道。这个管道就像是一个高效的数据收集工厂,能够快速地生成偏好对比数据对。它主要通过三种方式来生成数据:i2v distortion,就是基于图像到视频生成的失真数据;t2v distortion,基于文本到视频生成的失真数据;还有人工标注修正,就是让专业人员对一些关键的运动序列进行标注。通过这些数据训练奖励模型并进行直接偏好优化,skyreels v2在运动动态性、流畅性和物理合理性方面都表现得非常出色,生成的运动内容就像我们在现实生活中看到的一样自然流畅。在一些生成的动作视频中,人物的奔跑、跳跃等动作非常自然,和真实拍摄的几乎没有区别。

3. 扩散强迫(diffusion-forcing)框架

skyreels v2能实现长视频生成,最关键的技术就是它的扩散强迫框架。这个框架就像是一个神奇的魔法棒,让视频生成变得又快又好。

和传统的视频生成方法不同,skyreels v2不是从零开始训练扩散强迫模型,而是通过微调预训练的扩散模型,把它转化为扩散强迫模型。这就好比你已经有了一个半成品的房子,你只需要在这个基础上进行一些装修和改造,就能让它变成你想要的样子,这样不仅节省了大量的时间和精力,还能提高生成效率。

为了实现长视频的高效生成,团队还采用了一种非递减噪声时间表。这个时间表就像是一个精密的时钟,它把连续帧的去噪时间表搜索空间从非常大的o(1e48)大幅降低到o(1e32)。这样一来,模型就能更快速、更准确地生成长视频内容,而且还能保证视频在时间上的连贯性和稳定性。它的工作原理是为每个帧分配独立的噪声水平,然后通过精心设计的噪声调度策略,确保视频序列在生成过程中不会出现错误累积的问题。比如说,它会在前一帧添加轻微的噪声,让生成过程更加稳定,就像在跑步的时候,每一步都迈得很稳,这样就能跑得更远、更久。在实际生成视频时,即使是生成几分钟的长视频,也不会出现画面卡顿、情节不连贯的情况。

(二)创新的训练策略

1. 丰富的数据来源

skyreels v2之所以这么厉害,离不开它丰富的数据来源。就像一个人要想变得聪明,就得读很多书、学习很多知识一样,模型要想表现出色,也得有大量的数据来训练。

skyreels v2的训练数据主要来自三个方面:通用数据集,这里面整合了很多高质量的开源资源,像ko-36m、humanvid,还有从互联网上爬取的其他视频资源,这些数据就像是一本本百科全书,涵盖了各种各样的场景和动作,为模型提供了广泛的基础视频素材;自收集媒体,这可是一个超级大的影视资源库,里面有280,000多部电影和800,000多集电视剧,覆盖了120多个国家,总时长超过620万小时,这些丰富的影视内容让模型学习到了各种电影风格和叙事结构;艺术资源库,这里面的视频都是从互联网上精选出来的高质量视频资产,它们的视觉质量都达到了专业标准,就像一个个艺术珍品,让模型能够生成高质量的视频内容。通过这些丰富的数据训练,skyreels v2对各种场景和风格都有了深刻的理解,能够生成出更加多样化和高质量的视频。

2. 渐进式分辨率预训练与多阶段后训练优化

skyreels v2的训练过程就像是一场精心策划的马拉松比赛,分为好几个阶段,每个阶段都有不同的目标和任务。

首先是渐进式分辨率预训练,这就像是马拉松比赛的热身阶段。模型会从低分辨率的视频数据开始训练,逐渐提高分辨率,这样可以让模型更好地学习视频的基本特征和规律,就像运动员在热身的时候,先慢慢地活动身体,适应运动的节奏。从低分辨率开始训练,模型可以先掌握视频的大致结构和基本元素,随着分辨率的提高,再逐渐学习到更精细的细节。

然后是四阶段的后训练增强:

- 初始概念平衡的监督微调(sft):这个阶段就像是给模型打基础,通过概念平衡的数据集进行微调,让模型对各种概念有更准确的理解,为后续的优化提供一个良好的初始化。比如让模型对各种物体、场景、动作等概念有清晰的认知,这样在生成视频时才能更准确地表现出来。

本章未完,点击下一页继续阅读。