分享
CVPR022 Generative Image Dynamics
输入“/”快速插入内容
CVPR022 Generative Image Dynamics
用户5190
用户5458
用户8186
2024年6月4日修改
🥈这篇文章是机智流CVPR2024 best paper预测率第二的文章。今天就来带大家一起解读下这篇论文。
论文链接:
https://arxiv.org/abs/2309.07906
1.
一起来看看Demo效果吧~
这篇文章是Google Research发表在今年CVPR2024上的文章,现在并没有开源代码可供参考。但在他们的导览页面上,现在已经公布了Demo。现在让我们一起来看看Demo效果吧!
2.
作者的心路历程,为什么要这个工作?
这是为了能有更加形象的视觉合成方法,因为自然界是运动的,即使看似静止的场景也会因风、水流、呼吸或其他自然节奏而包含微妙的振荡。模拟这种运动在视觉内容合成中至关重要——人类对运动的敏感性会导致没有运动的图像看起来不真实。作者也在文章里和其他文生视频,文生图方法做了对比。主观评测下,Generative Image Dynamics方法生成的动图更具真实性。
3.
让我们来简单的看看这个方法吧
文章最开始的图片很好的诠释了本文的方法,输入一张图片。对这张图片做傅立叶变换转换到频域,在不同的频率下通过LDM模型(对的,就是图像生成的那个LDM)获得图像的光谱。通过光谱在类似UNet的模型上生成了后续时间下的新图像。
频域进行分析的优势是,频域可以把不同的运动通过频域拆解开(比如频率低的运动就是一些缓慢的大范围的运动。频率高的运动就是一些快速范围小的运动),这样就可以对不同运动分别进行分析生成。类似的低频高频拆解的操作在神经辐射场里也有体现,神经辐射场把不同的输入用低频到高频的谐波进行位置编码,来获得更高频更细微的特征。
光谱进行分析的原因是,光谱能很好刻画运动模式。使用光谱,我们就能方便的在频域分析运动,并转换回时域生成新的图像。
4.
更深入的拆解这个方法
4.1
运动表示
本文首先对运动纹理进行建模。
这代表输入的图像在时间的变化下。t从1到T,图像本身是如何变化的。更细致的说,F函数描述了每一个时间戳,图像里的每一个像素是如何变化的。从一个时间,变化到另一个时间,可以用公式抽象如下表示:
作者并没有沿用之前视频生成的方法,包括像自回归生成视频帧和加入时间戳生成视频帧。这两种方法并不能保证生成视频帧的一致性。本文作者从自然界的运动开始分析,发现自然界的运动可以分解成不同频率周期的运动叠加。所以在频域中对自然运动进行建模分析。