让AI依据一个画面,就推测出后边的内容,这个感觉是不是和让AI写文章有点相似?
他们使用自回归Transformer的办法,经过输入单个场景图画和摄像机运动轨道,让生成的每帧画面与运动轨道方位一一对应,然后组成出一个远距离的长镜头效果。
VQ-GAN是一个根据Transformer的图画生成模型,其最大特点是生成的图画十分高清。
在这部分,编码器会将图画编码为离散表明,****将表明映射为高保真输出。
第二阶段,在将图画处理成token后,研讨人员用了相似GPT的架构来做自回归。
详细练习过程中,要将输入图画和开始相机轨道方位编码为特定模态的token,一起增加一个解耦的方位输入P.E.。
研讨人员发现,并非每个轨道时间生成的帧都相同重要。因而,他们还使用了一个局部性束缚来引导模型更专心于关键帧的输出。
根据两帧画面所对应的摄像机轨道方位,研讨人能定位堆叠帧,并能确认下一帧在哪。
这种办法会使得在优化时更简单,并且对确保生成画面的一致性上,起到了至关重要的效果。
在融化试验上,成果显现该办法在Matterport3D数据集上,相机感知误差宽和耦方位的嵌入,都对进步图画质量和帧与帧之间的一致性有所协助。
他曾在微软亚研院实习过,2021年暑期与Xiaolong Wang教授有过协作。
研讨爱好有计算机视觉、机器学习和机器人等。特别自我监督学习、视频了解、常识推理、强化学习和机器人技能等范畴。
*博客内容为网友个人发布,仅代表博主个人自己的观念,如有侵权请联络工作人员删去。