CVPR 2022｜只用一张图+相机走位AI就能脑补周围环境！_智慧地灾

　　让AI依据一个画面，就推测出后边的内容，这个感觉是不是和让AI写文章有点相似？

　　他们使用自回归Transformer的办法，经过输入单个场景图画和摄像机运动轨道，让生成的每帧画面与运动轨道方位一一对应，然后组成出一个远距离的长镜头效果。

　　VQ-GAN是一个根据Transformer的图画生成模型，其最大特点是生成的图画十分高清。

　　在这部分，编码器会将图画编码为离散表明，****将表明映射为高保真输出。

　　第二阶段，在将图画处理成token后，研讨人员用了相似GPT的架构来做自回归。

　　详细练习过程中，要将输入图画和开始相机轨道方位编码为特定模态的token，一起增加一个解耦的方位输入P.E.。

　　研讨人员发现，并非每个轨道时间生成的帧都相同重要。因而，他们还使用了一个局部性束缚来引导模型更专心于关键帧的输出。

　　根据两帧画面所对应的摄像机轨道方位，研讨人能定位堆叠帧，并能确认下一帧在哪。

　　这种办法会使得在优化时更简单，并且对确保生成画面的一致性上，起到了至关重要的效果。

　　在融化试验上，成果显现该办法在Matterport3D数据集上，相机感知误差宽和耦方位的嵌入，都对进步图画质量和帧与帧之间的一致性有所协助。

　　他曾在微软亚研院实习过，2021年暑期与Xiaolong Wang教授有过协作。

　　研讨爱好有计算机视觉、机器学习和机器人等。特别自我监督学习、视频了解、常识推理、强化学习和机器人技能等范畴。

　　*博客内容为网友个人发布，仅代表博主个人自己的观念，如有侵权请联络工作人员删去。

[下一篇] 未来5年最好工作的5个专业