CVPR 笔记

时间:2024-03-29 14:59:39

SIGGRAPH Asia 今年首次来到内地,于 12月3日在深圳国际会议中心开幕。此次,微软亚洲研究院共有七篇论文入选此次大会,研究员们也会大会现场进行演讲和项目演示。在这里,我们特别挑选了三篇精彩的入选论文,和大家分享一下论文背后的技术设想。他们的共同关注点都是如何利用设备更好地捕捉和呈现现实中的人物和场景,但是每一篇论文的项目都有独特的切入点。

Dynamic Hair Capture using Spacetime Optimization

动作大片中常常会出现这样一个场景,长发飘飘的女神从高楼或飞机上坠落,这时候超级英雄就会突然出现在半空中英雄救美。如此刺激而唯美的画面难道真要好莱坞的大牌们亲自冒险拍摄吗?坠落过程中女神那一头飘逸的秀发又是怎么形成的呢? 第一篇论文 所研究的项目正是与此相关的。

CVPR 2018 笔记

该技术主要内容可简单概括成头发动态运动的捕捉和三维重建。根据项目负责人之一、微软亚洲研究院研究员 王律迪 的介绍,具体来说, 即通过从不同角度拍摄头发在真实场景中的运动视频,在计算机中重建发丝级别的动态三维头发模型。

对于运动中的头发的三维模型重建是极其具有挑战性的。人的头发由超过 10 万根纤细的发丝组成,这些发丝相互遮挡,大部分从外部根本不可见。而在运动中由碰撞、摩擦等引起的发丝间的相互作用更是错综复杂。

之前一些类似的研究简单地将静态头发重建的方法推广到动态,因为没有充分利用时间上的信息,重建的结果一直都不尽如人意。整个项目的研究过程长达一年多,中途尝试过不少方法,却没有任何突破的结果,因为所拍头发运动视频的帧与帧之间,很难对每根头发进行准确地跟踪。但是最终,王律迪和他的同事们想出了解决办法。他们将头发运动视频看作由每帧画面重叠而成的立方体,发现在这个立方体的水平(或竖直)切面上,发丝的运动会留下清晰的轨迹。这些轨迹可以通过特殊的图像算法自动抽取,结合不同拍摄角度的视频,使得对头发运动的捕捉更准确,更稳定。

对于这项技术的应用场景,王律迪表示,头发的运动捕捉和动态三维模型重建将会是未来高质量全人体( full-body )动态重建不可缺少的部分。在电影制作中,根据演员重建的高质量模型使得后期可以随意改变角色所处的场景,光照,甚至拍摄角度。此外,我们方法生成的动态三位头发模型不仅外观和运动与原始视频相符,每根发丝还具有相当程度的真实物理特性,如发根固定在头皮上,长度保持不变等。这使得后期有可能对头发的样式和运动做进一步的编辑(将直发变为卷发,使运动更平滑等等)。最后,这些根据真实头发重建的数据可以帮助研究人员进一步学习和了解头发的运动,甚至用于开发数据驱动的头发运动模拟算法。

Fast Burst Images Denoising

现如今几乎所有的最新型手机都增加了连拍照相功能,让用户可以捕捉每一个精彩瞬间。这项功能同时也能为低光照下拍摄高质量照片提供可能。由于光线较暗的时候,照片往往不是出现噪点,就是出现模糊,不易拍摄出高质量的照片。


CVPR 2018 笔记

这篇论文 主要研究的问题是 如何利用手机或相机的连拍方式,去除照片中出现的噪点和模糊,以对照片质量进行优化。 项目的负责人之一,微软亚洲研究院研究员 袁路 介绍了相关的技术原理,项目研究过程以及研究亮点。

原来的大部分去噪点研究中,所利用的都是一张图片,那么考虑空间上的相似关系,可利用的所有信息也只能来自于那一张特定的图片。当信噪比相对较低的时候,系统根本无法区分噪声和原有的图像信号。但是如今运用多张图片就可以很容易解决这个问题。由于连拍的图片在时间域上有很强的相关性,即使在信号弱的时候,让图片之间彼此空间对齐后,在时间轴上相加,噪点的分布便可以变成零均值,从而达到去除噪声的目的。然而,之前已有研究对“多张图多张出” 和“多张图一张出”都有涉足,但是一直无法找出一种方法,能快速实现图片去噪点同时保证高质量输出的优化目标。另外,在连拍过程中,往往会因为手的抖动或者是拍摄目标的运动而导致每张照片的内容并不是对齐的,这也给去噪的目标带来相当大的难度。

之前的运动估计通常依靠光流(逐点运功估计)或者块匹配(常用于视频压缩的运动估计)的方式。然而它们的计算非常耗时,并且结果容易受到噪声的影响。袁路所在的研究组对相机运动和被拍摄物体运动进行了拆分计算。首先,他们将相机的运动参数化,建立出一个参数模型,从而能非常快的估计出具体运动的相关参数。而针对场景中的物体运动,他们则对每一帧的具体运动进行了分析,针对运动的快慢,算法都能相应地估计出运动物体的精确轮廓。在每个像素时间轴上相加平均的时候,那些位于运动物体轮廓区域的像素都会被排除掉。通过这种简单的方式,他们能有效的解决图片每个像素对齐的问题。除此之外,他们进一步考虑空间上信息相关性,建立了一个多尺度“金字塔”结构,根据图像结构(例如,平滑区域和边缘)的分析,自适应的选择相应的平滑策略,从而达到进一步去除残留噪声的目的。最终,他们的算法将时间轴和空间轴结合在一起,在校正了每一帧的运动之后,得到的便是一幅清晰的图像。

该研究相对于之前许多类似研究来说,在时间和质量上都有了很大的提高。与之前的研究相比,袁路和其他的同事研究的项目在保证画面高质量的同时,在速度上比之前提高了 100 至 1000 倍,即在电脑上处理 10 张 5MB 的图片少于 1 秒种。

另外,该项目的技术已经在 Windows Phone 的 Blink 应用上得到了运用。

Appearance-from-Motion: Recovering Spatially Varying Surface Reflectance under Unknown Lighting

如果在游戏中驾驶着法拉利最高配置赛车在赛道上飞驰,是不是很酷炫呢?目前大部分游戏中的道具都是艺术家绘制出来的,虽然有很高的仿真度,但是并非真实的画面。若能将游戏中驾驶的赛车变成与现实中的原型一模一样,那么游戏体验必定会增加不算少。而在 这篇论文 的项目所研究的正是这个问题。

该项目的主要内容是 在已知物体几何形状的情况下,通过对物体在自然光照下运动的采集,让计算机对识别出其材质属性参数,进而在任意光照下重建出该物体。 该项目负责人之一,微软亚洲研究院研究员 董悦 对他的这个项目进行了进一步的解读。

重建的过程主要可以分成采集和渲染两部分。采集主要指对实物在单一光照下(实验室灯光或单一固定自然光照)运动中对光反射的采集,一般会用相机进行照片和视频的拍摄。渲染则指代采集过后在计算机上进行模型绘制的过程。由于材质不同,物体对光会呈现不一样的反射表现。比如塑料、金属和镜面,因为材质导致光滑程度不一样,在同样情况的光照下,塑料对光的反射是最模糊的,而镜面由于表面十分光滑,对光照的反射是最强烈的,金属则居中。根据物体上的每一点对光照的反射情况,可以计算出其材质属性(得出该点的材质属性公式)。在得到物体材质属性之后,我们就可以得到在任意光源之下的反射效果。

和过去的研究相比,这个项目体现出了明显的先进性。过去,如果制作出一个物体在不同光照下的模型,研究者们可能需要在不同光照对物体运动进行捕捉,整个采集过程十分繁琐。而如今董悦的研究实现了在未知的自然光照条件下一次采集便可完成对多种光照下不同材质光反射的虚拟还原。

董悦在谈及该技术未来的运用方向时提出,它将主要被运用在电影和游戏中,将场景中的物体变得更为真实自然,例如游戏中玩家驾驶的汽车。这样可以解决一些如今主要靠艺术家去画而存在的局限,也可以让游戏和电影更让人有身临其境的感觉。

入选SIGGRAPH Asia的其他四篇论文

Anisotropic Simplicial Meshing Using Local Convex Functions

Assembling Self-Supporting Structures

 Automatic Acquisition of High-fidelity Facial Performance Using Monocular videos



Hierarchical Diffusion Curves for Accurate Automatic Image Vectorization


如果想加入我们“计算机视觉战队”,请扫二维码加入学习群,我们一起学习进步,探索领域中更深奥更有趣的知识!

CVPR 2018 笔记