来源:Coursera吴恩达深度学习课程
在人脸识别中,我们希望学习“输入两张人脸图片,然后输出相似度”的函数d,然后Siamese 网络(Siamese network)实现了这个功能。这篇文章将探讨如何定义实际的目标函数(define an objective function),能够让神经网络学习并训练Siamese网络架构呢?
要想通过学习神经网络的参数来得到优质的人脸图片编码,方法之一就是定义三元组损失函数(triplet loss function),然后应用梯度下降(gradient descent )。
为了应用三元组损失函数,你需要比较成对的图像。用三元组损失的术语来说,你要做的通常是看一个 Anchor 图片,你想让Anchor图片和Positive图片(Positive意味着是同一个人)的距离很接近。然而,当Anchor图片与Negative图片(Negative意味着是非同一个人)对比时,你会想让他们的距离离得更远一点。这就是为什么叫做三元组损失,它代表你通常会同时看三张图片(Anchor图片、Postive图片和Negative图片),通常把它们简写成A、P、N。
把这些写成公式的话,你想要的是网络的参数或者编码能够满足以下特性:
公式两边分别对应如下距离:
这里的d可以看成距离(distance)函数。现在如果我把方程右边项移到左边,最终就得到:
值得注意的是,上面的表达式有一种情况:把所有东西都学成0,如果f总是输出0,0-0=0,也满足这个方程,但是没有用处。所以为了确保网络对于所有的编码不会总是输出0,也为了确保它不会把所有的编码都设成互相相等的。我们做一些改变,应该是比0还要小,小于一个-alpha值(另一个超参数),即:
按照惯例,一般写成这样:
这个参数也叫做间隔(margin)参数。间隔参数的作用是它拉大了Anchor和Positive 图片对和Anchor与Negative 图片对之间的差距。取下面的这个方框圈起来的方程式,然后定义三元组损失函数。
三元组损失函数的定义基于三张图片,假如三张图片A、P、N,即anchor样本、positive样本和negative样本,其中positive图片和anchor图片是同一个人,但是negative图片和anchor不是同一个人。如上图,为了定义这个损失函数,我们取这个和0的最大值:
这个max函数的作用是只要你能使画绿色下划线部分小于等于0,只要你能达到这个目标,那么这个例子的损失就是0。另一方面,如果绿色下划线部分大于0,则它是最大值,得到一个正的损失值,通过最小化损失函数使得这部分小于或等于0。
这是一个三元组定义的损失,整个网络的成本函数J应该是训练集中这些单个三元组损失的总和(sum)。假如你有一个10000个图片的训练集,里面是1000个不同的人的照片,你要做的就是取这10000个图片,然后生成这样的三元组,然后训练你的学习算法,对这种代价函数用梯度下降,这个代价函数就是定义在你数据集里的这样的三元组图片上。
注意,为了定义三元组的数据集需要成对的A和P,即同一个人的成对的图片,为了训练你的系统你确实需要一个数据集,里面有同一个人的多个照片。如果你只有每个人一张照片,那么根本没法训练这个系统。当然,训练完这个系统之后,你可以应用到你的一次学习问题上,对于你的人脸识别系统,可能你只有想要识别的某个人的一张照片。但对于训练集,你需要确保有同一个人的多个图片,至少是你训练集里的一部分人,这样就有成对(pairs)的Anchor和Positive图片了。
下面看如何选择这些三元组来形成训练集(training set)。
一个问题是如果你从训练集中,随机地选择A、P和N,遵守A和P是同一个人,而A和N是不同的人这一原则。随机选择的话约束条件很容易满足,因为A和N比A和P差别很大的概率很大,这样网络并不能从中学到什么。所以要尽可能的选择难(hard)训练的A、P和N,使得d(A,P)和d(A,N)很接近,即:
这样你的学习算法会竭尽全力使右边这个式子变大,或者使左边这个式子变小,这样左右两边至少有一个间隔(margin),并且选择这样的三元组还可以增加你的学习算法的计算效率。因此,只有选择难的三元组梯度下降法才能发挥作用,使得这两边离得尽可能远。
如果感兴趣的话,这篇论文中有更多细节,作者是Florian Schroff, Dmitry Kalenichenko, James Philbin,他们建立了这个叫做FaceNet的系统,Florian Schroff, Dmitry Kalenichenko, James Philbin (2015). FaceNet: A Unified Embedding for Face Recognition and Clustering
总结一下,如上图,训练这个三元组损失你需要取你的训练集,然后把它做成很多三元组。定义了这些包括A、P和N的数据集之后,还需要最小化成本函数J。这样做的效果就是反向传播到网络中的所有参数来学习到一种编码,使得如果两个图片是同一个人,那么它们的d就会很小,如果两个图片不是同一个人,它们的d就会很大。
这就是三元组损失,并且如何用它来训练网络输出一个好的编码用于人脸识别。现在的人脸识别系统,尤其是大规模的商业人脸识别系统(large-scale commercial face recognition)都是在很大的数据集上训练。幸运的是,一些公司已经训练了这些大型的网络并且上传了模型参数。这一领域的一个实用操作就是下载别人的预训练模型(pretrained model),而不是一切都要从头开始(do everything from scratch yourself)。但是即使你下载了别人的预训练模型,Andrew认为了解怎么训练这些算法也是有用的,以防针对一些应用你需要从头实现这些想法。
说明:记录学习笔记,如果错误欢迎指正!转载请联系我。