前言:
当我第一眼看到这个标题的时候,觉得很amazing,我对非监督学习的工作了解得不多,可以说是从Attention Net出来之后才开始慢慢地关注一些,所以看到有这方面的文章都会想点开读一读。同时,因为最近在follow "Person Verification"的工作,以为这里的"human verification"是一回事。但是越想越不明白,训练detector怎么会跟human verification(人物比对)联系到一起?读完之后发现,这里的human verification应该是"人工校准"的意思。(英语没学好,真丢人。。。T_T)这篇文章其实就是讲通过加入人工干预的手段,来增强非监督(或弱监督)学习的效果,并不是重点讲非监督的,所以我也不打算详细记录了。说说大意就算了。
文章链接:http://arxiv.org/pdf/1602.08405.pdf
文章概要:
这篇文章主要设计了一个框架,输入是图片和image-level的类标签。目标就是:1、训练detector,能够自动predict出比较好的bounding box;2、减小人工标注bounding box的工作量。
其实大家看看下面这张图就知道他的方法是怎样的了:
最后作者还给出了发PASCAL VOC2007上的performance:
因为我不了解其它非监督方法的performance,所以也不好评价它好不好。但从它跟有监督方法比较看来,确实不是很理想。
我的看法:
1、这种方法虽然performance不太好,但确实能大大减少标数据的时间(文章说可以降6~9倍),使用价值不可否认;
2、但我有个问题,这个框架好像局限在"图片里只有一个物体需要标注"的假设之下,对于包含多个物体的情况,应该难以实现。