【MDNET】:
H Nam, B Han. Learning multi-domain convolutional neural networks for visual tracking[C]. //CVPR2016.
问题1:
解释:
首先MDNet的网络结构如下:
input: 107*107@3
conv1: filter:7*7
stride:2*2
output:51*51@96 where,51=(107-7+1)/2
pool1: filter:3*3
stride:2*2
output:25*25@96 where,25=(51-3+1)/2
conv2: filter:5*5
stride:2*2
output:11*11@256 where,11=(25-5+1)/2
pool2: filter:3*3
stride:2*2
output:5*5@256 where,5=(11-3+1)/2
conv3: filter:3*3
stride:1*1
output:3*3@512 where,3=(5-3+1)/1
所以conv3的3就是这么来的,作者的意思是107是它从3逆推计算出的(这里有个问题,为什么作者一定需要conv3的数据输出大小要是3*3,有什么道理?),并且给了计算公式:
107=75+2*16
下面解释这个公式怎么来的: