将 w×h 尺寸的 RoI 拆分成 k×k 个
w
k
×
h
k
\frac{w}{k}\times \frac{h}{k}
kw×kh 尺寸的 bin;
不同颜色的 bin 对应不同颜色的 score map;
Bin 内做均值池化;
输出尺寸:
k
×
k
×
(
C
+
1
)
k\times k\times (C+1)
k×k×(C+1)。
3、多任务损失函数
总损失:
L
(
s
,
t
x
,
y
,
w
,
h
)
=
L
c
l
s
(
s
c
∗
)
+
λ
[
c
∗
>
0
]
L
r
e
g
(
t
,
t
∗
)
L(s, t_{x, y, w, h}) = L_{cls}(s_{c^*}) + \lambda [c^* > 0]L_{reg}(t, t^*)
L(s,tx,y,w,h)=Lcls(sc∗)+λ[c∗>0]Lreg(t,t∗);
分类损失函数:
L
c
l
s
(
s
c
∗
)
=
−
l
o
g
(
s
∗
)
L_{cls}(s_{c^*}) = -log(s^*)
Lcls(sc∗)=−log(s∗);
Bounding box 回归损失函数:
4
k
2
4k^2
4k2 通道的位置敏感卷积层:
L
r
e
g
(
t
i
,
t
∗
)
=
R
(
t
i
−
t
∗
)
L_{reg}(t_i, t^*) = R(t_i - t^*)
Lreg(ti,t∗)=R(ti−t∗)。
4、训练
OHEM(Online Hard Example Mining):
首先对 RPN 获得的候选 RoI 进行排序操作;
然后在含有正样本的 RoI 中选择前 N个RoI,将正负样本的比例维持在1:3的范围内,保证每次抽取的样本中都会含有一定的正样本。
每一个栅格预测
B
B
B个 bounding boxes 以及它们的 confidenc scores。confidenc scores 反映了模型对于这个栅格的预测:该栅格是否含有物体,以及这个 box 的坐标预测的有多准;
c
o
n
f
i
d
e
n
c
e
=
P
r
(
O
b
j
e
c
t
)
×
I
o
U
p
r
e
d
t
r
u
t
h
confidence = Pr(Object)\times IoU_{pred}^{truth}
confidence=Pr(Object)×IoUpredtruth;
若该栅格不存在 object,则 confidenc scores 为 0;否则,confidenc scores 为 predicted bounding box 和 ground truth box 之间的 IoU(Intersection over union)。
网络结构: 由24个卷积层与2个全连接层构成,网络入口为 448×448,输出结果为一个张量:
输出维度:
S
×
S
×
(
B
×
5
+
C
)
S\times S\times (B\times 5 + C)
S×S×(B×5+C);