为了更加贴近现实场景,ECCV 2020 论文《Towards Streaming Perception》[1](获得Best Paper Honorable Mention)首次提出了流感知(Streaming Perception)任务,该任务作为VOD的一个细分方向,提出了流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。具体地,如下图所示,离线目标检测算法对
T
T
T时刻的视频帧进行检测,得到轿车检测结果,即橙色的矩形框,而因为算法处理存在一定的延时,此时现实环境已经处于
T
+
L
a
t
e
n
c
y
T+Latency
T+Latency时刻,轿车的实际位置也已经发生变化,即红色的矩形框。由此可见,实际应用中,算法进行目标检测时,应同时考虑环境变化,这正是在线检测(如Streaming Perception任务)考虑的事情,这一类的算法在
T
T
T时刻的检测结果,橙色的矩形框,与
T
+
L
a
t
e
n
c
y
T+Latency
T+Latency时刻的实际环境,红色的矩形框,能有较好的吻合。
为了更好地理解为什么引入实时目标检测器能够简化Streaming Perception任务,需要先介绍一下此任务的评价指标。流平均精度(Streaming Average Precision, sAP)可以分为两个部分理解,其中"Average Precision"和通用检测一致,而"Streaming"表示,某个时刻的预测结果,会与算法处理完成后下一时刻的真实值(Ground True, GT)匹配,并计算对应的"Average Precision"。具体地,如下图所示,对于非实时的算法,
I
t
I_{t}
It时刻的预测结果在下一时刻
I
t
+
1
I_{t+1}
It+1到来之后才能得到,如下图左半部分绿色箭头所示,因此与该预测结果配对的是
I
t
+
2
I_{t+2}
It+2时刻的GT,而
I
t
+
1
I_{t+1}
It+1时刻的GT,会默认使用前一次预测结果进行配对,这样一来,算法一方面“错过”了
I
t
+
1
I_{t+1}
It+1时刻的GT,另一方面需要预测更“远”的
I
t
+
2
I_{t+2}
It+2时刻的真实环境,因此对算法的挑战更大。相对地,对于实时的算法,
I
t
I_{t}
It时刻的预测结果在下一时刻
I
t
+
1
I_{t+1}
It+1到来之前可以得到,如下图右半部分绿色箭头所示,因此与该预测结果配对的是
I
t
+
1
I_{t+1}
It+1时刻的GT,该情况下,算法一方面不会“错过”任何时刻的GT,另一方面仅需要预测下一时刻的真实环境。因此说,引入实时算法能够简化Streaming Perception任务为一个对下一帧真实环境的预测任务。
提出一种双支路的网络结构,在Streaming Perception领域首次引入了长时序信息。包括短支路(Short Path)和长支路(Long Path),其中短支路用于提取当前视频帧的空间信息,而长支路以历史帧作为输入,用于提取时序信息。其中,
N
N
N和
δ
t
\delta t
δt是两个可调节的参数,
N
N
N用于控制历史帧的数量,
δ
t
\delta t
δt用于控制历史帧的间隔步长。
探索不同的时序融合方式。本文提出了长短融合模块(Long Short Fusion Module, LSFM),探索了1)早融合(early fusion)和晚融合(late fusion);2)时序上不同的重要性分配。具体有如上图(b)所示的四种模块。同时,本文与已有的一些注意力模块也进行了对比。
本文对
N
N
N和
δ
t
\delta t
δt的取值进行了消融实验,结果如下表所示,在
N
=
3
N=3
N=3和
δ
t
=
1
\delta t=1
δt=1时,S/M/L模型均能取得比较好的结果。其中,(1, 1)等价于StreamYOLO,由此可见,引入长时序信息有助于算法对复杂运动的预测,从而提升最终的精度。