为了让生成的caption具有更好的语义方面的信息(semantic concepts)。作者通过从生成的captions重构
P
o
P^o
Po和
P
m
P^m
Pm,然后通过一个判别器进行判别重构的视觉特征
P
^
o
,
P
^
m
\hat P^o,\hat P^m
P^o,P^m和真实的征
P
o
,
P
m
P^o, P^m
Po,Pm。
具体实现是将生成的caption通过一些1D CNN+残差 的层得到sentence feature
S
S
S,然后让
P
o
P^o
Po“聚合”
S
S
S的特征
给生成的视觉特征
P
^
o
\hat P^o
P^o和真实的视觉特征
P
o
P^o
Po打分,将其视为一个pair,类似于计算他们的相似性