End-to-End Object Detection with Transformers 整个模型的主要思想是把物体检测问题看作一个集合到集合的预测问题,将图片切分成一个个Patches。然后进行位置编码,利用Transformer Encoder和Decoder进行编码和解码,最后使用FFN进行分类和坐标的回归。
京公网安备 11010502049817号