视觉场景理解、 即图像中的内容和位置、更进一步对象类别、标识、属性、活动、关系等…

定义那些是对象,那些是连续背景
分类、定位、分割三大任务
4、面临的挑战背景杂乱

遮挡和截断

类内变异

用于图像理解和检索的空间关系、视觉问答、物体抓取/跟踪等

物体追踪

预防撞击

使用子窗口,在正确的位置,没有杂乱的存在,滑动窗口检测物体更改窗口大小以按比例搜索

基本组件:二元分类器

滑动窗口:对位置和比例的详尽搜索(可以在图像的空间金字塔上使用相同大小的窗口)



手动特征提取

搜索的计算成本问题、粒度问题(有限的网格)、纵横比、占用、部分遮挡/截断、多重响应



代码参考



平铺定义(记录)空间对应
分类器可以专注于网格单元的视觉可变性




例如 用于检测图像中的风筝
检测器预测盒子,每个盒子都有一个置信度分数
如何确定预测是否正确(与基本事实一致)?




有关于IOU等指标,可参考下面文章
篇幅原因,见另一篇
机器学习笔记 - 图解对象检测任务(2)
https://skydance.blog.csdn.net/article/details/124997116