如何在这些视觉信息丰富的海量图片中快速准确地搜索到用户所需要的图片是计算机视觉领域的研究热点,也极具商业应用价值。图像搜索其应用领域十分广泛,包括电商、医学、公共安全、搜索引擎甚至军事等。
图像搜索常规分为两类,一类是基于文本的搜索,即TBIR(Text Based Image Retrieval);另一类是基于内容的搜索,即CBIR(Content Based Image Retrieval)。
TBIR出现较早,主要利用关键字对图像进行描述,然后进行关键字比对,比对成功后将结果返回给用户,其缺点是给图像标关键字需要人力介入,面对海量数据则费时费力,还面临增量的问题,且人为判断干扰因素难以估计。
CBIR则是利用计算机对图像进行分析,然后使用特征向量(可以简单理解为很多数字)来代表图像,然后对所有的图像都做特征提取并保存在特征库中,最后当要搜索某张图片时,使用同样的特征提取方法提取,再与特征库中的特征作对比,按某种相似指标进行排序并输出相似最好的几张图片,这样达到图像搜索的效果。CBIR将图像的表达以及相似的计算交给计算机处理,克服了TBIR的缺点,可以充分利用计算机的优势,极大地提高了搜索效率,适用于新时代的海量图像搜索场景。
CBIR工程中主要包括图像描述和海量相似计算与排序,图像描述即特征表达,而海量计算与排序则是另一个广阔的领域。
计算机描述图像的传统的方法有SIFT、SURF、ORB、BoW、VLAD和FV,但其缺点是这些方法都是人为设定规则,规则的好坏决定了搜索的效果。