给定两个对象集 Q 和 O,度量相似性连接根据特定标准找到相似的对象对。 如今快速增长的数据量对传统的度量相似性连接方法提出了挑战,因此需要一种分布式方法。在本文中,我们采用了一种流行的分布式框架,即 MapReduce,来支持可扩展的度量相似性连接。 为了确保负载平衡,我们提出了两种基于采样的分区方法。
京公网安备 11010502049817号