• Privacy-preserving record linkage on large real world datasets论文总结



    Abstract

    在本文中,我们尝试了一种记录链接方法,该方法可以进一步降低大型现实世界管理数据的隐私风险。该方法在基于概率的链接框架中使用加密的个人识别信息(bloom 过滤器)。

    当结果与使用完全未加密的个人标识符的传统概率方法进行比较时,没有发现链接质量存在差异。这是减少与人口水平研究中的记录链接相关的隐私风险的一种可能方法。希望通过对这种方法或类似的隐私保护方法的改进,可以降低与信息披露相关的风险,从而充分实现关联研究的好处。


    1. Introduction

    1.1. Administrative data as resource

    作为资源的管理数据
    当前的澳大利亚法律为个人隐私提供了许多保护措施,包括要求将健康信息用于研究的公众利益大于这样做给个人带来的隐私风险

    1.2. Record linkage of health information

    记录链接过程通常用于使研究人员能够回答需要随时间推移了解个人健康状况的问题。

    由于这些标识符可以更改和/或包含数据集内或数据集之间的错误,因此通常使用概率统计方法来确保高质量的链接

    1.3. Record linkage processes and privacy protection

    记录联动流程和隐私保护
    ttp:Trusted Third Party

    1.3.1. Separation principle

    分离原理

    1.3.2. Information governance

    信息治理

    隐私保护链接技术

    隐私保护技术可以分为两大类——利用第三方执行链接的技术(三方协议)和不使用第三方的技术(两方协议)。两方协议通常需要更大量的必要通信和计算 [11] 来比较记录,但可以被认为更安全,因为它们不依赖于受信任的第三方 [12] 的存在。

    几乎所有隐私保护协议都采用“诚实但好奇”的威胁模型 [12],据此期望各方尝试正确执行协议,但也会尝试从他们收到的任何数据中找出尽可能多的信息。

    在本文中,我们采用了 Schnell 等人开发的隐私保护记录链接的布隆过滤器方法。 [11]。
    我们选择这种方法而不是其他隐私保护协议有几个原因。首先,布隆过滤器方法与大多数其他隐私保护链接方法的不同之处在于它能够测量两个字段之间(例如,两个名称之间)的相似性——这是一种经常用于概率记录链接以确保高质量的方法。使用布隆过滤器对隐私保护字符串比较的评估证明了非常高的质量 [11,17],包括对 SLK 和瑞士匿名链接代码 [18] 的质量改进。目前的评估集中在小数据样本上,但该方法似乎适用于大规模记录链接。该方法看起来健壮且发展良好,有许多论文研究了其安全性 [19] 并提出了对其方法的补充

    对布隆过滤器的使用进行了评估,以确定其是否适合进行大规模的隐私保护记录链接。使用这种方法链接了两个数据集,总计超过 2600 万条记录,结果与未加密数据的链接进行了比较。采用概率联动框架,允许发生大规模联动。


    2. Method

    2.1. Application of bloom filters

    要使用布隆过滤器进行加密记录链接,个人标识符需要由数据保管人加密。由于这个过程在技术上很复杂,因此需要为数据保管人提供能够加密记录的软件。参与该项目的数据保管人将就用于加密数据的密码或密码短语达成一致,这些密码不会与链接单元共享。然后可以将加密的数据传递给链接单元,链接单元可以使用它来确定哪些记录属于同一个人(参见图 2)。
    在这里插入图片描述

    2.1.1. Creating and comparing bloom filters

    Schnell 等人提出的加密过程概述。 [11] 如图 3 所示,以及比较两个加密变量的方法,如图 4 所示。每个值(例如,一条记录上的给定名称“SEAN”)都被单独加密。
    在这里插入图片描述

    每个二元组都通过一个散列函数传递。哈希函数是一种算法,它产生具有几个重要属性的固定长度输出。首先,给定相同的输入,它总是会产生相同的输出(即相同的二元组总是会产生相同的哈希值)。散列函数也是单向的,这意味着不可能从给定的散列值中确定编码的二元组。

    可以使用骰子系数来比较两个布隆过滤器。
    在这里插入图片描述

    2.2. Evaluation of bloom filter methodology

    布隆过滤器方法的评估

    2.2.1. Datasets

    评估中使用了两个单独的数据集;评估中使用了 10 年的西澳大利亚医院入院数据(约 700 万条记录)以及 10 年的新南威尔士州入院患者数据收集(约 2000 万条记录)。

    这些链接的数据集已用于大量研究项目和发表的研究文章,进一步验证了匹配的质量。表 1 中提供了数据集的摘要描述。
    在这里插入图片描述

    2.2.2. Evaluation strategy

    对于每个数据集,使用这种隐私保护方法进行内部链接。这种链接策略对每个文件进行了重复数据删除,识别了每个数据集中属于个人的所有记录。此外,每个数据集的内部/去重链接是使用概率匹配策略 [9] 执行的,其中包含完全未加密的个人标识符。

    还测试了使用三元组而不是二元组的 Schnell 布隆过滤器方法的变体。

    本文实质上采用了 Schnell 的字符串比较方法,将其置于概率链接框架内。(如上所示)

    2.2.3. Linkage strategy

    对于未加密的链接,使用了概率链接方法 [3,23]。链接策略基于已发布的链接策略,用于评估多个链接产品的匹配质量[24]。

    测量了各种阈值设置下的链接质量,报告了最高的结果。

    2.2.4. Creation of encrypted dataset

    在每个数据集中,为各个字段创建了布隆过滤器。创建的布隆过滤器的尺寸比 Schnell 最初使用的要小(从 1000 到 100 的长度)。这大大减少了文件大小。根据 Schnell 等人的方法大纲将字段拆分为二元组。 [11]。每个字段都使用了填充。使用的每个二元组的哈希函数数量为 3;这保持了与 Schnell 等人描述的相同的哈希函数与布隆过滤器长度的比率。 [11]。骰子系数用于比较布隆过滤器。

    达勒姆等人的工作。 [17] 表明使用二元组和骰子系数提供了比其他字符串相似性度量更高的准确度。

    在链接策略中使用了阻塞变量,大大减少了比较次数并允许发生大规模记录链接(见表 2)。这些被实现为原始值的简单散列。只有与一组阻塞变量一致的变量才被进一步比较。缺失值没有计算布隆过滤器,而是留空。这允许链接程序将它们识别为缺失值并适当地处理它们。
    在这里插入图片描述
    二元组和三元组都被广泛用于(未加密的)近似字符串匹配[25],三元组被认为在隐私保护上下文中表现良好[26]。三元组对字符串之间的差异比二元组方法更敏感[25]。布隆过滤器方法可以很容易地适应使用三元组而不是二元组,没有明显的效率权衡。除了利用 Schnell 和其他人 [11,17] 使用的 bigram 布隆过滤器方法外,我们还使用相同的数据集测试了使用 trigram 的布隆过滤器的使用。

    已经开发了一种用于布隆过滤器比较的替代编辑距离度量。这种编辑距离测量与骰子系数测量有几个不同之处,无论是在计算方面,还是在安全属性方面。编辑距离测量需要一种特定的方法来创建布隆过滤器,将相关字符串的各个字母与其在字符串中的位置连接起来,并对它们进行散列处理(即 ‘1S’、‘2E’、‘3A’、‘4N’ for ‘SEAN’)。

    当前制定的编辑距离度量对于大规模记录链接似乎不可行,并且不能用于第三方隐私保护链接。由于这些原因,本研究未对其进行实验评估。

    2.2.5. Measuring linkage quality

    使用成对精度、召回率和 f-measure 评估链接质量。这些措施以前已在记录链接文献中使用[24]。链接的 f 度量是准确率和召回率之间的调和平均值。这提供了一个可以与链接质量进行比较的单一数字。最终阈值设置为使 f 度量最大化的水平。


    3. Results

    图 5 显示了使用二元组加密链接和未加密链接的链接质量(精度、召回率和 f 度量)。
    这里的阈值是指用于确定结果的最低可接受链接分数;概率链接根据它们的相似性给每个记录对组合一个分数,由操作员确定适当的阈值。
    在阈值权重范围内链接质量似乎几乎没有差异,其中加密链接优于未加密链接。
    在这里插入图片描述

    对于所有链接,最佳阈值设置在加密和未加密数据之间似乎没有很大差异,这可能暗示了在隐私保护记录链接中确定阈值设置的方法。

    二元组和三元组加密链接之间的链接质量几乎没有区别。在使用布隆过滤器的加密链接和使用完整个人标识符的未加密链接之间几乎没有发现质量差异。


    4. Discussion

    这是第一次将使用布隆过滤器方法进行近似字符串比较的隐私保护链接应用于大型人口级数据集合。结果表明,在链接质量方面,使用加密字段的概率链接与使用未加密个人标识符的概率链接同样有效。

    使用隐私保护链接的一个缺点是难以检查链接的整体质量。典型的链接质量评估机制是通过人工检查已汇集在一起​​的单个记录对。由于隐私保护链接中的所有记录都已加密,因此不再可能。如果进行了质量较差的链接,则该质量较差的链接临床数据将传递给研究人员。

    对单个对的手动检查也用于确定最佳阈值设置。目前没有明显的方法来确定具有概率加密链接的最佳阈值。


    5. Conclusion

    这项研究表明了大规模数据集隐私保护记录链接的可行性。通过使用布隆过滤器方法对各个字段进行加密和比较,以及概率链接框架,可以在不影响链接质量的情况下进行大规模隐私保护链接。目前需要做更多的工作来确定合适的阈值设置方法。

  • 相关阅读:
    JavaSE进阶21天---第十七天---JavaSE(打印流、FileUtils工具类、 ImageIO(验证码、二维码))
    Python数据透视表
    Round 函数
    【Leetcode】剑指Offer 27:二叉树的镜像
    测试开发【Mock平台】11基础:拦截器服务实现(二)事半功倍的WebMvcConfigurer
    JAVA面试所问到的问题
    计算机毕业论文内容参考|基于深度学习的交通标识智能识别系统的设计与维护
    【云原生之k8s】K8s 管理工具 kubectl 详解(一)
    Nacos相关面试题
    dart系列之:集合使用最佳实践
  • 原文地址:https://blog.csdn.net/MashiroSakura/article/details/126919413