• 谷本系数/相似度的计算和分子指纹


    查阅起点来自《A Deep Learning Approach to Antibiotic Discovery》


    Tanimoto coefficient 即谷本系数的计算公式是:
    T s t = ∑ k = 1 n P s k ⋅ P t k ∑ k = 1 n P s k 2 + ∑ k = 1 n P t k 2 − ∑ k = 1 n P s k ⋅ P t k T_{st}=\frac{\sum_{k=1} ^{n}P_{sk}·P_{tk}}{\sum_{k=1} ^{n}P_{sk}^2+\sum_{k=1} ^{n}P^2_{tk}-\sum_{k=1} ^{n}P_{sk}·P_{tk}} Tst=k=1nPsk2+k=1nPtk2k=1nPskPtkk=1nPskPtk
    用集合来理解相当于
    T s t = S ∩ T S ∪ T = S ∩ T S + T − S ∩ T T_{st}=\frac{S\cap T}{S\cup T}=\frac{S\cap T}{S+T-S\cap T} Tst=STST=S+TSTST
    python示例代码如下:

    import numpy as np
    
    def getTanimotocoefficient(s,t):
        s=np.asarray(s)
        t=np.asarray(t)
        if (s.shape!=t.shape):
            print("向量长度不一致")
            return -1
        return (np.sum(s*t))/(np.sum(s**2)+np.sum(t**2)-np.sum(s*t))
    
    s=[13,11,22,14]
    t=[13,12,20,11]
    m=[11,11,11,11]
    
    print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
    #       0.9845984598459846             0.8312342569269522
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    如果两个向量的元素都是只能是01,那么它们的谷本系数可以简化为:
    T s t = a a + b − c T_{st}=\frac{a}{a+b-c} Tst=a+bca
    其中,a 是向量 s 中1的个数,b 是向量 t 中1的个数,c是两个向量同样位置都是1的个数,对比两个公式很好理解,下面是python示例代码:

    def getSimilarity(s,t):
        s=np.asarray(s)
        t=np.asarray(t)
        if (s.shape!=t.shape):
            print("向量长度不一致")
            return -1
        a=np.sum(s==1)
        b=np.sum(t==1)
        c=0
        for i in range(len(s)):
            if (s[i]==1 and t[i]==1): c+=1
        return c/(a+b-c)
    
    s=[1,1,1,0]
    t=[1,0,1,0]
    m=[1,0,0,0]
    
    print(getSimilarity(s,t),getSimilarity(s,m))
    print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
    #        0.6666666666666666            0.3333333333333333
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    谷本系数可以用于计算分子间的相似度,将分子表示为01字符串即分子指纹的方法有以下几种,示例可以在 RDKit 教程中找到,其中MACCS 秘钥的共167bit,有片段时为1,没有是0,具体哪些片段可以在这里找到。还有一些介绍文章:RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP)RDKit|分子指纹提取、相似性比较及应用,使用rdkiit进行分子指纹(Fingerprint)的类似度计算

  • 相关阅读:
    【问答】入职一家新公司,需要重头搭建自动化测试框架,该如何开始呢?
    Apache APISIX Ingress v1.5-rc1 发布
    Gephi弹出JVM Creation failed
    前端工程化之:webpack4-2(babel预设+babel插件+webpack中运行)
    知识蒸馏学习
    学习黑马程序员JavaScript总结
    Java基础
    【FLY】Android IO性能优化
    Android中 dma-buf 和 ION
    ES6 ~ ES11 学习笔记
  • 原文地址:https://blog.csdn.net/weixin_52812620/article/details/126692248