• 论文笔记: 度量学习之 ITML (理解ing)


    摘要: 分享对论文的理解. 原文见 Jason Davis, Brian Kulis, Suvrit Sra and Inderjit Dhillon, Information-Theoretic Metric Learning, ICML 2007. 只有可怜的 5 页, 但引用达到 2000 余次.

    1. 论文贡献

    • 证明信息理论度量学习与低轶核学习的等价性

    2. 基本符号

    符号含义说明
    x i ∈ R d \boldsymbol{x}_i \in \mathbb{R}^{d} xiRd i i i 个对象默认为列向量
    X = [ x 1 x 2 … x n ] ∈ R d × n \boldsymbol{X} = [\boldsymbol{x}_1 \boldsymbol{x}_2 \dots \boldsymbol{x}_n] \in \mathbb{R}^{d \times n} X=[x1x2xn]Rd×n数据矩阵没有逗号
    K 0 = X T X \boldsymbol{K}_0 = \boldsymbol{X}^{\mathsf{T}}\boldsymbol{X} K0=XTXGram 矩阵
    u u u距离上界, 小于它表示相似
    l l l距离下界, 大于它表示相似 u < l u < l u<l
    m ∈ R d \boldsymbol{m} \in \mathbb{R}^{d} mRd多个高斯分布的均值为一个向量
    y i ∈ { 1 , 2 , … , C } y_i \in \{1, 2, \dots, C\} yi{1,2,,C} x i \boldsymbol{x}_i xi 的标签不限于二分类
    A ∈ R d × d \boldsymbol{A} \in \mathbb{R}^{d \times d} ARd×d正定矩阵
    Z Z Z归一化常数
    S \boldsymbol{S} S相似点对集合
    D \boldsymbol{D} D不相似点对集合

    3. 方案

    新的马氏距离为:
    KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…
    理解:

    • 如果 A = I \boldsymbol{A} = \boldsymbol{I} A=I, 则退化为欧氏距离.
    • 如果 A = U T U \boldsymbol{A} = \boldsymbol{U}^{\mathsf{T}}\boldsymbol{U} A=UTU, 那么 KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…, 与 度量学习之 LMNN 的表达式一致.

    多变量高斯的概率密度函数为
    KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 91: …-\frac{1}{2} d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…

    两个马氏度量的距离为
    K L ( p ( x ; m , A 1 ) ∥ p ( x ; m , A 2 ) ) = ∫ p ( x ; m , A 1 ) log ⁡ p ( x ; m , A 1 ) p ( x ; m , A 2 ) d x (3) \mathrm{KL}(p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \| p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)) = \int p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \log \frac{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1)}{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)} \mathrm{d} \boldsymbol{x} \tag{3} KL(p(x;m,A1)p(x;m,A2))=p(x;m,A1)logp(x;m,A2)p(x;m,A1)dx(3)

    优化目标为:
    KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 168: …bject to } & d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…

    解释:

    • 这里使用了 KL 散度.

    疑问:

    • (3) 式的积分表示什么? 对整个数据集的对象? 如果是这样, 右边是否应将 x \boldsymbol{x} x 改为 x i \boldsymbol{x}_i xi?
    • (4) 式中的 S \boldsymbol{S} S D \boldsymbol{D} D 是指从数据集中可以构造的所有相似点/不相似点对的集合, 还是部分?

    理论证明与算法还没弄会.

    4. 小结

    继续努力!

  • 相关阅读:
    C#中的对象深拷贝和浅拷贝
    Git 笔记
    【Java】UWB高精度工业定位系统项目源代码
    微信小程序echart导出图片
    第八第九天深度学习和机器视觉基础知识
    RBTree模拟实现
    用Java写了一个类QQ界面聊天小项目,可在线聊天
    【历史上的今天】9 月 16 日:乔布斯的归来;苹果崛起;易语言发布
    重磅!这本30w人都在看的Python数据分析畅销书:更新了!
    synchronized 的锁类型
  • 原文地址:https://blog.csdn.net/minfanphd/article/details/126600059