ICLR 19 ：APPNP + ICML 20 GCNII

APPNP

在这里插入图片描述
其中 predict 指的是采用 neural network 降维得到 hi。 hi 进行propagate得到zi（通过PageRank）

1. 方法一（PPNP） PageRank计算对于每个节点其他节点的 score，从而一次传播得到结果，这样做的坏处，求解矩阵A的逆很复杂会导致一个n*n的 dense矩阵

在这里插入图片描述

2. 方法二（APPNP）通过幂迭代多次来逼近这个 PPR矩阵，从而使得问题可以解决 APPNP 另外的角度就是 randomwalk with restart。 PR就是通过随机游走来获得其余的节点对于节点的重要性，teleport使得节点下一次的状态都有一定的概率到达自身的状态

在这里插入图片描述

GCNII

layer：传播公式

在这里插入图片描述
对比GCNII的公式和 APPNP 公式4的第二行。可以发现 GCNII就是给APPNP 乘了（1-β）In + βW，同时加上了激活函数，成为了非线性。

根据矩阵乘法分配律，单位矩阵I和参数矩阵W分别和左边相乘。单位矩阵的效果就是 APPNP的Z ， W就是增加了参数量，使得表征在不断的交互。 β足够小的时候，模型就是 APPNP+非线性

Note：作者说 appnp 若采用多次非线性来处理特征矩阵会过拟合，因此采用了线性组合从而推出------- appnp还是一个 shallow的模型。？？？？不加激活函数的非线性就是浅层吗

在这里插入图片描述
公式5 作者说借鉴了 Resnet的思想，给W增加一个I，使得模型至少和浅层版本（appnp）效果一样，同时这个单位矩阵的好处，使得最优的参数矩阵W 有很小的范数，因此避免了过拟合（相当于给W加了正则），同时唯一关键点是全局最优
在这里插入图片描述

对于APPNP和GCNII相似的model来说。 GPRGNN也是APPNP的变分，他是每层的H 采用了不同的系数，其实也可以在GPRGNN上增加这个单位映射非线性

有关GCN过平滑和参数矩阵W的关系，好几篇文章都对于 W进行正则项约束，EGNN那篇通过迪利克雷能量也对W做了约束。下面这篇文章说出 GCN的收敛速率决定于 W的最小奇异值。通过（1-β）I+ βW，两个矩阵相加的范数小于两个矩阵范数的和（三角不等式），因此，使得W的范数 = 整体的范数- 单位矩阵的范数。
在这里插入图片描述
这里就是通过 resnet和这个W+I的范数两个角度为这个简单模型奠定了理论基础。

Code — APPNP (pytorch)

包含ppnp和appnp。ppnp： PPRExact，通过calc_ppr_exact来计算原文公式3. PPRPowerIteration 就是通过幂迭代求解下一层=这一层传播+最初
在这里插入图片描述

Code ---- GCNII

pyG的代码：

在这里插入图片描述

其中 x.mul_(1-self.alpha) 计算出在这里插入图片描述
下面采用 torch.addmm(input,mat1,mat2,beta,alpha) : res = betainput+alpha(mat1mat2)
这里是将左边括号 PH+H0 拆开计算
第一个 torch.addmm 计算了传播后的表征PH 和单位矩阵（没有显式写出来，矩阵单位=自身，因此只有 x*1-beta）相乘，同时加上传播后的表征和参数矩阵weight1 相乘再乘以beta。
第二个 torch.addmm 计算了 H0 和单位矩阵和参数矩阵的结果
在这里插入图片描述
两个整体就是一层的表征

Note 这里有一个 weight2 矩阵。就是如果没有第二个参数矩阵，就对应的原论文公式5. 左边两个表征求和，在和右边的矩阵进行带参数的乘法。 weight2矩阵是对于传播后的表征和原始残差分别学习参数，即：把左边括号拆开。右边W是W1，W2.

默认情况下 shared_weight 默认的是 True，就是一个矩阵，和论文一样
在这里插入图片描述

GCNII Code 作者自己的pytorch版本有太多不同的tricks，看起来挺恶心的，还是PyG的版本最符合论文

重新定义Graphconv ：这里又提出了两种，variant1，2 分别是探究了括号左边两个表征如何结合，采用拼接，或者加法，其中加法版本就是论文的版本，计算出的support 为左边括号整体，但这里r 永远又是加法的版本。左边整体和右边括号里面的两个矩阵相乘拆开，一个和weight相乘一个和单位阵（隐式）
在这里插入图片描述
而且，这里又有一个 residual的参数，来对所融合的表征再加一个x。。。相当于在原有的公式基础上还增加了上一层表征。

-------------------

看GCNII作者自己的代码，就感觉就是在GCN基础上一边考虑最开始X0（APPNP）。又考虑了上一层，又是拼接融合或者加法通过一个W矩阵进行学习，理论的影子更少了。本来以为这个 W矩阵的奇异值会有所处理，发现也没有，就是这样加起来，可能是这样做，就能使的w的范数小，更好训练吧。而且作者自己的pytorch代码里面有ogb-arixv的代码，里面更加偏离了公式，具体就是下一层= 上一层+带参数残差和右边相乘。在加上上一层。只有一个 alpha参数，更没有beta了。。。。，之后如果需要更改 GCNII的代码，还是直接在PyG上实现。

文章相比于APPNP最大的亮点其实就在于其对于单位矩阵 I的解释，通过此来限制 W矩阵的奇异值，从而减轻过拟合，初始残差appnp已经存在了。他就是给appnp 右边套上一个自适应的 I+W 的combination，然后激活，激活是在 forward里面采用relu，计算时候不用

相关阅读:
解决 WSL 与 Windows 交互问题
Docker镜像仓库：存储与分发Docker镜像的中央仓库
算法题系列10·最长公共前缀
ZZNUOJ_用C语言编写程序实现1342：支配值数目(附完整源码)
C++学习记录——삼십삽 STL空间配置器
docker swarm下部署的spring cloud，时不时就会取到ingress网络的ip
PPP协议（PPP协议链路建立过程、PAP、CHAP、华为虚拟网络设备配置）
使用QtWebApp搭建Http服务器
文字以打字样式展现形式
组合式函数(Composables)解决了mixins的哪些痛点？

原文地址：https://blog.csdn.net/qq_40926715/article/details/126903189

ICLR 19 ：APPNP + ICML 20 GCNII

APPNP

1. 方法一（PPNP） PageRank计算对于每个节点其他节点的 score，从而一次传播得到结果，这样做的坏处，求解 矩阵A的逆 很复杂 会导致一个n*n的 dense矩阵

GCNII

layer：传播公式

Note： 作者说 appnp 若采用多次非 线性来处理 特征矩阵会 过拟合，因此采用了 线性组合 从而推出------- appnp还是一个 shallow的模型。 ？？？？ 不加激活函数的非线性就是 浅层吗

对于APPNP和GCNII相似的model来说。 GPRGNN也是APPNP的变分，他是 每层的H 采用了 不同的系数，其实也可以 在GPRGNN上增加这个 单位映射非线性

Code — APPNP (pytorch)

Code ---- GCNII

GCNII Code 作者自己的pytorch版本 有太多不同的tricks，看起来挺恶心的， 还是PyG的版本最符合论文

-------------------

1. 方法一（PPNP） PageRank计算对于每个节点其他节点的 score，从而一次传播得到结果，这样做的坏处，求解矩阵A的逆很复杂会导致一个n*n的 dense矩阵

Note：作者说 appnp 若采用多次非线性来处理特征矩阵会过拟合，因此采用了线性组合从而推出------- appnp还是一个 shallow的模型。？？？？不加激活函数的非线性就是浅层吗

对于APPNP和GCNII相似的model来说。 GPRGNN也是APPNP的变分，他是每层的H 采用了不同的系数，其实也可以在GPRGNN上增加这个单位映射非线性

GCNII Code 作者自己的pytorch版本有太多不同的tricks，看起来挺恶心的，还是PyG的版本最符合论文