(
f
:
X
×
Θ
→
Y
)
( \mathbf{f} : \mathbf{X} \times \Theta \rightarrow \mathbf{Y} )
(f:X×Θ→Y):表示神经网络模型,它接受输入
(
x
∈
X
)
( \mathbf{x} \in \mathbf{X} )
(x∈X) 和参数集
(
θ
∈
Θ
)
( \boldsymbol{\theta} \in \Theta )
(θ∈Θ),生成输出
(
y
∈
Y
)
( \mathbf{y} \in \mathbf{Y} )
(y∈Y)。
(
X
⊆
R
p
)
( \mathbf{X} \subseteq \mathbb{R}^p )
(X⊆Rp),
(
Θ
⊆
R
m
)
( \Theta \subseteq \mathbb{R}^m )
(Θ⊆Rm),
(
Y
⊆
R
q
)
( \mathbf{Y} \subseteq \mathbb{R}^q )
(Y⊆Rq):分别表示输入空间、参数空间和输出空间,它们都是实数空间的子集。
任务算术(Task Arithmetic)
(
δ
t
=
θ
t
−
θ
0
)
( \boldsymbol{\delta}_t = \boldsymbol{\theta}_t - \boldsymbol{\theta}_0 )
(δt=θt−θ0):任务向量,表示任务
(
t
)
( t )
(t) 的微调参数
(
θ
t
)
( \boldsymbol{\theta}_t )
(θt) 与预训练参数
(
θ
0
)
( \boldsymbol{\theta}_0 )
(θ0) 之间的差异。
(
θ
final
=
θ
0
+
∑
i
=
1
T
λ
i
δ
i
)
( \boldsymbol{\theta}_{\text{final}} = \boldsymbol{\theta}_0 + \sum_{i=1}^{T} \lambda_i \boldsymbol{\delta}_i )
(θfinal=θ0+∑i=1Tλiδi):通过将所有任务的任务向量乘以相应的缩放系数
(
λ
i
)
( \lambda_i )
(λi) 并加到预训练的模型参数上,得到最终的模型参数。
任务损失差异(Single Task Loss Difference)
(
TLD
t
(
λ
1
,
…
,
λ
T
,
δ
1
,
…
,
δ
T
)
=
L
t
(
θ
final
,
x
)
−
L
t
(
θ
t
,
x
)
)
( \text{TLD}_t(\lambda_1, \ldots, \lambda_T, \boldsymbol{\delta}_1, \ldots, \boldsymbol{\delta}_T) = L_t(\boldsymbol{\theta}_{\text{final}}, \mathbf{x}) - L_t(\boldsymbol{\theta}_t, \mathbf{x}) )
(TLDt(λ1,…,λT,δ1,…,δT)=Lt(θfinal,x)−Lt(θt,x)):任务
(
t
)
( t )
(t) 的损失差异,表示合并模型在任务
(
t
)
( t )
(t) 上的损失与微调模型在任务
(
t
)
( t )
(t) 上的损失之间的差异。
平均损失差异(Average Task Loss Difference)
(
ALD
(
λ
1
,
…
,
λ
T
,
δ
1
,
…
,
δ
T
)
=
1
T
∑
t
=
1
T
(
L
t
(
θ
final
,
x
)
−
L
t
(
θ
t
,
x
)
)
)
( \text{ALD}(\lambda_1, \ldots, \lambda_T, \boldsymbol{\delta}_1, \ldots, \boldsymbol{\delta}_T) = \frac{1}{T} \sum_{t=1}^{T} (L_t(\boldsymbol{\theta}_{\text{final}}, \mathbf{x}) - L_t(\boldsymbol{\theta}_t, \mathbf{x})) )
(ALD(λ1,…,λT,δ1,…,δT)=T1∑t=1T(Lt(θfinal,x)−Lt(θt,x))):所有任务上损失差异的平均值,用于评估合并模型在整个任务集上的性能。
泰勒展开(Taylor Expansion)
使用泰勒展开来近似
(
L
(
θ
final
,
x
)
)
( L(\boldsymbol{\theta}_{\text{final}}, \mathbf{x}) )
(L(θfinal,x)) 在
(
θ
t
)
( \boldsymbol{\theta}_t )
(θt) 处的值,得到
(
TLD
t
)
( \text{TLD}_t )
(TLDt) 的一个二次形式。
(
TLD
t
=
1
2
h
t
⊤
[
∫
0
1
∇
2
L
t
(
γ
t
(
β
)
)
d
β
]
h
t
)
( \text{TLD}_t = \frac{1}{2} \mathbf{h}_t^\top \left[ \int_0^1 \nabla^2 L_t(\boldsymbol{\gamma}_t(\beta)) \, d\beta \right] \mathbf{h}_t )
(TLDt=21ht⊤[∫01∇2Lt(γt(β))dβ]ht),其中
(
γ
t
(
β
)
=
θ
t
+
β
(
θ
final
−
θ
t
)
)
( \boldsymbol{\gamma}_t(\beta) = \boldsymbol{\theta}_t + \beta(\boldsymbol{\theta}_{\text{final}} - \boldsymbol{\theta}_t) )
(γt(β)=θt+β(θfinal−θt)) 并且
(
h
t
)
( \mathbf{h}_t )
(ht) 是
(
λ
)
( \boldsymbol{\lambda} )
(λ) 和
(
θ
)
( \boldsymbol{\theta} )
(θ) 的线性组合。
上界估计(Upper Bound Estimation)
使用NTK线性化和任务向量的正交性,论文推导出了
(
TLD
t
)
( \text{TLD}_t )
(TLDt) 的上界估计,这有助于简化问题并找到缩放系数的闭式解。
(
TLD
t
≤
δ
t
2
∥
θ
t
−
θ
0
∥
2
(
∑
k
≠
t
I
(
λ
k
2
)
∥
θ
k
−
θ
0
∥
2
)
)
( \text{TLD}_t \leq \delta_t^2 \|\boldsymbol{\theta}_t - \boldsymbol{\theta}_0\|^2 \left( \sum_{k \neq t} \mathbb{I}(\lambda_k^2) \|\boldsymbol{\theta}_k - \boldsymbol{\theta}_0\|^2 \right) )
(TLDt≤δt2∥θt−θ0∥2(∑k=tI(λk2)∥θk−θ0∥2))。
最优缩放系数(Optimal Scaling Coefficients)
论文最终给出了缩放系数
(
λ
t
)
( \lambda_t )
(λt) 的闭式解,这是一个二次优化问题,可以通过标准的方法求解。
(
λ
t
=
∥
θ
t
−
θ
0
∥
2
∑
k
=
1
n
∥
θ
k
−
θ
0
∥
2
)
( \lambda_t = \frac{\|\boldsymbol{\theta}_t - \boldsymbol{\theta}_0\|^2}{\sum_{k=1}^{n} \|\boldsymbol{\theta}_k - \boldsymbol{\theta}_0\|^2} )
(λt=∑k=1n∥θk−θ0∥2∥θt−θ0∥2)。