NTT和它的常数技巧

第一次做FFT/NTT的题就是一题超难的…想看系数优化的可以跳2。

1. FFT/NTT简单原理：

总结来说：

$O (Nl o g N)$ 把多项式系数表示转换成点表示
$O (N)$ 在点操作上做各种操作
$O (Nl o g N)$ 把点表示转换回系数表示

假设我们现在要做大整数相乘 $(\overline{a_N...a_2 a_1 a_0})_{10} * (\overline{b_N...b_2 b_1 b_0})_{10}$ 正常来说我们需要一位一位来乘，需要 $O(N^2)$ 复杂度。

让我们看看另外一个思路：
其实我们要计算 $F_a(10)*F_b(10)$
，其中

{\begin{cases} F_{a} (x) = a_{0} + a_{1} * x + a_{2} * x^{2} + . . . + a_{n} * x^{N} \\ F_{b} (x) = b_{0} + b_{1} * x + b_{2} * x^{2} + . . . + b_{m} * x^{N} \end{cases}

{F_{a} (x) = a_{0} + a_{1} * x + a_{2} * x^{2} + ... + a_{n} * x^{N} F_{b} (x) = b_{0} + b_{1} * x + b_{2} * x^{2} + ... + b_{m} * x^{N}

令

G(x) = F_a(x)*F_b(x)

如果我们可以求出

G (x)

，那么代入

G (10)

就可以在

O (2 N) = O (N)

（多项式应该会有

2 N - 1

项）时间内算出结果来了！

传统暴力求 $G (x)$ 需要 $O(N^2)$ 时间，但是FFT/NTT可以做到在 $O (Nl o g N)$ 求出来。我们上面看到的表示叫做系数表示法，其实多项式还可以用点表示：

{\begin{cases} F_{a} (x) = [(x_{0}, F_{a} (x_{0})), (x_{1}, F_{a} (x_{1})), . . ., (x_{n}, F_{a} (x_{N}))] \\ F_{b} (x) = [(x_{0}, F_{b} (x_{0})), (x_{1}, F_{b} (x_{1})), . . ., (x_{n}, F_{b} (x_{N}))] \end{cases}

{F_{a} (x) = [(x_{0}, F_{a} (x_{0})), (x_{1}, F_{a} (x_{1})), ..., (x_{n}, F_{a} (x_{N}))] F_{b} (x) = [(x_{0}, F_{b} (x_{0})), (x_{1}, F_{b} (x_{1})), ..., (x_{n}, F_{b} (x_{N}))]

就跟两点可以确定一直线、三个点可以确定一个二次方程一样，只要有

N + 1

个点，我们就可以确定一个最高次为

N

的多项式。

得到这些点后，我们可以在 $O (N)$ 时间内得到 $G (x)$ 的点表示（乘起来就好啦）：

\begin{aligned} G (x) & = [(x_{0}, G (x_{0})), (x_{0}, G (x_{0})), . . ., (x_{n}, G (x_{N}))] \\ = [(x_{0}, F_{a} (x_{0}) F_{b} (x_{0})), (x_{1}, F_{a} (x_{1}) F_{b} (x_{1})), . . ., (x_{n}, F_{a} (x_{N}) F_{b} (x_{N}))] \end{aligned}

G (x) = [(x_{0}, G (x_{0})), (x_{0}, G (x_{0})), ..., (x_{n}, G (x_{N}))] = [(x_{0}, F_{a} (x_{0}) F_{b} (x_{0})), (x_{1}, F_{a} (x_{1}) F_{b} (x_{1})), ..., (x_{n}, F_{a} (x_{N}) F_{b} (x_{N}))]

问题是，光是求

F_a(x)

的点表示就需要

O(N^2)

的时间！（因为总共有

N

个

x

，对于每个

x

我们要用

N

次加法来求

F_a(x)

）。

假设 $n$ 是一个奇数（如果不够可以补零）， $F_a(x)$ 可以变成这样子

\begin{aligned} F_{a} (x) & = a_{0} + a_{1} * x + a_{2} * x^{2} + . . . + a_{n} * x^{n} \\ = (a_{0} + a_{2} * x^{2} + . . . + a_{n - 1} * x^{n - 1}) + (a_{1} * x + a_{3} * x^{3} + . . . + a_{n} * x^{n}) \\ = (a_{0} + a_{2} * x^{2} + . . . + a_{n - 1} * x^{n - 1}) + x (a_{1} + a_{3} * x^{2} + . . . + a_{n} * x^{n - 1}) \\ = U (x) + x V (x) \end{aligned}

F_{a} (x) = a_{0} + a_{1} * x + a_{2} * x^{2} + ... + a_{n} * x^{n} = (a_{0} + a_{2} * x^{2} + ... + a_{n - 1} * x^{n - 1}) + (a_{1} * x + a_{3} * x^{3} + ... + a_{n} * x^{n}) = (a_{0} + a_{2} * x^{2} + ... + a_{n - 1} * x^{n - 1}) + x (a_{1} + a_{3} * x^{2} + ... + a_{n} * x^{n - 1}) = U (x) + x V (x)

拆解出来的奇偶项其实就有一点分制的意味了。如果我们可以找到两个特殊的输入

x_{\alpha}

、

x_{\beta}

使得

{\begin{cases} F_{a} (x_{α}) = U (x^{'}) - x V (x^{'}) \\ F_{a} (x_{β}) = U (x^{'}) + x V (x^{'}) \end{cases}

其中

x^{'}

是跟

x

有关的一个量，那么我们可以只求

U (x^{'})

、

V (x^{'})

，从而同时求得

F_a(x_{\alpha})

、

F_a(x_{\beta})

。注意到

U

、

V

的规模都是之前的一半，所以最后的复杂度是

O (Nl o g N)

。

怎么找到特殊的 $x_{\alpha}$ 、 $x_{\beta}$ 和 $k^{'}$ 呢？这里就涉及到各种复杂但巧妙的数学了。同时，我们还需要把点表示变回成多项式表示，这个可以用相似的步骤在 $O (Nl o g N)$ 时间做到。

想读更多？

FFT
- https://www.cnblogs.com/RabbitHu/p/FFT.html
- https://blog.csdn.net/enjoy_pascal/article/details/81478582
NTT
- https://zhuanlan.zhihu.com/p/80297169
- https://www.cnblogs.com/zhouzhendong/p/fast-fourier-transform.html
怎么用FFT/NTT
- 入门
- 有点抽象有点进阶

2. NTT常数优化

尽管FFT/NTT是 $O (Nl o g N)$ 的，但它的常数有时可以很大以至于TLE。这次学到了一些技巧：

自底向上非递归优化

把递归版本写成自底向上的非递归，常规优化了

蝴蝶优化

这个很多博客都有写，常规优化了

缓存逆

inverse的时候（求IFFT或者INTT），需要计算N的逆，这个缓存下来似乎不能省太多时间

正向NTT的根得到逆向NTT的根

NTT有一个特点就是除了第一个根，第二到最后一个根的顺序，在正向NTT和逆向NTT的时候恰好是相反的。可以只求一个。

缓存+递增根数组

观察一下 $n=2^2$ 的根数组和 $n=2^3$ 的根数组，后者其实是前者插入一些值得到的。我们可以维护并复用一个递增的根数组来省时间。

根数组减半

对于一个 $N$ 长的数组，我们可以只用 $N /2$ 个根来完成正/反向NTT。但反向的NTT要求我们从Maxsize开始取根而不是从最小开始（我也暂时想不懂里面的数学T_T）。

特判数组相同

当两个输入多项式相同的时候，第二个数组可以跳过正向的NTT

暴力处理小数组

当 $n$ 很小(150?)的时候， $O(N^2)$ 的暴力不比高常数系数的 $O (Nl o g N)$ 差

裁剪结果多项式

假设两个输入的多项式长度为 $n$ 、 $m$ 的时候，我们可以把结果裁剪到 $n + m - 1$ 长度。好处是如果有多个多项式要相乘，这样子做可以减少一些NTT时候的长度。

缓存交换数组的下标

对于每个 $n$ ，可以把要交换的下标缓存下来，每次调用就可以了。注意如果用一个unordered_map>来缓存数组的话，一定要用一个引用来访问vector里的东西，要不然indexing看起来 $O (1)$ 的操作其实常数也是很高的。

Show me the code

官方题解挺全面的，就是要自己慢慢读：https://www.codechef.com/submit/EXPDIF?tab=solution
（如果有人看帖子的话）想要参考我的模板的话可以留言。

相关阅读:
C++内点法求解大规模线性规划问题——对标MATLAB中linprog函数
在多核异构SoC平台上进行软件开发
【服务器数据恢复】EXT3文件系统的RAID5数据恢复案例
代码圈复杂度治理小结
浏览器的缓存机制强制缓存 && 协商缓存
最近对前端构建工具的一些理解
GoogleTest--事件
网站内链外链批量抓取工具
2022“杭电杯”中国大学生算法设计超级联赛（10）
2024暑期实习八股笔记

原文地址：https://blog.csdn.net/Laishao_yuan/article/details/126071408