PyTorch对量化的支持目前有如下三种方式:
Post Training Dynamic Quantization,模型训练完毕后的动态量化;
Post Training Static Quantization,模型训练完毕后的静态量化;
QAT(Quantization Aware Training),模型训练中开启量化。
保存加载INT8模型
量化、保存、加载
动态量化函数torch.quantization.quantize_dynamic
模型各层的量化详解
神经网络量化入门
torchscript是一种从pytorch转化到可序列化和可优化模型的方法,任何模型都可以在python进程中保存成script格式,并且加载进不依赖python的进程中去。
详细讲解
troch.jit.trace
troch.jit.script
NCNN、ONNX、TensorRT、libtorch
主流推理架构详解