Int8量化 - 码农知识堂 - 文章详情页

Int8量化
Int8量化

int8量化是利用int8乘法替换float32乘法实现性能加速的一种方法
1. 对于常规模型有：y = kx + b，此时x、k、b都是float32, 对于kx的计算使用float32的乘法
2. 对于int8模型有：y = tofp32(toint8(k) * toint8(x)) + b，其中int8 *int8结果为int16
3. 因此int8模型解决的问题是如何将float32合理的转换为int8，使得精度损失最小（大家都提出了很多方法，比如KL散度，重新训练等，目的就是为了使得损失的精度最小）
4. 也因此，经过int8量化的精度会受到影响
Int8量化步骤（指在tensorRT实现int8量化）
1. 配置setFlag nvinfer1::BuilderFlag::kINT8，告诉编译器，我们的编译模式是int8。
2. 实现Int8EntropyCalibrator类并继承自IInt8EntropyCalibrator2。继承了IInt8EntropyCalibrator2这个类过后，重写覆盖它的一些函数，然后通过系统调用这些函数来实现跟你的交互和通信。
3. 实例化Int8EntropyCalibrator并且设置到config.setInt8Calibrator。这个时候就关联上了，它就可以去调用第二步中重写的那些函数了。
4. Int8EntropyCalibrator的作用，是读取并预处理图像数据作为输入。
  - 标定过程的理解：对于输入图像A，使用FP32推理后得到P1再用INT8推理得到P2，调整int8权重使得P1与P2足够的接近
  - 因此标定时需要使用一些图像，正常发布时，使用100张图左右即可
Int8EntropyCalibrator类主要关注：
1. 通过getBatchSize函数，告诉引擎，这次标定的batch是多少
2. 通过getBatch函数，告诉引擎，这次标定的输入数据是什么，把指针赋值给bindings即可，返回false表示没有数据了
3. 通过readCalibrationCache函数，若从缓存文件加载标定信息，则可避免读取文件和预处理，若该函数返回空指针则表示没有缓存，程序会重新通过getBatch重新计算
4. 通过writeCalibrationCache函数，当标定结束后，会调用该函数，我们可以储存标定后的缓存结果，多次标定可以使用该缓存实现加速
refer：int8类型
相关阅读:
深入探索Java中的MarkWord与锁优化机制——无锁、偏向锁、自旋锁、重量级锁
 postman接口测试系列：时间戳和加密
 pytorch中nn.DataParallel多次使用
 2022年6月的PMP考试，大家考的怎么样？
项目问题参考答案
 doT.js模板学习笔记
 Mac Typora + PicGo + Github配置图床
 R计算地理集中指数
 零基础Linux_2(基本指令_上)目录/文件的显示跳转创建删除
 selenium +IntelliJ+firefox/chrome 环境全套搭配
原文地址：https://blog.csdn.net/Rolandxxx/article/details/127716931