TensorRT基础笔记

一，概述

TensorRT 是 NVIDIA 官方推出的基于 CUDA 和 cudnn 的高性能深度学习推理加速引擎，能够使深度学习模型在 GPU 上进行低延迟、高吞吐量的部署。采用 C++ 开发，并提供了 C++ 和 Python 的 API 接口，支持 TensorFlow、Pytorch、Caffe、Mxnet 等深度学习框架，其中 Mxnet、Pytorch 的支持需要先转换为中间模型 ONNX 格式。截止到 2021.4.21 日， TensorRT 最新版本为 v7.2.3.4。

延迟和吞吐量的一般解释：

延迟 (Latency): 指执行一个操作所花的时间。
吞吐量 (Throughput): 在单位时间内，可执行的运算次数。

二，TensorRT 工作流程

在描述 TensorRT 的优化原理之前，需要先了解 TensorRT 的工作流程。首先输入一个训练好的 FP32 模型文件，并通过 parser 等方式输入到 TensorRT 中做解析，解析完成后 engin 会进行计算图优化（优化原理在下一章）。得到优化好的 engine 可以序列化到内存（buffe

相关阅读:
基于HTML+CSS+JavaScript制作简单的大学生网页设计——关于我的家乡湖南网页设计主题
CSS动效合集之实现气泡发散动画
Linux CentOS 8（用户组的管理实验）
如何购买并配置华为云服务器？
17、生成长图，并上传至服务器
Linux创建用户及sumba服务器创建用户
Qt——对话框详解
10段实用Python代码，帮我省了几万块钱
KWin、libdrm、DRM从上到下全过程 —— drmModeAddFBxxx（20）
游戏测试相关测试一个英雄的技能（春招被问比较多的一道题）

原文地址：https://blog.csdn.net/qq_20986663/article/details/126871901