TensorRT 推理加速笔记

最近在看模型部署这块，绕不开 TensorRT。它和训练框架不是一个层面的东西，定位很明确：对一个已经训练好的神经网络做 inference 的加速。把它的思路理一理。

它在优化什么

TensorRT 的加速主要靠两件事——合并层（combining layers）和自动选择最优 kernel（optimizing kernel selection）。优化的目标可以拆成这么几个推理时真正关心的指标：

在硬件允许的情况下，它还可以混合比特、用低精度（比如 FP16/INT8）来进一步压时间和显存。

整体框架大致如下，中间这几块就是主要的优化点：

TensorRT 拿到网络的计算图之后，会在 graph 这一层做一系列改写：

TensorRT 可以把各种框架（TensorFlow、Caffe、ONNX 等）构建的模型转换成它自己的 engine。用起来 C++ 和 Python 都行，主要就这么几步：

简单说，TensorRT 干的活就是：拿走训练好的模型，在图层面把能省的都省掉，再针对当前 GPU 选一套最快的 kernel，必要时降精度，最后打包成一个可以直接部署、反复加载的 engine。

2019 · 03 · 20