Skip to content

Latest commit

 

History

History
48 lines (33 loc) · 2.67 KB

python_inference.md

File metadata and controls

48 lines (33 loc) · 2.67 KB

Python Inference部署

1. 说明

飞桨针对不同场景,提供了多个预测引擎部署模型(如下图),更多详细信息请参考文档

inference_ecosystem

本文档介绍使用Paddle Inference的Python接口在服务器端(NV GPU或者X86 CPU)部署分割模型。大家通过一定的配置,加上少量的代码,即可把模型集成到自己的服务中,完成图像分割的任务。

2. 前置准备

请使用模型导出工具导出您的模型, 或点击下载我们的样例模型用于测试。

接着准备一张测试图片用于试验效果,我们提供了cityscapes验证集中的一张图片用于演示效果,如果您的模型是使用其他数据集训练的,请自行准备测试图片。

3. 预测

在终端输入以下命令进行预测:

python deploy/python/infer.py --config /path/to/deploy.yaml --image_path /path/to/image/path/or/dir

参数说明如下:

参数名 用途 是否必选项 默认值
config 导出模型时生成的配置文件, 而非configs目录下的配置文件 -
image_path 预测图片的路径或者目录或者文件列表 -
batch_size 单卡batch size 1
save_dir 保存预测结果的目录 output
device 预测执行设备,可选项有'cpu','gpu' 'gpu'
use_trt 是否开启TensorRT来加速预测 False
precision 启动TensorRT预测时的数值精度,可选项有'fp32','fp16','int8' 'fp32'
cpu_threads 使用cpu预测的线程数 10
enable_mkldnn 是否使用MKL-DNN加速cpu预测 False
benchmark 是否产出日志,包含环境、模型、配置、性能信息 False
with_argmax 对预测结果进行argmax操作

测试样例和预测结果如下 cityscape_predict_demo.png

注意

  1. 当使用量化模型预测时,需要同时开启TensorRT预测和int8预测才会有加速效果

  2. 使用TensorRT需要使用支持TRT功能的Paddle库,请参考附录下载对应的PaddlePaddle安装包,或者参考源码编译自行编译。

  3. 要开启--benchmark的话需要安装auto_log。安装方式