1、飞奖推理引擎性能优化1飞浆百度深度学习技术平台部商智洲#page#目录P飞浆1.PaddleInference基本介绍2.PaddleInference性能优化方法3.ERNIE模型优化4.PaddlleInference应用案案例#page#目录P飞浆1.PaddleInference基本介绍2.PaddleInference性能优化方法3.ERNIE模型优化4.PaddleInference应用案例#page#P飞菜飞奖深度学习平台飞浆企业版EasyDL零门槛AI开发平台BML全功能AI开发平台飞奖开源深度学习平台PARLPGLAutoDLPALMPaddleFlPaddle Quantu
2、m强化学习联邦学习紫区海专区自动化深度学习多任务学习量子机器学习工具组件PaddleHubPaddlexVisuaIDLPaddleClou预训练模型应用工具全流程开发工具可视化分析工具云上任务提交工具PaddeocRERNIEPaddleDetectionPaddleSegPLSCElasticCTRParakeetPaddleCla端到端开发套件医像分割语营合成语义理解图像分类文学识别拟尔原热发点击率预估目标检测AI Studio学习与实训社区PaddleNLPPaddlecvPaddleRecPaddleSpeech基础模型库开发训练推理部餐核心框架动态图大规横分布式训练工业级数据处理P
3、addle.jsanappd静态超Paddleslim安全与加密nerer#page#飞奖-推理场景P飞浆83服务器端高性能部署:PaddleInference模型服务化部署:PaddleServing侧重延退,吞吐,资源消耗(X86、NVGPU)侧重线上模型管理,弹性服务,A/B测试Mobile&loT: Paddle Lite&Paddleslim侧重性能,资源使用,部署体积Web端部署:PaddlejsARM、XPU、NPU、FPGA、MALI.浏览器部署场景#page#PaddleInference-飞浆核心框架原生推理引擎P飞浆多框架,多硬件,通用化,高性能CaffeONNXTens
4、orFlow飞浆核心框架(Paddle)X2PaddlePaddle ModelPaddle InferencePaddle LiteARM, OpenCL, FPGA,华为NPUX86,GPU,昆仑,飞腾RK NPU,MTKAPU.PaddleInference开源链接:https:/ config准备模型的输入config.SetModeldautoinput_names=predictor-GetlnputNames0;“.Jresnet50/model.“./resnet5O/params”;auto input t= predictorconfigEnableUseGpu(1000,
5、0);GetlnputTensor(input namesfo)config.SwitchUseFeedFetchOps(false);inputt-Reshape(input_shape);config.EnableMemoryOptim0;input_tcopy_from_cpu(input.data());/模型推理auto predictor= CreatePaddlePredictor(conigCHECK(predictor-sZeroCopyRunO)参数共享/获取模型的输出auto output names= predictor-GetOutputNames();auto ou
6、tput t=predictor-sGetOutputTensorloutput namesfoj)auto cloned predictor= predictor-sClone0output_t-copy_to_cpulout_data-data())#page#PaddleInference-显存优化P飞浆显存复用优化效果:25007000500060004000200050003000150040003000200010002000100050010000CBatchSize=32BatchSize=32BatchSize=32口优化后(单位:MB)口优化前口优化后(单位:MB)口优化前