《014-王得科.pdf》由会员分享,可在线阅读,更多相关《014-王得科.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、基于RISC-V云端推理NPU的大模型应用实践广州希姆半导体科技有限公司王得科2024/08/20目录希姆计算大模型推理软件栈基于RISC-V的云端推理NPU STCP920大模型政务智能问答应用实践1.2.3.基于RISC-V的云端推理NPU STCP920指令集:RISC-V精度:FP16/INT8算力:INT8:256 TOPS内存:16 GB LPDDR4X制程:12nm散热方式:被动应用:推理功耗:160W虚拟化:支持VM/Container规格:全高全长,单宽开发工具:希姆计算软件开发套件FP16:128 TFLOPS基于RISC-V扩展指令的领域专用架构NPCRISC-V Sca
2、lar CoreVectorUnitMemoryFetchMatrixUnitLD/STLD/STNeural Processor Core可扩展性高灵活度高效能比可编程性DSAScalar CoreI$FETCHDECEXEMEMWBD$DECISSUESYNCMTEL1 BufferData IO BufferWeight BufferMIFMIFIntermediate BufferREGBANKMACVECTORsqrtexpdivPOLYMACMATRIXDataInputBuffer说明希姆计算大模型推理软件栈stc-smi STC-LLM:大模型专用推理框架 DNN:针对硬件特点
3、高度优化的算子库 MLTC:深度学习编译器,MLIR based STCCL:高性能通信库 HPE:异构编程环境,提供运行时 驱动 监控调试工具等STC-LLMDNNMLTCSTCCLHPEstc-gdbstc-profstc-vprofstc-smistcqualToolsRuntime EnvironmentSDKlibraryRuntimeDriverFirmware需要解决的问题 国内外各种大模型及网络结构层出不穷,如何快速跟进 模型参数量大,如何在既有硬件条件下达到最佳性能 开源优化方案大多基于 GPU进行,如何取长补短,快速迁移适配 灵活性 vs 兼容性STC-LLM 推理加速框架
4、框架优势 适配主流的大模型算子 通过模板化、参数化管理各类网络结构 根据既有的硬件及指令集特点,开发针对性的优化策略 提供标准的 Entrypoint,适配主流大模型开发框架,例如 LangChain,llama-index,Dify 等 支持云原生技术部署推理集群,确保生产环境的稳定性与扩展性DeployServingWeights ConvertorCompiler AdaptorEntrypointMetricsInference ServerLLM TemplateDecoder-basedMOEmambaRWKVRuntimeMemory ManagerGeneration Pipe
5、lineOptimizationPaged AttentionQuantizationContinuousBatchingSpeculative SamplingModel ZooLLaMaQwenGLM.设计分层扩展的硬件系统和高性能深度学习编译器,实现大模型的自动化编译。基于MLIR的深度学习编译器-MLTC技术路线DeployPCIe加速卡、OAM模组、单机多卡整机系统、服务器集群深度学习编译器的性能优化整图调度算子融合自动软流水最佳指令选择深度学习编译器设计逐层下降的多层IR设计算子无关的Tiling框架可配置的优化Pass灵活的异构编程流程Pytorch、TensorFlow,Pad
6、dlePaddle、AI框架适配LLaMA2-7B、ChatGLM3-6B、Baidchuan2-6B、大模型适配系统架构Frontend ConverterSTC DialectGeneral Graph OptimizationGraph Tiling&SchedulingCanonicalizerData TypeConversionLayout OptimizationNormalizationGraph PartitionGroup SplitLLB GOATMC GOATSimplifyFuse OpsCSEOp Schedule LSTC DialectL1 GOATBank O