014-王得科.pdf

编号:725315 PDF 18页 5.17MB 下载积分:VIP专享
下载报告请您先登录!

014-王得科.pdf

1、基于RISC-V云端推理NPU的大模型应用实践广州希姆半导体科技有限公司王得科2024/08/20目录希姆计算大模型推理软件栈基于RISC-V的云端推理NPU STCP920大模型政务智能问答应用实践1.2.3.基于RISC-V的云端推理NPU STCP920指令集:RISC-V精度:FP16/INT8算力:INT8:256 TOPS内存:16 GB LPDDR4X制程:12nm散热方式:被动应用:推理功耗:160W虚拟化:支持VM/Container规格:全高全长,单宽开发工具:希姆计算软件开发套件FP16:128 TFLOPS基于RISC-V扩展指令的领域专用架构NPCRISC-V Sca

2、lar CoreVectorUnitMemoryFetchMatrixUnitLD/STLD/STNeural Processor Core可扩展性高灵活度高效能比可编程性DSAScalar CoreI$FETCHDECEXEMEMWBD$DECISSUESYNCMTEL1 BufferData IO BufferWeight BufferMIFMIFIntermediate BufferREGBANKMACVECTORsqrtexpdivPOLYMACMATRIXDataInputBuffer说明希姆计算大模型推理软件栈stc-smi STC-LLM:大模型专用推理框架 DNN:针对硬件特点

3、高度优化的算子库 MLTC:深度学习编译器,MLIR based STCCL:高性能通信库 HPE:异构编程环境,提供运行时 驱动 监控调试工具等STC-LLMDNNMLTCSTCCLHPEstc-gdbstc-profstc-vprofstc-smistcqualToolsRuntime EnvironmentSDKlibraryRuntimeDriverFirmware需要解决的问题 国内外各种大模型及网络结构层出不穷,如何快速跟进 模型参数量大,如何在既有硬件条件下达到最佳性能 开源优化方案大多基于 GPU进行,如何取长补短,快速迁移适配 灵活性 vs 兼容性STC-LLM 推理加速框架

4、框架优势 适配主流的大模型算子 通过模板化、参数化管理各类网络结构 根据既有的硬件及指令集特点,开发针对性的优化策略 提供标准的 Entrypoint,适配主流大模型开发框架,例如 LangChain,llama-index,Dify 等 支持云原生技术部署推理集群,确保生产环境的稳定性与扩展性DeployServingWeights ConvertorCompiler AdaptorEntrypointMetricsInference ServerLLM TemplateDecoder-basedMOEmambaRWKVRuntimeMemory ManagerGeneration Pipe

5、lineOptimizationPaged AttentionQuantizationContinuousBatchingSpeculative SamplingModel ZooLLaMaQwenGLM.设计分层扩展的硬件系统和高性能深度学习编译器,实现大模型的自动化编译。基于MLIR的深度学习编译器-MLTC技术路线DeployPCIe加速卡、OAM模组、单机多卡整机系统、服务器集群深度学习编译器的性能优化整图调度算子融合自动软流水最佳指令选择深度学习编译器设计逐层下降的多层IR设计算子无关的Tiling框架可配置的优化Pass灵活的异构编程流程Pytorch、TensorFlow,Pad

6、dlePaddle、AI框架适配LLaMA2-7B、ChatGLM3-6B、Baidchuan2-6B、大模型适配系统架构Frontend ConverterSTC DialectGeneral Graph OptimizationGraph Tiling&SchedulingCanonicalizerData TypeConversionLayout OptimizationNormalizationGraph PartitionGroup SplitLLB GOATMC GOATSimplifyFuse OpsCSEOp Schedule LSTC DialectL1 GOATBank O

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(014-王得科.pdf)为本站 (山哈) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠