当前位置:首页 > 报告详情

2025年NVIDIA AI研发技术开放日主题演讲PPT(206页).pdf

上传人: YY 编号:723545 2025-07-02 206页 12.56MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。

相关图表

根据报告的内容,本文主要涵盖以下关键点: 1. NVIDIA NeMo框架支持LLaMA模型的全周期开发,包括预训练、微调和推理加速。LLaMA-7B在H100上使用TensorRT加速后,生成速度提升3.96倍。 2. TensorRT Hackathon 2023总结,共729支队伍参赛,40支队伍进入复赛。复赛作品质量极高,部分可集成到TensorRT-LLM。LLaMA-7B使用TensorRT加速后,生成速度提升3.96倍。 3. 使用RAPIDS RAFT加速向量数据库,支持多种近似最近邻搜索算法,如IVF-Flat、IVF-PQ、CAGRA等。在1亿向量上,IVF-PQ搜索速度比暴力搜索快100倍。 4. HPS是一个为推荐系统设计的参数服务器,支持分层存储和高效的缓存。在Criteo数据集上,HPS比CPU工作流快2.5倍。 5. 文章还介绍了GPU编程优化、向量数据库加速策略、推荐系统优化策略等。
如何在NVIDIA NeMo中实现LLaMA全周期开发? 如何使用TensorRT加速LLaMA推理? 如何优化向量数据库的加速策略?
客服
商务合作
小程序
服务号
折叠