《英伟达(NVIDIA):推荐系统构建、部署和优化的最佳实践(38页).pdf》由会员分享,可在线阅读,更多相关《英伟达(NVIDIA):推荐系统构建、部署和优化的最佳实践(38页).pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、推荐系统:构建、部署和优化的 最佳实践2执行摘要我们根据对零售、媒体、电子商务等领域利用推荐系统(recsys)的知名企业的技术负责人的 一系列访谈,编制了本报告。腾讯和纽约时报等均参与了这项研究工作。本报告的目标受众包括目前正在构建或考虑为生产用例构建推荐系统的数据科学家和机器学习工程师。核心目标是通过提供该领域专家的实用见解以及阐明构建、部署和优化推荐系统的 最佳实践,为开展更广泛的行业对话做出贡献。通过本研究确认的核心假设包括:1.构建相关推荐系统是一个艰难的过程2.整个行业对分享最有效的方法持开放态度,这对于该领域的发展至关重要 因此,编制本报告旨在展示以下方面:1.行业内推荐系统实践
2、的趋势预览2.推荐系统简史,介绍 1979 年到 2009 年期间,从学术试验到大规模商业成功的演进过程3.专家访谈内容的精选摘录4.对观察到的趋势进行总结,并指明未来的发展轨迹5.深度访谈内容的精选摘录,探讨推荐系统实践的背景信息和细微差别构建、部署和优化的最佳实践|执行摘要3推荐系统:起源故事纵观行业内的推荐系统实践,会发现许多共同之处业界面临共同的挑战,有着共同的顾虑,拥有共同的前瞻性研究领域。同样,纵观推荐系统的历史,随着新的团队开启各自的旅程,并开始从中学习,可以确定几十年来重复不断的一些主题。除了上述两个问题之外,这项研究还提出了其他一些要点:1.对于那些刚刚开启推荐系统之旅者,专
3、家们给出了几乎一致的建议:与其急于实施可能符合潮流趋势却复杂的机器学习模型,倒不如先从简单模型着手,想想自己真正需要的是什么。2.必须了解生产中使用的指标并全面了解手头用例的目标函数,这一点至关重要。3.尽管推荐系统过去被认为是单点解决方案,但它们正在深入地扩展到业务运营的方方面面。利润率历来微薄的垂直行业现正在使用推荐系统来发展其业务,同时提高客户的信任度和 忠诚度。4.推荐系统的许多生产用例都对快速推理有一定的要求,通常要求在 100 毫秒内完成推理。随着更先进的人工智能(AI)技术的出现,它们的运行速度是否足以适应这些限制?硬件加速成为推动因素。5.与行业内推荐系统实践相关的热门话题包括
4、使用特征存储库,利用图神经网络和模型蒸馏。6.经验教训:为系统升级和不断增长的用例制定路线图规划。尽可能利用有助于推动向前发展的技术,这样不仅能满足目前的扩展要求,而且还能满足未来几年内业务取得成功的需求。推荐系统的趋势预览毫无疑问,开源不仅仅只是行业内推荐系统的一种选择,它已经成为入场筹码了。开源生态 系统中工具的互操作性对于降低项目风险至关重要,在考虑项目的整个生命周期时尤为如此。这种工具必须足够灵活,才能为试验和探索工作提供支持,同时还必须承认尚未出现的新技术。另一个需要解决的就是数据问题。自从 2000 年代中期提出“大数据”概念以来,在机器学习方面有一个众所周知的事实,那就是拥有的数
5、据越多,数据的质量越高,构建出的模型往往就越有效。当然,这个道理同样适用于推荐系统。我们不能仅仅依靠卓越的算法来生成模型,还必须拥有良好的训练数据、用于推理的良好客户数据、可靠的反馈以及用于评估指标的仪器等。将有效的数据准备工作放在首位很可能成为一项恒久不变的要求。此外,随着推荐系统的用例大获成功,数据速率将会提升。此外,还涉及从数据中学习的问题,因为需要对指标进行优化才能取得成功。这甚至有助于将数据科学人员重新培养为 指标工程师,以全面了解生产中的推荐系统。构建、部署和优化的最佳实践|推荐系统的趋势预览4本节将回顾一些有助于建立推荐系统领域的著名项目。特别是,本节还会追溯从早期学术试验到大规
6、模商业成功的演进过程。我们可以从过去的模式中汲取经验教训,也可以史为鉴,比较当代实践的问题和主题。20 世纪 90 年代之前:Grundy、深度模型和相关著作早在 20 世纪 90 年代,就提出了上线运行的推荐系统的概念,用于密切追踪万维网的整体增长 情况。让我们来回顾 Elaine Rich 早期开展的名为 Grundy 的项目,她在卡内基梅隆大学从事 博士研究时启动了该项目,随后她在德克萨斯大学奥斯汀分校担任教职工作期间继续研究该项目。Rich 探索了如何使用原型来构建和泛化用户模型。该系统会向用户推荐小说(就像图书管理员那样),然后用户就推荐书籍的质量提供反馈。这项工作处于机器学习相对早