1、当LLM遇到数据仓库从数据处理、模型微调到知识增强的应用开发,一切都将变得更容易杨胜文酷克数据首席科学家目录Contents关于LLM的一些观察和思考HashData助力LLM规模化应用HashML大幅降低LLM应用门槛应用案例总结及展望ClaudeLLaMA国内“百模大战”之冰山一角ChatGPT引爆对LLM的研发热潮国外LLM研发典型代表https:/futureoflife.org/open-letter/pause-giant-ai-experiments/关于LLM的一些争议亟需AI科学家就AI的风险和发展形成共识Bard.学术争议不影响LLM应用遍地开花ChatGPT API及插件
2、生态PaLM2支撑的谷歌应用微软Copilots家族优点:快速接入灵活选择服务提供商企业应用千亿级参数LLM的两种模式及其优缺点问题:服务条款限制数据泄漏风险专属模型成本高优点:无数据泄漏风险模型定制更加方便问题:模型微调/部署成本高高质量数据获取硬件需求对技术人员要求较高开发、运维如何实现LLM在企业低成本落地?一些观察千亿级参数大型LLM尚未解决诸如规划、逻辑推理以及生成“幻觉”问题百亿级参数LLM已经具备优秀的语言理解和生成能力低成本私有化部署,满足企业对数据安全的要求低成本模型推理,可在CPU、消费级显卡甚至移动设备上实现推理低成本模型微调,可通过PEFT方法在单张消费级显卡上实现快速
3、高效的模型微调可灵活对接企业IT系统,与已有应用做无缝集成一点想法LLM进一步发展面临的科学难题交给世界顶尖的科学家和研究机构充分利用百亿级参数LLM模型优异的语言理解和生成能力,结合企业应用需求,构建各种垂直智能应用,推动LLM在企业的规模化落地百亿级参数LLM的优势karpathy/nanoGPTLightning-AI/lit-llamaDeepSpeedTransformersOpenWebTextWikipediaBookCorpusCommon CrawlLLaMA/Alpaca/Vicuna/GuanacoMPT-7BFacon-7B/40BCPM-BeeAquila日益繁荣的开
4、源生态为大规模企业应用创造了条件Vicuna7B13BGuanaco7BFalcon*7B40BCPM-Bee*10BAquila*7B33BChatGLM6BChatGLM26B2K-32KBaichuan*7BMPT*7B百川智能对商业使用友好的开源模型已经出现HashData助力LLM规模化应用HashData:存算分离的云原生分析型数据库1个 元数据集群1个 共享存储N个 计算集群管理控制台集群创建、启停、扩容、升级等服务计算集群-1SSSS计算集群-2计算集群-3元数据集群共享存储(对象存储)M对象存储 1对象存储 2对象存储 nVM/对象存储等基础设施管理集群状态监控、故障告警、故
5、障恢复 元数据、计算与存储分离,计算集群按需搭建,横向扩展,解决传统MPP 数据库单一集群并发和计算能力受限问题 统一的元数据和存储服务,形成权威的企业级数据视图,实现多个计算集群间数据共享 云上资源灵活伸缩,提高运维效率,降低复杂度,解决木桶效应等问题 SSMSSSM云基础设施(公有云、私有云、资源池)双计算引擎支持LLM模型的高效微调 向量数据库能力赋能智能应用搭建基于HashData的LLM低成本落地方案HashML大幅降低LLM应用门槛HashML:新一代高级分析&数据科学工具箱DescriptiveAnalyticsPredictiveAnalyticsPrescriptiveAna
6、lyticsWhat happened?What willhappen?How to makeit happen?复杂度价值 基于业界领先的云数仓产品HashData研发的一款AI开发工具 提供从数据查询处理、高级分析到ML/DL模型的训练、推理和服务部署的全套工具,包括对LLM的支持 提供Python和SQL两种编程语言接口HashML主要功能概览HashML产品特色HashHL产品特色性能卓越多机多卡训练推理算法丰富支持ML/DL/LLM标准接口开箱即用简单易用基于HashML的分布式并行处理数据tokeniz