1、大模型在ToB企服领域的技术和应用实践李翔 WakeData演讲嘉宾李翔惟客数据 AI 算法科学家中山大学人工智能方向博士&博士后,珠海市产业青年优秀人才,在人工智能领域有 11 年的研究与落地经验;熟悉资讯流推荐、画像预测标签、NLP、CV、语音识别等多个 AI 方向,并将对应落地成果发表在国际一流期刊以及申请多项发明技术专利目 录CONTENTS1.大模型发展脉络以及对趋势的预判2.大模型在ToB企服领域有哪些机会3.私有化大模型的一些技术细节4.WakeData的思路和实践大模型发展脉络以及对趋势的预判PART 01大语言模型发展概览闭源大模型:OpenAI模型的演进OpenAI Dev
2、DayGPT-4 Turbo多模态API降价&提速Agent工具GPT商店开源大模型:LLaMA家族开源VS闭源:观点和思考观点一:闭源会一直遥遥领先来自OpenAI&Anthropic的高层的一个饭局观点二:开源会无限接近闭源企业:Meta的LLaMA高校:研究方向的香饽饽依据:壁垒会在哪里?数据:公开数据,RLHF的标注数据数据积累:OpenAI VS Google相比数据飞轮,数据质量更重要人才:流通算力:卡的数量要到什么级别,真的是越多就能形成壁垒吗?大模型发展方向的预判1 多模态:GPT4-V、BLIP-2、LLAVA、Qwen-vl、CogVLM-17B2 对上下文长token的支
3、持:Claude、月之暗面、百川3 微调技术:LongLora4 Agent:AutoGPT、MetaGPT5 减少幻觉:长期大模型在ToB企服领域有哪些机会PART 02大模型在ToB领域的产品化和商业化思考场景模型行业/领域大模型基础大模型竞争格局?大厂vs.创业?闭源vs.开源LESME生成式AI内部价值链外部价值链单点式创新系统性创新私有化部署SaaS+营销域服务域内部效能独立自建行业合作/云端调用“训”vs.“用”:使用大模型的几种方式01提示词模式(Prompt only)直接使用提示词调用API02嵌入向量模式(Embedding)03精调模型模式(Fine-tune)将知识预处
4、理存入向量数据库,提问时通过相似度查询找到关联知识,然后跟问题一起加入提示词,再调用API将知识通过Fine-Tune训练存入大模型为什么要有领域大模型?1 一切的一切,都是为了【效果】2 GPT4 的MoE模式3 长期过程:很多领域知识不可见不同的声音:智谱AI不做细分行业的【行业模型】,因为对大模型的通用性有信心为什么要做私有化大模型?1 私有数据让大模型的效果更好2 数据隐私和安全3 降低大模型使用成本相关公司:MosaicML :Databricks以13亿美金收购,在上一轮的融资中,其估值为2.2亿美元,估值提升6倍Reka:5800万美金A轮MistralAI:1.13亿美元种子轮
5、智谱AIMiniMax私有化大模型的一些技术细节PART 03如何挑选模型?什么是BaseModel,什么是ChatModel如何挑选模型?测试数据集范围形式规模C-Eval人文、社科、理工等52个学科13948道单选题,涉及52个学科,4类不同难度(初中、高中、大学、专业)学科知识,难度跨度合适,缺乏对生成表达能力的考察CMMLU常识类、人文、社科、理工等共67个主题11,528道单选题,其中67个主题每个主题至少105道题学科知识,选择题适合快速评测,缺乏对生成表达能力的考察Gaokao-Bench2010-2022年高考试卷,包括文科和理科2811道题目,包括选择、填空、解答数据质量高,
6、范围窄、跨度小,主观评测需要人工参与,成本较高仅供参考-在榜单上得到高分的方式:从GPT-4的预测结果蒸馏,找人工标注然后蒸馏;在网上找到原题加入训练集中微调模型。然而这样得到的分数是没有意义的如何挑选模型?公司模型Token规模MetaLLaMA7、13、70TIIFalcon1T-3.5T7、40、180智谱chatGLM6百川Baichuan2.6T7、13上海AI labInternLM2.3T7、20阿里Qwen2.4T-3T7、14零一万物Yi3T6、34元象Xverse2.6-3.2T7、13、65如何低成本部署?GeForce RTX 3