《商恒超-盘古多语言大模型业务落地探索.pdf》由会员分享,可在线阅读,更多相关《商恒超-盘古多语言大模型业务落地探索.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、盘古多语言大模型业务落地探索 华为2012文本机器翻译实验室/商恒超提纲机器翻译Lab-业务动机泰语&阿语大模型现状盘古大模型支持多语言(TH/AR)的实现基于RAG的呼叫中心提效基于Agent的个性化营销活动机器翻译Lab-业务动机机器翻译Lab业务与动机传统模型时代传统模型时代:支撑内部(华为云、终端、资料)翻译诉求同声传译大模型时代大模型时代:大模型机器翻译:使用LLM提升翻译能力翻译辅助LLM:大模型翻译相关任务增强、多语言大模型(数据、策略)承接承接翻译根技术翻译根技术泰语&阿语大模型现状泰语&阿语大模型现状2022年OpenAI ChatGPT的出现,率先展现出大模型的无限潜力,掀
2、起了Decode-Only架构大模型的研究浪潮泰语&阿语大模型现状目前的大模型主要以英文、中文为主,对中低资源语种的支持较少目前支持泰语的大模型ChatGPT/GPT-4、LLama3.1PolyLMWangChanGLMTyphoon支持阿语的大模型:ChatGPT/GPT-4JaisAceGPT泰语&阿语大模型现状泰语、阿语(低资源语种)大模型需求与发展的矛盾语言使用人口数量高 vs.语言数据占比低Llama 2:2万亿token语言分布语言人口数据泰语&阿语大模型现状泰语、阿语(低资源语种)大模型需求与发展的矛盾单语数据稀缺,训练资源昂贵对话数据稀缺,尤其是多轮对话人类偏好数据稀缺,RL
3、HF训练繁琐如何直接将高资源语言知识迁移至低资源语言?盘古大模型支持多语言的实现(泰语为例)盘古大模型支持多语言的实现机器翻译桥接-最朴素(No Training)机器翻译+高资源语种大模型Work Well问题:错误传递、文化风格、知识缺失等泰语Question泰英翻译英语大模型英泰翻译泰语Answer盘古大模型支持多语言的实现开源常规适配训练范式:以Typhoon为例(Training)Base LLM:Mistral-7B扩词表:增加5K泰语tokenCPT(Continue PreTraining):50/50比率的泰英数据SFT(Supervised Fine-Tuning)盘古大模
4、型支持多语言的实现Training范式的分析:只用泰语数据?英文+泰语的混合基于Base模型做适配?基于Instruct模型?英文知识会被遗忘,等同重训 注入泰语知识的同时,缓解灾难性遗忘 泰语对话能力需要重新构建 强英文对话能力可以服务于泰语(Helpfulness&Safety)盘古大模型支持多语言的实现再次思考“翻译桥接”把机器翻译做到LLM中,变成一种思维链(CoT)Step1:LLM将泰语问题翻译为英文问题Step2:LLM给出英文回答Step3:LLM将英文答案翻译为泰语答案盘古大模型支持多语言的实现基于翻译思维链(MT-COT)的方式 利用LLM知识,翻译质量更好 非级联系统,缓
5、解错误传递 实现泰语英语知识更好的对齐 LLM越强,COT后泰语能力越强盘古大模型支持多语言的实现显式MT-CoT要解决的问题:泰语知识的注入,以及英文知识的保留 EN-TH 双向翻译能力的增强显式MT-COT的问答模式的学习LLM英文对话能力的保留盘古大模型支持多语言的实现模型结构与适配策略:必要时扩展词表使用LoRA减少对基础模型的扰动多阶段训练,任务拆解盘古大模型支持多语言的实现MT-COT的三阶段训练策略阶段1:扩展泰语词表,泰语数据CPT(泰语知识注入)阶段2:英泰双向翻译+英文单语CPT(跨语言对齐+英文能力保持)Sent_TH Sent_EN,Sent_EN Sent_TH阶段3
6、:MT-COT能力迁移SFTRecovery KD:Query_EN Response_EN-KD(英文对话能力召回)MT-COT:Query_TH Query_EN Response_EN Response_THEN-TH MT:Translation prompt(En,TH)(翻译能力激活)盘古大模型支持多语言的实现MT-COT的训练配置 Base LLM:Pangu13B-Instruct、Llama2/3 TH 单语:10B 泰语MC4+数据工程 EN-TH MT:100W 自有高质量 SFT数据:Alpaca/自有SFT+翻译 训练平台:华为云 ModelArt+D910B*512