《9-6预训练的应用挑战与实践探索.pdf》由会员分享,可在线阅读,更多相关《9-6预训练的应用挑战与实践探索.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、预训练的应用挑战与实践探索 小米AI实验室NLP团队 崔建伟 2020-07-25 预训练简介 预训练应用挑战 预训练实践探索 总结 分享大纲 预训练简介 词向量 静态 Word Embedding 上下文相关 Word Embedding CBOW/Skip-GramEmbedding Matrix 任务相关: 任务无关: 苹果公司最近发布新产品 喜欢吃苹果吗? 任务相关网络 序列建模方法 LSTMTransformer 远距离的词语间接交互SelfAttention: 任意词语间直接交互 Multihead Attention: 不同类型语义交互 预训练模型 BiLSTM + Langua
2、ge Model Feature based Pretraining Transformer + Language Model Transformer + Mask Language Model ELMoGPTBERT BERT模型 非监督语料 1B+ 监督语料 100k Mask Language Model Next Sentence Prediction 分类、序列标注等 PretrainFinetune BERT效果 灵活适配下游任务效果显著提升 参数规模 BertBase:110M BertLarge: 340M 预训练模型发展 参数规模持续增长 预训练落地挑战 预训练对话系统 周末
3、/去/哪儿/玩周末去哪儿玩 意图分类 天气音乐 聊天电台 Query Reply 去爬山吧 Q-Q匹配 生成Q-R 语义断句分词 周末/去/哪儿/玩 预训练挑战 挑战一:推理延时高、成本高 BertBase参数规模 100M, 推理延时(P99) 200ms, 单卡QPS约100 预训练挑战 挑战二:知识融入 Query:播放张杰的歌 实体知识:歌手、歌曲名等 预训练挑战 挑战三: 如何根据任务调整 模型和训练 Query:这是一家移动互联网公司 粗粒度:这/是/一家/移动互联网/公司 细粒度:这/是/一家/移动/互联网/公司 Q(“周末去哪儿玩”)- R(“去爬山吧”) Seq2Seq生成+ 预训练 预训练实践探索 推理效率知识融入任务适配 推理效率-知识蒸馏 原始训练 数据 蒸馏后 数据 Query: “今天心情怎么样” Label: 天气:0, 聊天:1 Query: “今天心情怎么