《2019年华为云深度学习在文本分类中的实践.pdf》由会员分享,可在线阅读,更多相关《2019年华为云深度学习在文本分类中的实践.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、华为云深度学习在文本分类中的实践华为 Cloud&AI32314分类算法简史深度学习架构难点应用案例目录4文本分类介绍内容:买没几天就降价一点都不开心,闪存跑分就五百多点点-外观漂亮音质不错,现在电子产品基本上都是华为的了-汽车不错,省油,性价比高-这个政策好啊,利国利民-电子税务局无法登陆,提示404。-税务局相关个人所得税APP,注册的时候操作错误,怎么办?-个税app相关f(text)=label词句子篇章对话5文本分类方法简史-机器学习特征提取特征选择输入文本模型训练模型部署评测label预测标签词袋TFIDFNgram词典卡方PCA互信息RFE分类器SVMLRXGBoost随机森林6
2、文本分类方法简史-深度学习输入文本模型训练模型部署评测label预测标签RNNCNNLSTMDCNNAttentionHANTransformerElmoBERTMT-DNN7文本分类方法简史-深度学习神经网络语言模型2003 神经网络NLP里程碑:Word2vec2013CNN RNN2014左右Attention2014Elmo,Bert 2018解决维度灾难预训练+微调注意力机制端到端训练符号-向量8预训练+微调大规模语料训练通用语言模型在目标语料上微调语言模型在目标语料上训练分类器BERTECE1T1E2T2EnTn模型:数据:目标:预测mask词和下一句BERTECE1T1E2T2E
3、nTn分类器模型:数据:手机不错,高大上手机不错,高大上正面正面手机太差劲了,又贵又卡负面续航给力,价格实在正面91324分类算法简史深度学习架构难点应用案例目录10深度学习框架Standard raw textTokenizationIndexingPre embeddingClassificationMatchingWordpieceKeras tokenizerJiebaHanlpModel SavingDeploymentTestingVocabSequence labelingHuawei tokenizerword2vecElmopbckptH5(Keras)RESTful API
4、RPC APIFunction testConcurrence testSecurity testMulti classMulti labelpreprocessorTraditional-simpleChar replacementSynonym replacementChar filterFeaturizerClassification/Matching/Sequence labelingTF modelSklearn model featureCountvectorizerSentence encoderchar.Stop word removalsklearn model.手機不錯,高
5、大上手机不错,高大上手 机 不 错,高 大 上1,22,32,46,876,55,98,20111234分类算法简史深度学习架构难点应用案例目录12数据不均衡13数据不均衡预处理方法预处理方法 上采样 下采样 SMOTE 数据增广集成方法集成方法 SMOTEbagging改损失函数改损失函数 Focal loss“An Insight into Classification with Imbalanced Data:Empirical Results andCurrent Trends on Using Data Intrinsic Characteristics.”Information S
6、ciences 250(November 20,2013):11341.-特斯拉人工智能主管Andrej Karpathy14数据标注成本高 主动学习框架:选择策略:基于置信度400010000020004000600080001000012000人工标注系统标注样本数目0.840.930.750.80.850.90.95人工标注系统标注效果:F1未标注集合种子语料机器学习模型人工标注15华为云主动学习平台16华为云主动学习平台171243分类算法简史深度学习架构难点应用案例目录18情感分析0.00%20.00%40.00%60.00%80.00%100