1、中国人寿CHINA LIFE模型可解释性在保险理赔反欺诈中的应用实践张洪涛中国人寿研发中心年终大会2020DATAFUNTALK#page#目录0102可解释性背景模型解释方法0304可解释性展望可解释性实践年终大会中国人寿2020CHINA LIFEDATAFUNTALK#page#01可解释性背景年终大会中国人寿2020CHINALIFDATAFUNTALK#page#1.可解释性背景模型的解释性,在模型的整个生命周期中具有重要作用指导性优化方法可信度模型可解释,提升模型预测结果的可模型解释,是一种重要的模型badcase模型可解释,对业务开展和决策具有明信度,进而影响推广使用。分析手段,
2、优化模型效果。确的指导性作用。然而,由于算法模型本身的黑盒属性,预测结果难以解释。年终大会中国人寿2020CHINA LIFEDATAFUNTALK#page#02模型解释性方法年终大会中国人寿2020CHINA LIFEDATAFUNTALK#page#2.1模型解释性方法特征权重1线性模型,系数Shap2全局解释方法信息增益局部解释方法博奔论,计算单个特征贡献值信息论,树型模型DeepLIFTimportance3相对特征基准值,计算特征贡特征重要性排序献4Lime线性模型局部模拟,计算贡献年终大会进心2020CHINA LIFEDATAFUNTALK#page#2.2模型解释性方法-特征
3、重要性定义:全局可解释性是指能够基于完整数据集上的预测结果和特征之间的条件交互来解释和理解模型决策。解释整个模型行为举例:xgboosting特征重要性。Weight: the number oftimes a featureis used to split the data across all treesGain, Cover.年终大会中国人寿2020CHINA LIFEDATAFUNTALK#page#2.3模型解释性方法-lime定义:专注于该数据点并查看该点周围的特征空间中的局部子区域,并尝试基于该局部区域理解该点的模型决策。解释单个预测。举例:Lime方法。ediblePOISOU
4、SahePesFeure8wete DOlTe1.00i.TneasosaliboinglyThe十iTnelesal-fo-blowingsily Tneo某个样本附近生主成采样数据,训练线性模型辅助解释年终大会中国人寿2020CHINA LIFELime:“why ShouldITrust You” Explaining the Predictions of Any ClassifierDATAFUNTALK#page#2.4模型解释性方法-shap定义:专注于该数据点并查看该点周围的特征空间中的局部子区域,并尝试基于该局部区域理解该点的模型决策。解释单个预测。举例:Shap贡献值。hig
5、herlowerbaseauoutput value-2221-1.72122792779-1.22107205-0.22050.2795077951.2791.471779A1健康险年期=1mem=7.038mio=01287Cploo max dtace=2g=48.7 heaLalLcouat=.6667 c将某一特征与其他所有的特征子集进行博奔比较,计算其对于其他特征子集对预测结果影响。预测值=1/(1+exp(-sum(贡献值)。年终大会中国人寿2020CHINA LIFEShap:A Unified Approach To Interpreting Model Prediction
6、sDATAFUNTALK#page#2.5模型解释性方法-选型模型无关性适用范围运行效率场景要求实时服务?例如:例如Lime算法无关Lime较慢,Shap较快DeepLIFT适用深度模型全局解释依据模型计算01a=+=Shap方法在适用范围和运行效率上具有双重优势年终大会中国人寿2020CHINA LIFEDATAFUNTALK#page#03可解释性实践年终大会中国人寿2020CHINA LIFEDATAFUNTALK#page#3.1可解释性实践-场景0理赔报案申请基本信息特征大数据特征理赔资料理赔大数据欺诈风