《王素娜-基于XGBoost模型的学科竞争力识别实证研究.pdf》由会员分享,可在线阅读,更多相关《王素娜-基于XGBoost模型的学科竞争力识别实证研究.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、DESIGNEDBYIBOTUDESIGNEDBYIBOTU汇报人:王素娜闽南师范大学图书馆泉州 2024.11.8基于XGBoost模型的学科竞争力识别实证研究DESIGNEDBYIBOTUDESIGNEDBYIBOTU目录01目 的/意 义02研究框架03学科竞争力识别04精准策略讨论1测度指标科研成果数据分析定量指标遴选评估指标体系构建2学科建设精准识别学科发展点,发挥高校科研优势,为高校学科发展战略规划的制定提供智库支撑3学科竞争力学科评估或学科建设研究旨在揭示学科的发展现状与趋势目的/意义PART.01目的/意义PART.01Citation Topics(引文主题)是基于单篇论文引
2、用的全新三级引文主题分类体系,改变了传统的期刊分类体系,破除了学科壁垒高、分类粒度大、更新频率慢等弊端。研究创新点当前高校图书馆迫切需要更为细粒度级的多维度学科竞争力揭示,辅助高校创造新的科研绩效增长点。1指标体系2实证框架研究框架PART.02PART.02指标体系PART.02实证框架1数据获取2模型测试3结果分析学科竞争力识别PART.03Macro:2ChemistryMeso:37个领域Micro:248个领域Meso2.74Photocatalysts(光催化剂)2019至2023年中国大陆地区相关性分析剔除后:27个指标如:Documents in Top 10%(被引次数排名前
3、10%的论文)与LastAuthor(末位作者)相关性为0.9743781篇论文2924个机构73个定量指标(生产量、影响力、合作、开放获取和作者位置)inCites平台WOS数据库数据获取PART.03PART.03数据获取Y值CNCI(学科规范化后的引文影响力)4个分类:Class0Class3类别X值剩余26个定量指标PART.03模型测试分类模型的各项评价指标以CNCI为Y值,其余26个变量为X值,随机选取70%的样本量作为训练集,30%样本量作为测试集,Citation Topics切面的研究领域成果可分为四种类型,识别准确率为92.75%。PART.03模型测试算法 指标 Accu
4、racy Micro F1 Macro F1 高斯贝叶斯 0.8059 0.8059 0.7989 K 近邻 0.8119 0.8119 0.8072 逻辑回归 0.8716 0.8716 0.8689 SVM 支持向量机 0.7409 0.7409 0.7365 决策树 0.8761 0.8761 0.8742 XGBoost 0.9275 0.9275 0.9263 1从全局角度分析,期刊规范化的引文影响力(JNCI)、被引次数排名前10%的论文百分比(DT 10%)、被引次数排名前1%的论文百分比(DT1%)和高被引论文百分比(HCP)对学科竞争力识别的影响最大。2类型内部角度,Clas
5、s0中期刊规范化的引文影响力(JNCI)、被引次数排名前1%的论文百分比(DT1%)、高被引论文百分比(HCP)和第一作者百分比(FA)对划分影响最大3Class0Class3等四个分类在DT10%、DT1%、Q1J、HCP等变量上存在显著差异。SHAP特征重要性排序图PART.03结果分析对于Q1期刊中论文的百分比,低百分比论文(蓝线)SHAP值较小但为正,高百分比论文(红线)SHAP值为负,进一步向左延伸,意味着Q1区论文高百分比对预测结果的消极影响比论文低百分比的积极影响更大。SHAP平均影响排序图PART.03结果分析对于Q2和Q3期刊中论文的百分比,较高的百分比值具有正的SHAP值(
6、向右延伸的点越来越红),较低的百分比具有负的SHAP值(向左延伸的点越来越蓝),说明在Q2和Q3期刊上发表的论文越多,起到的积极影响越大。1质量导向,驱动学科创新2精准投入,把握学科方向3交叉融合,打破学科壁垒精准策略讨论PART.04质量导向,驱动学科创新数量导向转变为质量导向:从实证分析结果得知,机构学科竞争力分类在DT10%、DT1%、Q1J、HCP等指标上存在显著差异,是识别学科竞争力类型的关键变量,精准把握核心指标,能够深入剖析机构学科建设的现有态势,对学科绩效评价