当前位置:首页 > 报告详情

利用企业的网络影响力来改进 NACE 代码分类.pdf

上传人: Fl****zo 编号:718580 2025-06-22 19页 857.99KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文研究了利用企业网站文本提高NACE代码分类的可行性。核心内容包括: 1. 目标:减少人工编辑NACE代码的时间,探索使用企业网站文本预测企业NACE代码。 2. 数据收集与处理:通过Google Custom API和Selenium + R收集2019至2021年的网站数据,使用德国形态学词典处理文本。 3. 模型选择:使用神经网络(结合词嵌入)和XGBoost进行分类。 4. 性能评估:提出了一种基于类距离的层次性能评估方法。结果显示,神经网络结合层次结构的模型在NACE 1至NACE 4的分类上均优于XGBoost,最高准确率和F1分数分别达到81%和95%(NACE 1级别)。 关键数据: - 文本预处理后包含超过200万个不同词汇。 - 使用了信息增益、基尼指数和区分特征选择器等方法筛选出200至500个“重要”词汇。 结论: - 利用网站文本进行NACE分类具有挑战性,数据收集和处理的重要性大于分类方法的选择。 - 直接分类效果不佳,但支持人工标注是可行的。
"如何利用网站文本优化NACE分类?" "企业网站文本在NACE预测中有多准确?" "数据采集对NACE分类有何影响?"
客服
商务合作
小程序
服务号
折叠