当前位置:首页 > 报告详情

毛先领-科技论文大模型及研究生学术训练.pdf

上传人: Fl****zo 编号:719106 2025-06-22 47页 7.02MB

1、科技论文大模型及研究生学术训练毛先领毛先领北京理工大学北京理工大学Data Hammer Group科学技术是第一生产力&加速度不断加快Prof.Gregory Clark网网络技技术进步大型机性能大型机性能数据增数据增长2论文数量也急剧变多3科技文献,是科学技术的藏经阁4面对如此重要且海量的数据,除了依靠天资海量科技文献海量科技文献如何如何把数据把数据组织起来起来,满足满足科研人科研人员的信息员的信息需求需求?5路线图起点传统搜索、粒度粗、代价高终点智能交互、高效满足大模型之前任务独立、细粒度、代价高大模型之后说话能力强、通用能力6起点 基本特点文章为粒度元信息挖掘7扪心自问,它真的是您内心

2、真正想要的趁手工具吗?8例如:科技论文阅读过程文献管理文献管理9起点 基本特点文章为粒度元信息挖掘10路线图起点传统搜索、粒度粗、代价高终点智能交互、高效满足大模型之前任务独立、细粒度、代价高大模型之后说话能力强、通用能力11终点12Any TimeAny PlaceAny Topic路线图起点传统搜索、粒度粗、代价高终点智能交互、高效满足大模型之前任务独立、细粒度、代价高大模型之后说话能力强、通用能力13大模型之前主流研究框架成本高学术应用套件碎片化数据科技大数据挖掘富富语义哈哈希希建建模模科科技技基基础数数据据集集Hammer ScholarHammer QAIEEEACMSpringer

3、Hammer PDFHammer KG 科技对话科技实体识别科技关系抽取科技摘要科技写作科技预训练科技阅读理解科技事件挖掘14 富语义哈希建模学术应用套件碎片化数据科技大数据挖掘富富语义哈哈希希建建模模科科技技基基础数数据据集集Hammer ScholarHammer QAIEEEACMSpringerHammer PDFHammer KG 科技对话科技实体识别科技关系抽取科技摘要科技写作科技预训练科技阅读理解科技事件挖掘15 富语义哈希建模011010110110101010010111Should be similarShould be different16 富语义哈希建模Hashing

4、 for image retrieval Data-independent hashing(AAAI 2017)Data-dependent hashing Supervised hashing(AAAI 2018,WWW 2021,ACM MM 2021)Unsupervised hashing(IJCAI 2019,IJCAI 2020,SIGMOD 2023,TOIS 2024)Hashing for text retrieval(TKDE 2020,TKDE 2022)Hashing for cross-modal retrievalSupervised hashing(TKDE 20

5、20,TKDE 2022,SIGIR 2023,AAAI 2025)Unsupervised hashing(TMM 2023)17科技实体与关系抽取科技实体与关系抽取数据集包含6种实体类别、5种实体关系人工标注共1,948条科技任务型对话科技任务型对话数据集包含5种domain类别、38种slot类别、150,000条对话语句,人工标注共10,000轮科技论文阅读理解科技论文阅读理解数据集包含3种问题视角、28种问题类别,人工标注共5,000条科技论文表格自动抽取科技论文表格自动抽取数据集包含15,000个科技论文表格与对应结构标签科技事件抽取科技事件抽取数据集包含10种词块类别、10种事件

6、类别的文档级、含嵌套、人工标注共6,000条 科技领域基础数据集学术应用套件碎片化数据科技大数据挖掘富富语义哈哈希希建建模模科科技技基基础数数据据集集Hammer ScholarHammer QAIEEEACMSpringerHammer PDFHammer KG 科技对话科技实体识别科技关系抽取科技摘要科技写作科技预训练科技阅读理解科技事件挖掘18将上述理论成果落地,构建了构建了5个个科技领域应用系统应用系统,形成了一整套形成了一整套体系化的解决方案解决方案,极大地提升了广大科研工作者的科研效率。学术应用套件跨模态学术搜索引擎跨模态学术搜索引擎(Hammer Scholar)已被超过70个国

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了北京理工大学Data Hammer Group在科技文献处理和学术训练方面的研究成果。关键点如下: 1. 提出了一种从传统搜索到智能交互的学术研究路线图,以解决海量科技文献的管理和科研人员的信息需求。 2. 开发了包括Hammer Scholar、Hammer QA、Hammer PDF和Hammer KG在内的学术应用套件,形成体系化解决方案。 3. 构建了科技领域基础数据集,如科技实体与关系抽取数据集、科技任务型对话数据集等。 4. “墨子”科技大模型在Hammer Scholar的更大规模论文数据上进行预训练,提高了科技文本理解和生成的能力。 5. “墨子”模型在科技论文问答、摘要理解、信息抽取等方面表现出色,相比同类模型,回答更简洁准确。 核心数据引用: - Hammer Scholar涵盖1亿2千2百万学术文献。 - 科技预训练语言模型TechBert参数量达1亿1千万。 - 科技知识图谱Hammer KG含有21,192,755条高质量知识。 - “墨子”模型在科技论文的test set上的Perplexity表现良好。
"科技论文如何高效挖掘?" "墨子模型如何助力科研?" "科研情感对话怎么进行?"
客服
商务合作
小程序
服务号
折叠