ScholarCopilot:借助精准引用训练大语言模型助力学术写作
在学术写作中,精准引用与优质文本生成至关重要,现有检索 - 增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍,文中提出的ScholarCopilot框架,能训练大语言模型助力学术写作。它表现如何?又有哪些创新?快来一探究竟。
参考文献
@article{wang2024scholarcopilot,
title={ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations},
author = {Wang, Yubo and Ma, Xueguang and Nie, Ping and Zeng, Huaye and Lyu, Zhiheng and Zhang, Yuxuan and Schneider, Benjamin and Lu, Yi and Yue, Xiang and Chen, Wenhu},
journal={arXiv preprint arXiv:2504.00824},
year={2025}
}
摘要
学术写作既需要连贯的文本生成,也需要对相关文献进行精确引用。尽管近期的检索增强生成(RAG)系统在通用文本生成中大幅提升了事实准确性,但其支持专业学术写作的能力仍较为有限。在本研究中,本研究推出了ScholarCopilot,这是一个统一框架,旨在强化现有的大语言模型,使其能够生成带有精准且贴合上下文引用的专业学术文章。ScholarCopilot通过生成检索令牌[RET]动态判断何时检索学术参考文献,随后利用该令牌查询引文数据库。检索到的参考文献会被输入模型,以优化生成过程。本研究在单一框架内对文本生成和引文检索任务进行联合优化,以此提高效率。本研究的模型基于Qwen-2.5-7B构建,并在arXiv上的50万篇论文上进行训练。在本研究的评估数据集上,其 top-1检索准确率达到40.1% ,超越了诸如E5-Mistral-7B-Instruct(15.0%)和BM25(9.8%)等基线模型。在包含1000个学术写作样本的数据集上,ScholarCopilot在生成质量(从相关性、连贯性、学术严谨性、完整性和创新性等方面衡量)的评分达到16.2/25,显著优于所有现有模型,包括检索增强型的Qwen2.5-72B-Instruct等规模更大的模型。用户研究进一步表明,尽管ScholarCopilot是一个70亿参数规模的模型,但在引用质量上的受青睐程度远超ChatGPT,获得了100%的偏好度;在整体实用性方面,其偏好度也超过70%。
传统RAG与ScholarCopilot的对比
本研究介绍的ScholarCopilot是一个用于学术写作的智能RAG框架,它能够动态整合文本生成和引文检索功能。与传统的分阶段检索和生成方法不同,本研究的系统会依据上下文的变化生成特殊的检索令牌[RET],暂停文本生成以检索相关参考文献,并将其内容融入后续步骤中。检索令牌的表示通过对比学习进行优化,以便实现高效的相似性搜索。ScholarCopilot还支持在迭代过程中由用户进行可选的优化,在不增加额外成本的情况下,提升引用准确性和内容连贯性。
数据集管理
本研究构建了一个大规模数据集,包含50万篇arXiv上的计算机科学论文,其中1000万条引用来自arXiv,680万条来自语义学者(论文可能会被多次引用)。数据集的创建涵盖五个阶段:1)论文收集;2)结构解析;3)引文提取;4)参考文献匹配;5)数据集整合。每篇论文平均有38次引用,其中87%能够成功匹配到学术数据库。
训练方法
ScholarCopilot通过两个目标对文本生成和引文检索进行联合优化:一是用于文本生成的下一个令牌预测,二是用于引文检索的对比学习。在文本生成方面,它采用标准的自回归语言建模方法,基于前文的令牌和检索到的内容最大化当前令牌出现的概率。在引文检索方面,它运用对比学习优化检索令牌的表示,增大这些令牌与相关引文之间的相似性,同时降低与无关引文的相似性。正例引用来自真实论文,而负例则通过批量采样获取。系统通过最小化一个组合损失函数($L_{total}=L_{g}+L_{r}$)来进行训练。
生成质量评估
本研究对不同基线模型的生成质量进行了比较。主要发现如下:(1)ScholarCopilot的评分为16.21/25 ,超越了参数规模为其10倍的模型;(2)在相关性(3.63)和连贯性(3.66)方面表现尤为突出,可与720亿参数规模的模型相媲美;(3)通过本研究统一的生成和引用方法,显著提升了学术严谨性(2.87对比2.26 )。
引文准确性评估
在此,本研究对不同方法的引文检索性能进行了比较。ScholarCopilot显著优于E5-Mistral-7B-Instruct和BM25等基线模型,其top-1召回率达到40.1%,recall@10达到64.8% 。
用户研究
为评估ScholarCopilot的实际应用价值,本研究开展了一项用户研究,邀请了10位学术人员参与(5名博士、4名硕士、1名本科生),他们的平均写作经验为4.2年。参与者使用本研究的系统撰写学术内容,并从多个维度进行评分。ScholarCopilot在引用准确性(4.6/5)、界面清晰度(4.5/5)和写作风格(4.5/5)方面获得了最高分,引用质量指标的平均分为4.3/5。用户体验的平均分为3.9/5,由于采用单GPU部署,响应时间得分最低(3.3/5)。内容质量指标方面,写作风格(4.5/5)和事实准确性(4.3/5)表现出色,而创新性得分最低(2.5/5),这表明该系统擅长生成学术规范的内容,但在提出新颖观点方面稍显不足。
评论