无需人工监督!SPHERE 框架如何驱动小语言模型多步推理自我进化?

SPHERE 是一个自我进化框架,通过在没有人工监督的情况下生成高质量的偏好数据来增强小语言模型(SLM)中的多步骤推理能力。它利用蒙特卡罗树搜索(MCTS)有效地探索推理轨迹,同时使用基于过程的奖励模型来分配逐步的正确性分数。为了降低计算成本,SPHERE 会修剪掉次优分支,每次展开时仅保留奖励最

字节跳动的 BAGEL:一体化的大语言模型

GitHub: https://github.com/Bytedance/bagel Demo: https://bagel-ai.org 什么是 BAGEL? BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发,旨在提供一个单一的架构,能够执行广泛的任

牛津大学提出 NoProp : 不再需要反向传播来训练神经网络

深入研究 “NoProp” 算法,无需前向传递和反向传播来训练神经网络,并从头开始学习编码。 论文 NoProp: Training Neural Networks without Back-propagation or Forward-propagation 您不再需要反向传播来训练神经网络 反向

清华大学| 强化学习是否激励LLM中超越基本模型的推理能力?

|文末点击阅读原文查看网页版| 更多专栏文章点击查看: LLM 架构专栏

ScholarCopilot:借助精准引用训练大语言模型助力学术写作

ScholarCopilot:借助精准引用训练大语言模型助力学术写作 在学术写作中,精准引用与优质文本生成至关重要,现有检索 - 增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍,文中提出的ScholarCopilot框架,能训练大语言模型助力学术写作。它表现如何?又有哪些创新?快来一探究

开源 

探索ModernBERT:传统BERT模型的重大升级

探索ModernBERT:传统BERT模型的重大升级 这次我们聚焦于ModernBERT,看看它是如何强化上下文嵌入的应用。我们还会讲讲如何生成用于微调的数据集,并展示怎样对ModernBERT进行微调,从而在自然语言处理(NLP)任务中取得更强大的效果。 嵌入在机器学习和NLP中的重要性 嵌入是机

ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换

ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换 ReaderLM的第二代是一款拥有15亿参数的语言模型,它能将原始HTML转换为格式精美的Markdown或JSON,准确率极高,并且在处理更长文本上下文方面表现更佳。ReaderLM-v2的输入和输出总长度支

强化自训练(ReST):让大语言模型更懂你的“心”

强化自训练(ReST):让大语言模型更懂你的“心” 强化自我训练(Reinforced Self-Training,ReST)是一种简单的算法,它能让大语言模型(LLM)的输出更符合人类的偏好。这种算法的灵感来源于不断发展的批量强化学习(RL)。简单来说,先给大语言模型设定一个初始策略,ReST就可

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

DeepSeek-R1:通过强化学习激励大语言模型的推理能力 在开始之前,需要了解以下术语。 什么是强化学习? 强化学习(RL)是一种机器学习方式,人工智能通过采取行动,并根据这些行动获得奖励或惩罚来进行学习,其目标是在一段时间内最大化奖励。 举个例子:想象教一个机器人玩游戏,机器人尝试不同的动作,

一文读懂 GenPRM:用生成推理扩展过程奖励模型测试时间计算

一文读懂 GenPRM:用生成推理扩展过程奖励模型测试时间计算 论文链接 代码链接 模型链接 参考文献:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning by Zhao et al.