无需人工监督!SPHERE 框架如何驱动小语言模型多步推理自我进化?

SPHERE 是一个自我进化框架,通过在没有人工监督的情况下生成高质量的偏好数据来增强小语言模型(SLM)中的多步骤推理能力。它利用蒙特卡罗树搜索(MCTS)有效地探索推理轨迹,同时使用基于过程的奖励模型来分配逐步的正确性分数。为了降低计算成本,SPHERE 会修剪掉次优分支,每次展开时仅保留奖励最

字节跳动的 BAGEL:一体化的大语言模型

GitHub: https://github.com/Bytedance/bagel Demo: https://bagel-ai.org 什么是 BAGEL? BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发,旨在提供一个单一的架构,能够执行广泛的任

牛津大学提出 NoProp : 不再需要反向传播来训练神经网络

深入研究 “NoProp” 算法,无需前向传递和反向传播来训练神经网络,并从头开始学习编码。 论文 NoProp: Training Neural Networks without Back-propagation or Forward-propagation 您不再需要反向传播来训练神经网络 反向

论文速递 基于聚类的迭代数据混合引导:优化数据混合以预训练大语言模型(LLM)的框架

论文:https://arxiv.org/abs/2504.13161 数据集: https://huggingface.co/datasets/nvidia/ClimbLab https://huggingface.co/datasets/nvidia/ClimbMix 识别最佳预训练数据混合仍然

探索ModernBERT:传统BERT模型的重大升级

探索ModernBERT:传统BERT模型的重大升级 这次我们聚焦于ModernBERT,看看它是如何强化上下文嵌入的应用。我们还会讲讲如何生成用于微调的数据集,并展示怎样对ModernBERT进行微调,从而在自然语言处理(NLP)任务中取得更强大的效果。 嵌入在机器学习和NLP中的重要性 嵌入是机

ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换

ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换 ReaderLM的第二代是一款拥有15亿参数的语言模型,它能将原始HTML转换为格式精美的Markdown或JSON,准确率极高,并且在处理更长文本上下文方面表现更佳。ReaderLM-v2的输入和输出总长度支

强化自训练(ReST):让大语言模型更懂你的“心”

强化自训练(ReST):让大语言模型更懂你的“心” 强化自我训练(Reinforced Self-Training,ReST)是一种简单的算法,它能让大语言模型(LLM)的输出更符合人类的偏好。这种算法的灵感来源于不断发展的批量强化学习(RL)。简单来说,先给大语言模型设定一个初始策略,ReST就可

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

DeepSeek-R1:通过强化学习激励大语言模型的推理能力 在开始之前,需要了解以下术语。 什么是强化学习? 强化学习(RL)是一种机器学习方式,人工智能通过采取行动,并根据这些行动获得奖励或惩罚来进行学习,其目标是在一段时间内最大化奖励。 举个例子:想象教一个机器人玩游戏,机器人尝试不同的动作,

一文读懂 GenPRM:用生成推理扩展过程奖励模型测试时间计算

一文读懂 GenPRM:用生成推理扩展过程奖励模型测试时间计算 论文链接 代码链接 模型链接 参考文献:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning by Zhao et al.

大模型论文精选||多智能体微调:通过多样推理链实现自我提升

多智能体微调是一种实现自我提升的补充方法,它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型,通过模型间的多智能体交互生成的数据,分别对各个模型进行更新,实现独立的专业化。通过在不同的数据集上训练每个模型,这种方法能够让各个模型实现专业化,并使整个模型集合更加多样化。 方法 多智