无需人工监督!SPHERE 框架如何驱动小语言模型多步推理自我进化?

SPHERE 是一个自我进化框架,通过在没有人工监督的情况下生成高质量的偏好数据来增强小语言模型(SLM)中的多步骤推理能力。它利用蒙特卡罗树搜索(MCTS)有效地探索推理轨迹,同时使用基于过程的奖励模型来分配逐步的正确性分数。为了降低计算成本,SPHERE 会修剪掉次优分支,每次展开时仅保留奖励最

字节跳动的 BAGEL:一体化的大语言模型

GitHub: https://github.com/Bytedance/bagel Demo: https://bagel-ai.org 什么是 BAGEL? BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发,旨在提供一个单一的架构,能够执行广泛的任

论文速递 基于聚类的迭代数据混合引导:优化数据混合以预训练大语言模型(LLM)的框架

论文:https://arxiv.org/abs/2504.13161 数据集: https://huggingface.co/datasets/nvidia/ClimbLab https://huggingface.co/datasets/nvidia/ClimbMix 识别最佳预训练数据混合仍然

3月AI论文精选十篇

1. Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders 核心贡献:通过稀疏自编码器揭示AI生成文本的检测特征,提出基于特征分布的鉴别方法。研究发现,AI文本在稀疏编码空间中呈现独特的"高频低幅

03.31-04.06 论文速递 聚焦具身智能、复杂场景渲染、电影级对话生成等前沿领域


🌟 论文速递 | 2025.03.31-04.06 📢 聚焦具身智能、复杂场景渲染、电影级对话生成等前沿领域 1️⃣ 具身智能体:从脑启发到安全协作系统 论文标题: Advances and Challenges in Foundation Agents: From Brain-Inspired