宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
欢迎订阅
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
分类
标签
归档
上网导航
1
2W8000字读懂GPT全家桶:从GPT-1到O1的技术演进与突破
2
强化学习详解第八部分 RLAIF 如何实现人工智能反馈的规模化飞跃
3
DeepSeek-R1如何突破语言模型的极限——深入数学视角解读群体相对策略优化(GRPO)
4
强化学习详解第七部分 RLHF:解码 AI 与人类偏好对齐的奥秘
5
2W8000字深度剖析25种RAG变体
登录
柏企
吹灭读书灯,一身都是月
累计撰写
109
篇文章
累计创建
16
个分类
累计收获
183
个点赞
导航
宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
欢迎订阅
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
分类
标签
归档
上网导航
目录
分类
论文速递
无需人工监督!SPHERE 框架如何驱动小语言模型多步推理自我进化?
SPHERE 是一个自我进化框架,通过在没有人工监督的情况下生成高质量的偏好数据来增强小语言模型(SLM)中的多步骤推理能力。它利用蒙特卡罗树搜索(MCTS)有效地探索推理轨迹,同时使用基于过程的奖励模型来分配逐步的正确性分数。为了降低计算成本,SPHERE 会修剪掉次优分支,每次展开时仅保留奖励最
2025-06-24 19:11
9
0
2
28.9℃
论文速递
字节跳动的 BAGEL:一体化的大语言模型
GitHub: https://github.com/Bytedance/bagel Demo: https://bagel-ai.org 什么是 BAGEL? BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发,旨在提供一个单一的架构,能够执行广泛的任
2025-06-24 19:08
7
0
1
26.7℃
论文速递
论文速递 基于聚类的迭代数据混合引导:优化数据混合以预训练大语言模型(LLM)的框架
论文:https://arxiv.org/abs/2504.13161 数据集: https://huggingface.co/datasets/nvidia/ClimbLab https://huggingface.co/datasets/nvidia/ClimbMix 识别最佳预训练数据混合仍然
2025-04-23 21:35
27
0
0
26.7℃
论文速递
3月AI论文精选十篇
1. Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders 核心贡献:通过稀疏自编码器揭示AI生成文本的检测特征,提出基于特征分布的鉴别方法。研究发现,AI文本在稀疏编码空间中呈现独特的"高频低幅
2025-04-07 21:34
27
0
3
32.7℃
论文速递
03.31-04.06 论文速递 聚焦具身智能、复杂场景渲染、电影级对话生成等前沿领域
2025-04-06 12:21
37
0
4
35.7℃
论文速递
🌟 论文速递 | 2025.03.31-04.06 📢 聚焦具身智能、复杂场景渲染、电影级对话生成等前沿领域 1️⃣ 具身智能体:从脑启发到安全协作系统 论文标题: Advances and Challenges in Foundation Agents: From Brain-Inspired
弹