第二支羽毛|吹灭读书灯，一身都是月

利用Transformer、DPR、FAISS和BART对检索增强生成（RAG）进行深入技术探索

利用Transformer、DPR、FAISS和BART对检索增强生成（RAG）进行深入技术探索 |文末点击阅读原文查看网页版| 更多专栏文章点击查看： LLM 架构专栏

RAG

神经网络系列：源起

神经网络系列：源起更多专栏文章点击查看： LLM 架构专栏

理论基础

强化学习详解第八部分 RLAIF 如何实现人工智能反馈的规模化飞跃

超越人类极限的规模对齐在我们之前的文章中，我们探讨了人类反馈强化学习（RLHF）是如何通过使用人类评估来教导模型我们的偏好，从而彻底改变了人工智能对齐的方式。但 RLHF 存在一个令人困扰的局限性，你可能已经猜到了：“人类”。别误会我的意思 —— 人类反馈是无价的。但它也很昂贵、缓慢，并且在

强化学习

强化学习详解第七部分 RLHF：解码 AI 与人类偏好对齐的奥秘

|文末点击阅读原文查看网页版| 更多专栏文章点击查看： LLM 架构专栏

强化学习

牛津大学提出 NoProp : 不再需要反向传播来训练神经网络

深入研究 “NoProp” 算法，无需前向传递和反向传播来训练神经网络，并从头开始学习编码。论文 NoProp: Training Neural Networks without Back-propagation or Forward-propagation 您不再需要反向传播来训练神经网络反向

基础模型

清华大学| 强化学习是否激励LLM中超越基本模型的推理能力？

|文末点击阅读原文查看网页版| 更多专栏文章点击查看： LLM 架构专栏

强化学习

论文速递基于聚类的迭代数据混合引导：优化数据混合以预训练大语言模型（LLM）的框架

论文：https://arxiv.org/abs/2504.13161 数据集： https://huggingface.co/datasets/nvidia/ClimbLab https://huggingface.co/datasets/nvidia/ClimbMix 识别最佳预训练数据混合仍然

论文速递

强化学习详解第六部分高级策略优化：深度强化学习的演变

高级策略优化：深度强化学习的演变在我们迄今为止探索强化学习的旅程中，我们见证了深度神经网络如何彻底改变了在复杂环境中可能实现的事情。但就像所有的进化飞跃一样，深度Q网络（DQN）及其直接衍生算法仅仅是更深刻变革的开端。本文聚焦高级策略优化，深度解析 TRPO、PPO 等经典算法如何解决传统强化学

强化学习

掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

LLM架构

掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容 LLM架构专栏知乎LLM专栏

ScholarCopilot：借助精准引用训练大语言模型助力学术写作

ScholarCopilot：借助精准引用训练大语言模型助力学术写作在学术写作中，精准引用与优质文本生成至关重要，现有检索 - 增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍，文中提出的ScholarCopilot框架，能训练大语言模型助力学术写作。它表现如何？又有哪些创新？快来一探究

开源