归档 - 第二支羽毛|吹灭读书灯，一身都是月

2025

强化学习详解第八部分 RLAIF 如何实现人工智能反馈的规模化飞跃

2025-04-29 强化学习详解第八部分 RLAIF 如何实现人工智能反馈的规模化飞跃

强化学习详解第七部分 RLHF：解码 AI 与人类偏好对齐的奥秘

2025-04-26 强化学习详解第七部分 RLHF：解码 AI 与人类偏好对齐的奥秘

牛津大学提出 NoProp : 不再需要反向传播来训练神经网络

2025-04-26 牛津大学提出 NoProp : 不再需要反向传播来训练神经网络

清华大学| 强化学习是否激励LLM中超越基本模型的推理能力？

2025-04-25 清华大学| 强化学习是否激励LLM中超越基本模型的推理能力？

论文速递基于聚类的迭代数据混合引导：优化数据混合以预训练大语言模型（LLM）的框架

2025-04-23 论文速递基于聚类的迭代数据混合引导：优化数据混合以预训练大语言模型（LLM）的框架

强化学习详解第六部分高级策略优化：深度强化学习的演变

2025-04-23 强化学习详解第六部分高级策略优化：深度强化学习的演变

2025-04-13 掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

ScholarCopilot：借助精准引用训练大语言模型助力学术写作

2025-04-13 ScholarCopilot：借助精准引用训练大语言模型助力学术写作

全网最全的神经网络数学原理（代码和公式）直观解释全网最全

2025-04-13 全网最全的神经网络数学原理（代码和公式）直观解释全网最全

万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

2025-04-13 万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

人生倒计时

今日已经过去 11 小时

46%

这周已经过去 3 天

42%

本月已经过去 7 天

22%

今年已经过去 5 个月

41%

弹