DeepSeek-R1:通过强化学习激发大语言模型的推理潜能

DeepSeek-R1:通过强化学习激发大语言模型的推理潜能 在本文中,我们将深入探索DeepSeek-R1背后的前沿进展与创新方法。这一成果作为提升大语言模型(LLMs)推理能力的卓越方案,融合了强化学习(RL)等前沿技术,不仅革新了模型训练范式,还为行业发展开辟了新方向。接下来,让我们一同揭开D

微调DeepSeek LLM:使用监督微调(SFT)与Hugging Face数据集的详细指南

📖阅读时长:20分钟 🕙发布时间:2025-02-02 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏 知乎

微调特定于域的搜索的文本嵌入:附Python代码详解


微调特定于域的搜索的文本嵌入:附Python代码详解 📖阅读时长:20分钟 🕙发布时间:2025-02-02 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏

向量相似性搜索与图数据库:数据处理的创新融合

向量相似性搜索与图数据库:数据处理的创新融合 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏

RAG 

使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT,以实现更智能的 AI

使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT,以实现更智能的 AI 传统的检索增强生成(RAG)系统在生成具备上下文感知的答案方面表现出色。然而,它们往往存在以下不足: 精确性不足:单次推理可能会忽略复杂查询中的细微差别。 理解不够深入:若没有迭代过程,输出结果可能无法全面解决

DeepSeek R1:了解 GRPO 和多阶段训练

DeepSeek R1:了解GRPO和多阶段训练 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏

大模型论文精选||多智能体微调:通过多样推理链实现自我提升

多智能体微调是一种实现自我提升的补充方法,它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型,通过模型间的多智能体交互生成的数据,分别对各个模型进行更新,实现独立的专业化。通过在不同的数据集上训练每个模型,这种方法能够让各个模型实现专业化,并使整个模型集合更加多样化。 方法 多智

大模型论文精选|| 多 LLM 文本摘要:创新方法与卓越成果

多LLM文本摘要:创新方法与卓越成果 论文 https://arxiv.org/abs/2412.15487 Multi-LLM Text Summarization 2412.15487 多LLM摘要框架在每一轮对话中有两个至关重要的步骤:生成和评估。根据使用的是多LLM去中心化摘要还是中心化摘要

从CLIP到未来:深入探讨视觉任务的视觉语言模型VLM

“如果模型可以识别图像而无需针对该特定任务进行训练怎么办?”欢迎来到视觉语言模型的世界。 更多专栏文章点击查看: LLM 架构专栏

如何大模型使用解决表格数据处理难题?

利用大模型解决表格数据处理难题 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏