VLLM 与 Ollama:如何选择合适的轻量级 LLM 框架?

VLLM 与 Ollama:如何选择合适的轻量级 LLM 框架? VLLM是一款经过优化的推理引擎,在令牌生成速度和内存管理效率上表现出色,是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架,让在本地电脑上运行开源大语言模型变得更加简单。 那么,这两个框架该选哪一个呢?接下来,我们

重现 OpenAI o1 的技术路线

重现 OpenAI o1 的技术路线 OpenAI o1发布后,其强大的推理能力远超早期的大语言模型(LLM),达到了媲美博士级专业知识的性能水平。 目前,有两种复现o1的范式: 基于知识蒸馏:这是一种捷径方法,可以提取o1的数据并微调LLM(如Llama 3.2、Qwen2等)以模仿o1的推理风格

加速大模型推理:深入探究MQA、GQA、MLA(DeepSeek)、KV缓存技术

加速大模型推理:深入探究MQA、GQA、MLA(DeepSeek)、KV缓存技术 回顾:多头注意力机制 为什么LLM推理是串行的 KV缓存的挑战 2019年——多查询注意力机制(Multi Query Attention) 2023年5月——分组查询注意力机制(Grouped Query Atten

OpenAI o3-mini 与 DeepSeek-R1 在各类基准测试中的大比拼

OpenAI o3-mini与DeepSeek-R1在各类基准测试中的大比拼 OpenAI终于发布了o3-mini,还为ChatGPT的所有用户免费提供了一些使用额度。但大家心里始终有个大大的疑问:OpenAI的o3-mini会比DeepSeek-R1更胜一筹吗? 虽说OpenAI官方团队并没有发布

微调DeepSeek LLM:使用监督微调(SFT)与Hugging Face数据集的详细指南

📖阅读时长:20分钟 🕙发布时间:2025-02-02 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏 知乎

微调特定于域的搜索的文本嵌入:附Python代码详解


微调特定于域的搜索的文本嵌入:附Python代码详解 📖阅读时长:20分钟 🕙发布时间:2025-02-02 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏

使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT,以实现更智能的 AI

使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT,以实现更智能的 AI 传统的检索增强生成(RAG)系统在生成具备上下文感知的答案方面表现出色。然而,它们往往存在以下不足: 精确性不足:单次推理可能会忽略复杂查询中的细微差别。 理解不够深入:若没有迭代过程,输出结果可能无法全面解决

DeepSeek R1:了解 GRPO 和多阶段训练

DeepSeek R1:了解GRPO和多阶段训练 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏

大模型论文精选|| 多 LLM 文本摘要:创新方法与卓越成果

多LLM文本摘要:创新方法与卓越成果 论文 https://arxiv.org/abs/2412.15487 Multi-LLM Text Summarization 2412.15487 多LLM摘要框架在每一轮对话中有两个至关重要的步骤:生成和评估。根据使用的是多LLM去中心化摘要还是中心化摘要

从CLIP到未来:深入探讨视觉任务的视觉语言模型VLM

“如果模型可以识别图像而无需针对该特定任务进行训练怎么办?”欢迎来到视觉语言模型的世界。 更多专栏文章点击查看: LLM 架构专栏