神经网络系列:源起
更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站:https://www.chenbaiqi.com
我们正处于一个人工智能迅速改变世界的时代的边缘。从在复杂街道上行驶的自动驾驶汽车,到能预测我们需求的人工智能助手,智能机器的影响正变得越来越深远。但这场旅程从何开始呢?是什么最初的灵感火花导致了我们称之为“神经网络”的复杂系统的诞生呢?
本文是我们“神经网络”系列的第一篇文章,让我们回溯,探索神经网络的起源。我们不会立刻深入代码或复杂的方程。相反,我们将踏上一段旅程,去理解这项革命性技术的起源,将其根源追溯到激发它的非凡器官——人类大脑。
几个世纪以来,人类一直对自己思维的奥秘着迷。这个由生物组织构成的复杂网络是如何产生意识、思想和学习的呢?正是这个问题激发了创造人工智能的最初梦想,而神经网络正是源于以计算形式模仿大脑基本架构的愿望。
生物蓝图:来自人类大脑的灵感
神经网络的故事与我们对人类大脑的理解(更确切地说,是我们试图理解人类大脑)本质上是相关联的。长期以来,被大脑能力所吸引的科学家和思想家开始思考:我们能否在机器中复制大脑的基本原理呢?
从最基本的层面来看,大脑是一个由相互连接的细胞组成的庞大网络,这些细胞被称为“神经元”。这些神经元并非孤立的实体,它们紧密相连,形成了传输和处理信息的复杂路径。想象一个夜晚热闹的城市,无数灯光闪烁并相互交流——这是对我们大脑内动态活动的一个非常粗略的类比。
早期的研究人员观察到这个生物奇迹,假设大脑的结构——它类似网络的组织形式——是其智能的关键。他们推断,智能不一定与复杂的规则或预编程的指令有关,而是与这些简单单元(神经元)的连接方式以及它们的相互作用有关。
这标志着与传统编程方法的背离。在传统的计算机程序中,我们精心编写规则和指令:“如果满足这个条件,那么执行这个操作,否则执行那个操作”。但大脑似乎并不依据严格的、预定义的规则运行。它从经验中学习,适应新情况,并从例子中进行归纳。
我们的愿景是创建能够以类似方式学习的计算系统——不是通过明确地对每一条规则进行编程,而是赋予它从数据中学习的能力,就像孩子学习语言或识别面孔一样。这个愿景导致了“人工神经网络”的概念化。
人工神经元的曙光:一种简化的模仿
实现这一愿景的第一步涉及创建生物神经元的简化数学模型。这些模型并非旨在完美复制它们的生物对应物,而是捕捉信息处理基本原理的“抽象”。
想象一下,获取生物神经元的核心概念——接收信号、处理信号并发送信号——并将其转化为数学结构。这基本上就是早期对人工神经元的概念化所发生的事情。
可以这样想:一个生物神经元通过被称为突触的连接从其他神经元接收信号。这些信号可以是兴奋性的(促使神经元“激发”)或抑制性的(阻止神经元激发)。神经元整合这些信号,如果组合信号达到一定阈值,神经元就会“激发”,向其他神经元发送信号。
人工神经元在其最初的概念形式中,以简化的方式反映了这个过程。它被设想为一个具有以下功能的单元:
- 接收输入:就像生物神经元接收信号一样,人工神经元接收数值输入。这些输入代表来自外界或网络中其他神经元的信息。
- 处理输入(简单地):早期模型专注于通过简单的数学运算来处理这些输入。这通常涉及对输入进行加权(赋予某些输入比其他输入更重要的权重),然后将它们相加。
- 产生输出:基于处理后的输入,人工神经元生成一个输出,通常也是一个数值。这个输出随后可以作为网络中其他神经元的输入。
重要的是要明白,这些早期的人工神经元与生物神经元的复杂性相比被极大地简化了。它们过去是,现在仍然是“数学抽象”,旨在捕捉神经计算的本质,而不是精确的生物模型。
人工神经元(感知机)背后的数学
人工神经元被称为感知机。想象一台机器,它接收多个输入,对它们的重要性进行加权,并做出是或否的决策。这就是感知机。受大脑处理信号能力的启发,它将决策简化为一种数学运算。
一个感知机有三个核心组件:
- 输入 ($x_1,x_2,\ldots,x_n$):数据的数值表示(例如,传感器读数、像素)。
- 权重 ($w_1,w_2,\ldots,w_n$):放大或减弱每个输入影响的值。
- 偏差 ($b$):一个常数,它改变决策阈值,类似于基线倾向。
感知机的输出是二进制的:0 或 1(有时是 -1/1)。它的目标是通过接触例子来学习正确的权重和偏差,从而对数据进行分类。感知机的操作分为两个阶段:
- 加权和:输入乘以它们相应的权重,求和,并与偏差相结合:
这个和 ($z$) 代表决策的“证据”。
- 激活函数:将和 $z$ 输入到一个阶跃函数中,产生最终输出:
这个函数就像一个守门员,将连续的证据转化为明确的选择。
从图形上看,感知机形成一条直线(在更高维度中是超平面),正如它的方程所暗示的,它可以区分两组对象。
网络是关键:从单个神经元到相互连接的系统
神经网络概念的真正突破不仅仅是人工神经元的概念,而是认识到将这些神经元相互连接成网络才是真正的力量所在。就像大脑中的单个神经元相对有限,但大量的神经元网络产生了复杂的智能一样,人工神经网络也遵循同样的原则。
想象一个灯泡,它可以照亮一小片区域。但一个拥有数百万相互连接灯光的城市,创造出的是更加复杂和充满活力的照明。同样,单个人工神经元可以执行非常简单的任务,但当你将数百万甚至数十亿个神经元连接在一起,以层次结构和复杂的连接组织起来时,你就开始创建能够实现非凡智能壮举的系统。
“层”的概念成为神经网络架构的核心。想象将你的人工神经元组织成不同的层:
- 输入层:从外界接收初始数据。
- 隐藏层:位于输入层和输出层之间的层,旨在从数据中提取越来越复杂的特征和表示。这些“隐藏”层是网络执行核心处理和学习的地方。
- 输出层:产生最终结果——网络被设计做出的决策、预测或分类。
这些层中神经元之间的连接以及信息在其中的流动方式,构成了神经网络的架构。我们设想通过调整这些连接的“强度”,网络可以被“训练”来执行特定的任务。
学习的梦想:数据作为老师
神经网络概念中的一个关键要素是“从数据中学习”的想法。与传统程序一步一步地被明确指导不同,神经网络被设想为通过接触例子来学习。
想象给一个孩子看许多猫和狗的图片,并告诉他们:“这是一只猫”,“这是一只狗”。随着时间的推移,孩子学会区分猫和狗,即使是他们从未见过的图片。神经网络的设计也是以类似的方式学习——通过展示数据并学习识别其中的模式和关系。
“数据驱动学习”的概念是革命性的。这意味着我们无需费力地对每一条规则和细节进行编程,而是可以创建能够通过接触足够的数据自行“学习”规则的系统。这为解决那些过于复杂或定义不明确,无法用传统基于规则的编程解决的问题开辟了可能性。
权重和偏差的值将通过训练获得。但如何进行这种训练将在后续文章中介绍,因为这首先需要了解完整的神经网络。
下一篇文章预告
“从线性到非线性:感知机如何催生深度学习”
推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
评论