多客科技 发表于 2025-10-12 17:58

AI核心数学工具:函数逼近论(一)

作者:微信文章
生成式AI的核心标志就是深度学习(Deep Learning)。



深度学习是一种基于人工神经网络的机器学习方法,它通过多层神经网络进行非线性变换和特征提取,以实现对复杂数据的建模和处理。

目前,深度学习已有广泛的用途。

可以用于图像识别,如人脸识别、车牌识别、物体识别等。

可以用于语音识别,如语音指令识别、语音转文字等。

可以用于自然语言处理,如文本分类、情感分析、机器翻译等。

可以用于金融预测,如股票价格预测、汇率预测等。

可以用于医疗诊断,如疾病诊断、医学影像分析等。

可以用于工业控制,如机器人控制、智能制造等。

可以用于自动驾驶,如自动驾驶汽车、自动驾驶无人机等。

可以用于游戏智能,如游戏AI、游戏角色控制等。

我们不禁要问,AI是如何实现这些深度学习的?深度学习的工作原理是什么?



首先,数据预处理。深度学习需要大量的数据进行训练,因此需要对数据进行预处理,包括数据清洗、数据归一化、数据增强等。

其次,构建神经网络。深度学习使用多层神经网络进行非线性变换和特征提取,可以处理各种复杂的数据和问题。神经网络通常包括输入层、隐藏层和输出层,每层包含多个神经元。

然后,使用反向传播算法。深度学习使用反向传播算法进行训练,通过将误差从输出层向输入层反向传播,调整神经元之间的连接权重,以最小化误差。

然后,使用激活函数。深度学习使用激活函数对神经元的输出进行非线性变换,以增强神经网络的表达能力和适应性。

然后,使用损失函数。深度学习使用损失函数来衡量模型的预测结果与真实结果之间的差异,以指导模型的训练和优化。

然后,使用优化算法。深度学习使用优化算法来调整神经网络的参数,以最小化损失函数。常用的优化算法包括随机梯度下降(SGD)、Adam等。

最后,进行模型评估。深度学习使用测试数据对模型进行评估,以衡量模型的性能和泛化能力。

我们不禁还要问,深度学习的引擎是什么?深度学习的语言是什么?

这就是我们今天的主题:AI的核心数学工具——函数逼近论。



逼近论是研究通过简单函数(如多项式、三角多项式等)对复杂函数进行近似表示的数学分支。

对于AI来说,这个“复杂事物”就是智能行为本身,无论是识别猫狗,还是翻译语言,其背后都隐藏着一个我们试图寻找的、从输入到输出的未知函数。

逼近论,正是从数学上回答“我们能否找到它”以及“我们如何找到它”的第一个问题。

逼近论自诞生就为AI做着天然的准备,是AI生命线的一部分。计算机诞生后,它的每一次重大突破,都为AI解决了一个核心的理论或实践难题。同时,AI在当代遇到的挑战,又反过来催逼着逼近论向新的疆域拓展。

这是一段关于人类如何用有限的数学工具理解无限复杂世界的壮丽史诗,更是一部记录AI智能如何从数学原理中孕育而出的生动编年史。

17世纪,微分的启示:从“瞬间变化”到“局部线性化的革命”

17世纪,科学的面貌正在发生根本性的转变。哥白尼、伽利略和开普勒的工作将天空的奥秘转化为可计算的轨道,但自然哲学家们面临一个新困难:如何精确地描述“变化”本身?行星并非静止,它的运动有快慢;炮弹划过天空,它的轨迹每时每刻都在改变。传统的几何与代数工具在描述这种连续的变化时,显得力不从心。

在这一历史性的需求下,两位巨人,艾萨克·牛顿和戈特弗里德·莱布尼茨,两人几乎同时但独立地构建了微积分这座宏伟大厦。

牛顿从物理学的视角出发,为了描述物体运动的瞬时速度而发明了“流数法”;莱布尼茨则从几何学的视角切入,为了求解曲线在某点的切线而发明了基于“微分”与“积分”的优美符号系统。他们的工作为解决“变化”提供了第一套系统性的工具。

然而,真正将这一深邃理论从天才的直觉推向广泛工程应用的,是布鲁克·泰勒(1685-1731)。



泰勒公式:复杂全局,简单局部。

他在1715年发表的《正的和反的增量方法》中提出的泰勒公式,不仅是一个强大的数学定理,更是一种认识世界的哲学范式转移。



泰勒公式如下:

f(x)≈f(a)+f'(a)(x-a)+f''(a)(x-a)²/2! + ...

这个公式告诉我们,任何一个在某个点附近足够“光滑”的复杂函数(可多次求导),其局部行为都可以被一个由各阶导数构成的多项式完美地捕捉。

零阶近似,只关心函数在a点的值,这是一个静态的、不变的观点。

一阶近似,引入了一阶导数,它描述了函数在a点的瞬时变化率,即函数是向上走还是向下走,走得多快。这使我们能够用一条直线(切线)来近似函数在a点附近的行为。这是从静态到动态的第一步,是理解“变化”的关键。

高阶近似,引入二阶、三阶导数等,随着更高阶导数的加入,这个近似开始捕捉函数的曲率(是向上弯还是向下弯)、拐点等更精细的局部结构。每增加一阶信息,近似的精度就提升一个层次。

泰勒公式的精妙之处在于它揭示了一个深刻的原理,无论多么复杂的曲线,当我们将其无限放大,在任何一个光滑的点附近,它都会展现出简单的线性特征。

这种“局部线性化”的思想,其革命性在于它提供了一种解决复杂问题的全新策略:我们无需一开始就试图理解整个系统的全局复杂性,而是可以将其分解为无数个微小的局部。在每一个局部,系统都展现出相对简单的、近乎线性的行为。通过理解和拼接这些简单的局部,我们最终可以逼近对整个复杂系统的理解。

这不仅是数值分析的起点,也成为了后世所有基于“迭代”和“优化”的算法的灵魂。

在AI中的应用:泰勒公式是梯度下降算法的数学灵魂。

将泰勒的思想映射到AI,尤其是深度学习领域,我们能看到它在梯度下降算法中得到了最纯粹、最直接的体现。

训练一个现代深度神经网络,可能意味着在一个由数百万乃至数十亿参数构成的超高维空间中,寻找一个最优解(损失函数的最小值)。这个空间的复杂程度,远超人类直觉的理解范围。

梯度下降,正是泰勒一阶近似思想在超高维空间的直接应用。

泰勒公式的一阶近似告诉我们,在足够小的范围内,任何复杂光滑的函数都可以被一条直线近似:

f(θ)≈f(θ₀)+∇f(θ₀)·(θ-θ₀)

其中,∇f(θ₀)就是函数在θ₀点的梯度。

梯度的概念正是泰勒思想的核心体现。在多元微积分中,梯度指向函数增长最快的方向,而其反方向就是下降最快的方向。

这个过程可以精确地用数学表达为:θ_new=θ_old- η∇J(θ),其中θ是参数,η是学习率,∇J(θ)是梯度。

这个简洁的公式,是AI“学习”行为的数学核心。

“为什么是这个方向?” 因为泰勒公式告诉我们,沿梯度反方向移动,函数值下降最快。

“为什么是减法?”,因为我们要最小化损失函数 J(θ),所以需要向着使函数值减小的方向调整参数。

至此,我们有了一个理论上正确的优化策略。但紧接着,一个无法回避的问题出现了:“这一步,应该迈多大?” 这就引出了公式中的关键超参数——学习率η。

学习率的选择,深刻地反映了泰勒近似的局限性,并将理论推向了复杂的实践。

如果学习率太大,我们的步长会超出“局部线性”区域的有效范围,泰勒近似失效,可能导致算法在峡谷两侧震荡甚至发散。如果学习率太小,虽然稳定,但收敛到谷底需要耗费极长的时间。

学习率困境揭示了理论理想与工程现实之间的差距。泰勒公式只在无穷小的区域内完美,但工程实践必须在有限的时间内完成计算。因此,我们必须在收敛速度和稳定性之间做出权衡。

这也解释了为何现代深度学习框架普遍使用自适应学习率算法,它们试图动态地调整η,以在复杂地形中实现更智能的“行走”。

有了方向(梯度反方向),有了步长策略(学习率),最后一个关键问题是,如何计算出那个至关重要的梯度∇J(θ)?

对于一个拥有数百万乃至数十亿参数的神经网络,手动计算或使用数值差分方法是绝对不可行的。这时,反向传播算法登场了。



所谓反向传播算法,它是链式法则在计算图上的一个高效、具体的应用,是AI学习的执行者。它对梯度下降理论至关重要,它是连接梯度下降理论与其在深度网络中大规模实践的桥梁。

它通过一次前向传播和一次反向传播,能够精确、高效地计算出损失函数J(θ)对于网络中每一个参数的偏导数,从而组装出完整的梯度向量 ∇J(θ)。

通俗讲,通过链式法则,网络可以将最终的误差信号逐层传递回去,精确计算出每个参数应该如何调整。这个过程就像是让网络进行了一种“自我反思”,通过分析自己的错误来改进未来的表现。

没有反向传播,梯度下降就只是一个停留在纸面上的数学公式,无法驱动任何有实际意义的深度学习模型。

设想一下,如果没有泰勒公式所启发的这种局部优化思想,AI将如何学习?它将不得不依赖于纯粹的随机搜索,在一个指数级复杂的高维空间中盲目碰撞。其计算成本将是天文数字,成功纯属偶然。

正是泰勒的局部线性化思想,赋予了AI系统在复杂环境中自主学习和改进的能力,使其从被动的程序转变为能够自主改进的智能体。

值得注意的是,泰勒公式还帮助我们理解了学习率选择的重要性。当学习率过大时,高阶项的影响会变得显著,导致优化过程发散;而当学习率过小时,收敛速度又会太慢。这种理解使得研究人员能够设计出更先进的自适应学习率算法,如Adam、RMSProp等。

19世纪初,傅里叶的革命:从全局频谱分解到基函数。

数学思想的突破:全局频谱分解的智慧

要真正理解傅里叶革命的颠覆性,我们需要回到19世纪初的科学语境。当时,数学分析在欧拉、拉格朗日等巨匠的耕耘下已日趋成熟,但对函数本质的理解仍停留在相对传统的框架内,函数通常被理解为可以用单一解析式表达的“良态”对象。

正是在这样的背景下,约瑟夫·傅里叶(1768-1830) 在研究热传导这一物理问题时,意外地打开了一扇通往数学新世界的大门。

傅里叶的划时代洞见源于一个看似简单的观察。热在物体中的传播可以用微分方程描述,但求解这些方程需要新的数学工具。他大胆地提出,任何周期函数,无论其形态多么复杂、甚至带有间断点,都可以表示为一系列简单三角函数之和。这个观点在当时堪称惊世骇俗,因为它直接挑战了当时数学权威拉格朗日对函数的传统认知。



傅里叶的这一数学思想就是傅里叶级数,数学表达公式:

f(x) = a₀/2 + Σ

这个公式的魅力不仅在于其形式的优美,更在于它实现了一个关键的认知跃迁,将复杂的“函数构造”问题,转化为简单的“系数确定”问题。

在傅里叶之前,数学家们面对一个复杂的周期函数,比如一段杂乱的声波、一个跳动的脉搏信号,思路是尝试寻找或构造一个全新的、同样复杂的单一解析式来定义它。

这就像面对一首复杂的交响乐,却试图用一架只能发出一个复杂怪异声音的新乐器来直接模仿它,这几乎是不可能的任务。

而傅里叶级数彻底改变了这个范式。它告诉我们,你不需要发明新乐器,你只需要一个标准的交响乐团。

在这个比喻中,复杂的周期函数相当于一首交响乐;正弦和余弦函数相当于乐团里各个声部的标准乐器(小提琴、长笛、定音鼓等);系数{a_n, b_n} 相当于每件乐器在演奏这首曲子时的乐谱。

这样,问题发生了根本性的转变,从“如何创造一种全新的声音来匹配这首交响乐?”变成了“如何为现有的标准乐器编写乐谱,让乐团能奏出目标音乐?”

后者是可行的,因为系数a_n 和 b_n 可以通过对原函数 f(x) 进行确定的积分运算来得到。工作的核心从“无中生有地创造”,转向了“在既定框架下进行组合与适配”。

傅里叶提出“通用基函数集”:开启AI“表示学习”新道路。

基函数:从坐标轴到智能基石的发展简史。

“基函数”的思想精髓在于,用一组简单、已知的基本单元,通过线性组合来表示或逼近一个复杂、未知的对象。

这条思想脉络萌芽于“笛卡尔坐标系”。

17世纪,勒内·笛卡尔创立了解析几何,引入了坐标系。这是一个划时代的观念,平面上的任何一个点,都可以用两个数 (x, y) 来表示,这两个数本质上是该点在两根坐标轴(单位向量 i 和 j)上的投影。



在这里,单位向量i和j就是最原始的“基函数”。它们是一组完备且正交的基。任何点都可以由它们表示(完备),且它们相互独立(正交)。这确立了“用基向量构建整个世界”的最初范式。

18世纪,数学家们在求解描述物理现象(如振动、热传导)的偏微分方程时,发现许多解无法用初等函数简单表示。他们需要一套系统性的方法来构造这些解。

为解决这类问题,数学家们发展出了分离变量法。该方法的核心是假设解可以写成一族简单函数(如三角函数、贝塞尔函数、勒让德多项式等)的乘积形式。

这些在特定边界条件下自然涌现出的函数族,就是最早被系统研究的“基函数”家族。

它们不是随意选择的,而是由方程本身和边界条件所决定的特征函数。

傅里叶的革命,宣告“基函数”的时代来临

约瑟夫·傅里叶的伟大之处在于,他迈出了决定性的一步。他提出,对于任何周期函数,都存在一组通用的、固定的基函数集——“正弦和余弦函数”——可以用于表示它。

正弦和余弦函数集合{1, sin(x), cos(x), sin(2x), cos(2x), ...} 就像一套完备的、精确的“语言词汇表”。任何一个周期函数,都是这套词汇表中的一个“句子”,而系数 {a_n, b_n} 就是这个句子的具体语法和用词选择。在这个坐标系中,每个函数都找到了自己唯一的、精确的“坐标位置”(即那组系数)。

这标志着基函数的思想从解决特定问题的技巧,上升为一种普适的哲学和范式。它告诉我们,可以为一大类问题预先准备一个“标准工具箱”(傅里叶基),而不必为每个新问题都去打造专用工具。

这种“基函数-坐标系”思想的深远意义,体现在以下三个层层递进的层面。

第一,分析范式的革新——从直接观测到本质洞察。

它提供了一种强大的“解构”工具。面对一个复杂信号,我们不再仅仅观察其外在的、随时间变化的波形(时域分析),而是可以透过傅里叶变换这面“数学棱镜”,将其分解为构成它的基本频率成分(频域分析)。这就像化学家通过光谱分析来确定物质的元素组成一样,让我们能够洞察到信号内部隐藏的、决定其本质特征的“频谱结构”。

第二,工程实现的简化——从连续处理到离散操控。

在工程上,它将对一个连续变化模拟信号的处理,转变为了对一组离散系数(频谱)的操作。如果你想过滤掉信号中的高频噪声,你不再需要设计复杂的模拟电路去直接修饰其波形,而只需在频域中将对应的高频系数衰减或置零,然后再转换回去。这极大地简化了滤波器、压缩器等一系列信号处理系统的设计与实现。

第三,AI智能的基石——为“表示学习”安装引擎。

这是傅里叶思想最富生命力的延伸。它确立了一个核心原则:智能地选择一个“表示空间”或“基函数集”,是理解和处理信息的关键。傅里叶选择的是普适但固定的“三角函数基”,而现代人工智能(如卷积神经网络)则更进一步:它让机器从数据中自行学习最适合特定任务(如识别猫狗)的“基函数”(即卷积核)。到了Transformer的自注意力机制,更是实现了“基函数”的完全动态、上下文相关的即时生成。

基函数的淬炼与发展:从斯通-魏尔斯特拉斯定理到希尔伯特空间。

在傅里叶以其惊人的直觉开创了“基函数”的范式之后,数学家们面临着一个更深刻的问题:傅里叶的三角函数基是有效的,但这是特例还是普遍规律?在数学上,究竟什么样的函数族有资格成为一套优秀的“基”? 对这个问题的追问,催生了一系列理论的精炼,最终将基函数的思想置于坚不可摧的逻辑基础之上。

1885年,卡尔·魏尔斯特拉斯证明了他的经典逼近定理,闭区间 上的任何连续函数,都可以被多项式函数一致逼近。



其数学表述:∀f∈C,∀ε> 0,∃多项式P, 使得 sup_{x∈}|f(x)- P(x)|<ε。

它表明,傅里叶的三角函数基并非孤例。多项式这一我们更为熟悉和简单的函数族,同样具有描述复杂连续现象的强大能力。这极大地拓宽了“基函数”的候选范围。

与傅里叶级数的早期困境(可能不收敛)不同,这个定理直接保证了逼近的存在性,为后续的数值方法和理论分析打开了大门。

马歇尔·哈维·斯通将魏尔斯特拉斯定理推广到了一个极其一般和强大的形式。他问的是,一个函数族需要满足哪些普遍性质,才能保证其可以逼近任意连续函数?

他提出了“好基”的三个黄金准则:

构成一个代数,该函数族对加法、乘法、数乘封闭。这意味着,如果你用这个族里的函数进行组合,你仍然在这个族内。这保证了逼近过程的内部一致性和丰富性。

能分离点,对于定义域内任意两个不同的点x ≠ y,族内存在至少一个函数 f,使得 f(x) ≠ f(y)。这保证了该函数族有足够的能力去区分和刻画定义域中的不同位置。

不消失于某点,对于定义域内任意一点x,族内存在至少一个函数 f,使得 f(x)≠0。这防止了该函数族在某个点“集体失灵”,确保其局部表达能力。

这一定理为选择和构造基函数提供了普适的、可验证的判据。当我们面对一个新问题时,可以据此判断一个候选的函数族是否具备成为通用逼近器的“资质”。

同时,它揭示了傅里叶的三角函数、魏尔斯特拉斯的多项式,以及许多其他函数族(如勒让德多项式、切比雪夫多项式)之所以成功的共同本质。它们都满足这三个抽象条件。

大卫·希尔伯特等人创立的泛函分析,完成了最后的抽象飞跃。它将所有满足某些条件的函数看作一个无限维空间中的“点”。

在这一框架下,基函数被严格定义为空间中的一组正交基,就像在三维空间中的i, j, k 一样。

在这一视角下,用一组基函数去逼近另一个函数,等价于在一个无限维空间中进行正交投影。所求的系数,就是目标函数在各个基“轴”上的投影长度。这为逼近论提供了极其优美和强大的几何直观。

至此,基函数完成了其理论大厦的构建,它是一套用于构建函数空间的“坐标系”,其选择决定了我们表示和分析函数的效率与便捷性。

小结:

局部线性化思想,为AI提供了最根本的“学习”算法——梯度下降。它让AI能在数十亿参数的复杂黑暗中,找到唯一正确的“下山”方向,从盲目的随机搜索变为目标明确的迭代优化。

全局频谱分解思想,“通用基函数”概念启发了AI的架构设计,从CNN中数据驱动的、层次化的“视觉基元学习”,到Transformer中上下文感知的、动态的“语义基函数生成”,完成了从“固定工具”到“万能工具生成器”的范式革命。

普遍逼近回答了AI最根本的哲学问题:“我们追求的那个智能函数,是否存在?”神经网络的万能逼近定理正是这一思想在现代的回响,它赋予了整个深度学习领域最根本的理论信心和合法性,使其从工程技巧升华为科学探索。

泛函分析的的几何化视角,将函数视为空间中的“点”,为我们提供了理解AI模型行为的“X光透视仪”。它让我们能清晰地诊断过拟合(在稀疏数据点中选择了过于复杂的函数)、理解正则化(在函数空间中偏好更简单、更平滑的解)、并洞悉表示学习的本质(寻找更优的数据坐标系)。

最佳逼近理论,将AI的追求从“足够好”推向“尽可能好”。它直接体现在各种损失函数的设计中,为“何为更好的模型”确立了数学上的精确标准,并指引着所有优化算法在高维空间中寻找那个最优解。(未完待续)
★★★★★★★★★★★★关注分享(本文为原创分享,转载需授权)
页: [1]
查看完整版本: AI核心数学工具:函数逼近论(一)