Appearance
数学基础 
线性代数 
张量(tensor) 
就像向量是标量的推广,矩阵是向量的推广一样,我们可以构建具有更多轴的数据结构。
向量是一阶张量,矩阵是二阶张量。 张量用特殊字体的大写字母表示。
范数(norm) 
线性代数中最有用的一些运算符是范数。 非正式地说,向量的范数是表示一个向量有多大。 这里考虑的大小(size)概念不涉及维度,而是分量的大小。
L1 范数,是向量元素绝对值之和。
L2 范数,是向量元素平方和的平方根。L2 常省略下标 2,即
等同于 。 
微积分(导数-梯度) 
为毛叫「微积分」 
从微积分基本定理可以看出,积分和微分实际上是逆过程:
TIP
- 微分是通过局部的变化率来描述函数的行为。
 - 积分是通过累积这些局部的变化(面积)来得到总体的行为。
 
将微分和积分联系起来的基本定理显示了它们是相辅相成的,解决问题时经常需要同时使用。
比如,解决一个运动问题,可能需要先用微分来描述速度,然后用积分来计算距离。因此,在数学中,这两个操作结合起来被称为「微积分」。
微分和积分是微积分的两个分支,微分可以应用于深度学习中的优化问题。
导数可以被解释为函数相对于其变量的瞬时变化率(速度),它也是函数曲线的切线的斜率。
梯度是一个向量,其分量是多变量函数相对于其所有变量的偏导数。
链式法则,可以用来微分复合函数。
自动微分 
虽然求导的计算很简单,只需要一些基本的微积分。 但对于复杂的模型,手工进行更新是一件很痛苦的事情(而且经常容易出错)。
深度学习框架通过自动计算导数,即自动微分(automatic differentiation)来加快求导。 实际中,根据设计好的模型,系统会构建一个计算图(computational graph), 来跟踪计算是哪些数据通过哪些操作组合起来产生输出。 自动微分使系统能够随后反向传播梯度。 这里,反向传播(backpropagate)意味着跟踪整个计算图,填充关于每个参数的偏导数。
概率 
简单地说,机器学习就是做出预测。
在强化学习中,我们希望智能体(agent)能在一个环境中智能地行动。 这意味着我们需要考虑在每种可行的行为下获得高奖励的概率。
从概率分布中抽取样本的过程称为抽样(sampling)。 笼统来说,可以把分布(distribution)看作对事件的概率分配,将概率分配给一些离散选择的分布称为多项分布(multinomial distribution)。
联合概率 
条件概率 
贝叶斯定理 
Bayes 定理(Bayes’ theorem)。
边际化 
为了能进行事件概率求和,我们需要求和法则(sum rule), 即 
这也称为边际化(marginalization)。 边际化结果的概率或分布称为边际概率(marginal probability) 或边际分布(marginal distribution)。
期望和方差 
数学期望(Expected Value)用来描述随机变量在长期试验中的平均表现,可以理解为「理论上长期重复实验的平均结果」。一个随机变量 
直观理解 
假设你掷一个公平的六面骰子无数次,每次的点数(1 到 6)出现的概率都是 1/6。那么长期的平均点数就是:
这里的 3.5 就是骰子的数学期望。
数学定义 
对于离散型随机变量(取值可列举):
即所有可能值 
当函数 
对于连续型随机变量(取值不可列举):
其中 
当函数 
方差:衡量随机变量 
随机变量函数的方差衡量的是:当从该随机变量分布中采样不同值 
方差的平方根被称为标准差(standard deviation)。
期望举例 
彩票问题:
一张彩票有 1/100 的概率中奖 100 元,否则得 0 元。期望收益:这意味着长期买彩票,平均每次“赚”1 元(但实际中彩票期望常低于成本)。
投资决策:
若投资 A 有 50%概率赚 10 万,50%概率亏 5 万,期望收益:这比确定性收益 2 万更“划算”(但实际需结合风险偏好)。
关键性质 
- 线性性:
,即使变量不独立。  - 独立性:若 
独立,则 。  
注意 
- 期望不一定属于随机变量的可能取值(如骰子期望 3.5,但实际只能掷出整数)。
 - 期望反映的是长期趋势,单次结果可能差异极大。
 
理解期望能帮助理性评估风险与收益,是保险、金融、机器学习等领域的基础工具。
欧拉公式 
欧拉公式Euler's Formula是数学中一个非常著名的公式,它将复数、指数函数和三角函数联系在一起。欧拉公式的常见形式如下:
其中:
是自然对数的底(约等于 2.71828)。 是虚数单位,满足 。 是一个实数,表示角度(通常以弧度为单位)。 和 分别是角度 的余弦和正弦函数。 
数学证明 
欧拉公式可以通过泰勒级数展开来证明:
- 指数函数 
的泰勒展开:  - 将 
代入,并利用 、 、 等性质,可以得到:  - 将实部和虚部分开:
 - 注意到这两个级数分别是 
和 的泰勒展开,因此:  
恒等式 
当 
这就是著名的欧拉恒等式Euler's Identity,它包含了数学中五个最重要的常数:
几何意义 
欧拉公式表明,复数 
当 
(角度 0,指向正右方) (角度 90°,指向上方) (角度 180°,指向左方) (角度 270°,指向下方) 
复数旋转:
应用领域 
欧拉公式在数学、物理和工程中有广泛的应用,例如:
- 复数运算:简化复数的乘除和幂运算。
 - 信号处理:傅里叶变换和频域分析中常用欧拉公式表示正弦波。
 - 微分方程:求解常系数线性微分方程时,欧拉公式可以帮助找到复数形式的解。
 - 量子力学:波函数的描述中经常用到欧拉公式。
 
欧拉公式是连接不同数学分支的重要桥梁,展现了数学的深刻统一性。