在概率和统计学中，尤度是一个函数，在给定参数下，表示观测数据出现的概率。与概率不同的是，尤度函数将参数视为变量，而观测数据是已知的。尤度函数通常用于参数估计，尤其是在最大似然估计中。

尤度函数是基于误差项（如正态分布的误差）的概率密度函数，而没有误差项时，模型变成了一个确定性的线性方程组，无法定义概率分布，也就没有尤度函数可言。在这种确定性模型中，我们可以通过直接解方程组来确定。如果线性方程组没有一致的解，这意味着数据本身存在矛盾或测量错误。

似然函数和对数似然函数

在统计学习和机器学习中，似然函数（Likelihood Function）和对数似然函数（Log-Likelihood Function）用于描述模型参数在给定数据上的表现。

1. 似然函数

对于给定的参数 $θ$ 和数据集 ${(x_{i}, y_{i})}_{i = 1}^{N}$ ，假设数据是独立同分布的（IID），则似然函数表示参数 $θ$ 下所有样本点联合概率的乘积：

L (θ; x, y) = i = 1 \prod N p (y_{i} ∣ x_{i}, θ)

解读：

直接计算似然函数的乘积容易导致数值下溢（即结果过小）。因此，我们对似然函数取对数，得到对数似然函数：

lo g L (θ; x, y) = i = 1 \sum N lo g p (y_{i} ∣ x_{i}, θ)

解读：

在二分类问题中，每个样本点的条件概率为：

p (y_{i} ∣ x_{i}, θ) = [h_{θ} (x_{i})]^{y_{i}} [1 - h_{θ} (x_{i})]^{1 - y_{i}}

将该概率代入似然函数：

L (θ; x, y) = i = 1 \prod N [h_{θ} (x_{i})]^{y_{i}} [1 - h_{θ} (x_{i})]^{1 - y_{i}}

对该似然函数取对数：

lo g L (θ; x, y) = i = 1 \sum N [y_{i} lo g h_{θ} (x_{i}) + (1 - y_{i}) lo g (1 - h_{θ} (x_{i}))]

交叉熵损失是对数似然的相反数（即损失函数为负的对数似然），其公式为：

J (θ) = - lo g L (θ; x, y) = - i = 1 \sum N [y_{i} lo g h_{θ} (x_{i}) + (1 - y_{i}) lo g (1 - h_{θ} (x_{i}))]

该公式用于衡量模型预测与实际标签之间的匹配程度。目标是最小化交叉熵损失，即最大化对数似然。

82-sc-r3 > 追試験#問題3#問3
给定一个模型 $y (a 1, a 2) = a 1 x 1 + a 2 x 2 + e$ ，其中 $e$ 服从标准正态分布 $N (0, 1)$ ，我们要根据三次观测值来估计 $x 1$ 和 $x 2$ 的尤度。

假设我们有三次观测值 $y_{1}, y_{2}, y_{3}$ 。这些观测值可以表示为：

y_{1} = a 1 x 1 + a 2 x 2 + e_{1}

y_{2} = a 1 x 1 + a 2 x 2 + e_{2}

y_{3} = a 1 x 1 + a 2 x 2 + e_{3}

由于 $e_{i}$ 服从标准正态分布，因此每个 $y_{i}$ 的条件概率密度函数为：

f (y_{i} ∣ a 1, a 2, x 1, x 2) = \frac{1}{2 π} exp (- \frac{( y _{i} - ( a 1 x 1 + a 2 x 2 ) ) ^{2}}{2})

尤度函数 $L (a 1, a 2∣ y_{1}, y_{2}, y_{3}, x 1, x 2)$ 是所有观测值的联合概率密度函数：

L (a 1, a 2∣ y_{1}, y_{2}, y_{3}, x 1, x 2) = i = 1 \prod 3 f (y_{i} ∣ a 1, a 2, x 1, x 2)

将每个 $f (y_{i} ∣ a 1, a 2, x 1, x 2)$ 代入，我们得到：

L (a 1, a 2∣ y_{1}, y_{2}, y_{3}, x 1, x 2) = i = 1 \prod 3 \frac{1}{2 π} exp (- \frac{( y _{i} - ( a 1 x 1 + a 2 x 2 ) ) ^{2}}{2})

简化得到：

L (a 1, a 2∣ y_{1}, y_{2}, y_{3}, x 1, x 2) = (\frac{1}{2 π})^{3} exp (- \frac{1}{2} i = 1 \sum 3 (y_{i} - (a 1 x 1 + a 2 x 2))^{2})

尤度函数的对数形式（对数尤度函数）通常更方便处理：

lo g L (a 1, a 2∣ y_{1}, y_{2}, y_{3}, x 1, x 2) = - \frac{3}{2} lo g (2 π) - \frac{1}{2} i = 1 \sum 3 (y_{i} - (a 1 x 1 + a 2 x 2))^{2}

通过最大化对数尤度函数，我们可以估计 $a 1$ 和 $a 2$ 的最佳值，即最大似然估计（MLE）。实际估计过程中，我们会用到数值优化方法，如梯度下降或牛顿-拉夫森法。

tags	数学
aliases	Likelihood, 尤度