公式

缺失值处理
对于数据集中存在的缺失值 ((\text{NaN}))，采用均值填充的方法：
$x_{i, j} = {mean ({x_{k, j} ∣ x_{k, j} \neq = NaN}), x_{i, j}, if x_{i, j} = NaN, otherwise .$
数值转换
将所有非数值类型数据转换为 (\text{NaN})，保证数据一致性。
特征划分
数据集被划分为多个板块 (A, B, C, \dots, G)，其中每个板块包含一组特定的特征：
$X_{k} = {x_{i, j} ∣ j \in 特征集 k},$
(k \in {A, B, C, D, E, F, G})。

数据划分
数据集按照比例 (0.8:0.2) 分为训练集和测试集：
$X_{train}, X_{test}, y_{train}, y_{test} \sim train_test_split (X, y, test_size = 0.2) .$
训练随机森林模型
随机森林分类器使用以下公式构建多棵决策树 (T_m)：
$T_{m} = DecisionTreeClassifier (X_{bootstrap}, y_{bootstrap}),$
其中，(\mathbf{X}_{\text{bootstrap}}) 是通过有放回采样生成的子数据集。
预测概率
模型为每个板块 (k) 的特征预测正类的概率：
$\overset{p}{^}_{k, i} = \frac{1}{M} m = 1 \sum M T_{m} (x_{i}),$
其中 (M) 是随机森林中的树的数量。
组合预测概率
所有板块的预测概率组合成新的数据集 (\mathbf{P})：
$P = [\overset{p}{^}_{A}, \overset{p}{^}_{B}, \overset{p}{^}_{C}, \dots, \overset{p}{^}_{G}] .$

生成器
生成器是一个多层感知机（MLP），将随机噪声 (\mathbf{z} \in \mathbb{R}^{d_z}) 转换为生成样本：
$\hat{P} = G (z; θ_{G}),$
其中 (\mathbf{z} \sim \mathcal{N}(0, I))。
判别器
判别器是一个二分类网络，输出真实样本 (\mathbf{P}) 和生成样本 (\mathbf{\hat{P}}) 的分类概率：
$D (P; θ_{D}) \to [0, 1] .$
损失函数
- 判别器的损失： $L_{D} = - E_{P \sim p_{real}} [lo g D (P)] - E_{\hat{P} \sim p_{G}} [lo g (1 - D (\hat{P}))] .$
- 生成器的损失： $L_{G} = - E_{\hat{P} \sim p_{G}} [lo g D (\hat{P})] .$
优化
使用随机梯度下降优化生成器和判别器的参数：
$θ_{D} \leftarrow θ_{D} - η \nabla_{θ_{D}} L_{D}, θ_{G} \leftarrow θ_{G} - η \nabla_{θ_{G}} L_{G},$
其中 (\eta) 是学习率。

生成器生成样本
输入随机噪声 (\mathbf{z})，生成器输出预测样本：
$\hat{P} = G (z; θ_{G}) .$
判别器分类
判别器输出生成样本为正类的概率：
$\overset{y}{^}_{i} = D (\hat{P}_{i}; θ_{D}),$
最终将 (\hat{y}_i > 0.5) 作为正类预测。
整体准确率
计算最终预测的分类准确率：
$Accuracy = \frac{\sum _{i = 1}^{N} ( y ^ _{i} = y _{i} )}{N},$
其中 (N) 为测试集样本数量。

My Vault