数据预处理
-
缺失值处理
对于数据集中存在的缺失值 ((\text{NaN})),采用均值填充的方法: -
数值转换
将所有非数值类型数据转换为 (\text{NaN}),保证数据一致性。 -
特征划分
数据集被划分为多个板块 (A, B, C, \dots, G),其中每个板块包含一组特定的特征:(k \in {A, B, C, D, E, F, G})。
随机森林分类器
-
数据划分
数据集按照比例 (0.8:0.2) 分为训练集和测试集: -
训练随机森林模型
随机森林分类器使用以下公式构建多棵决策树 (T_m):其中,(\mathbf{X}_{\text{bootstrap}}) 是通过有放回采样生成的子数据集。
-
预测概率
模型为每个板块 (k) 的特征预测正类的概率:其中 (M) 是随机森林中的树的数量。
-
组合预测概率
所有板块的预测概率组合成新的数据集 (\mathbf{P}):
生成对抗网络(GAN)
-
生成器
生成器是一个多层感知机(MLP),将随机噪声 (\mathbf{z} \in \mathbb{R}^{d_z}) 转换为生成样本:其中 (\mathbf{z} \sim \mathcal{N}(0, I))。
-
判别器
判别器是一个二分类网络,输出真实样本 (\mathbf{P}) 和生成样本 (\mathbf{\hat{P}}) 的分类概率: -
损失函数
- 判别器的损失:
- 生成器的损失:
-
优化
使用随机梯度下降优化生成器和判别器的参数:其中 (\eta) 是学习率。
最终预测
-
生成器生成样本
输入随机噪声 (\mathbf{z}),生成器输出预测样本: -
判别器分类
判别器输出生成样本为正类的概率:最终将 (\hat{y}_i > 0.5) 作为正类预测。
-
整体准确率
计算最终预测的分类准确率:其中 (N) 为测试集样本数量。