数据预处理

  1. 缺失值处理
    对于数据集中存在的缺失值 ((\text{NaN})),采用均值填充的方法:

  2. 数值转换
    将所有非数值类型数据转换为 (\text{NaN}),保证数据一致性。

  3. 特征划分
    数据集被划分为多个板块 (A, B, C, \dots, G),其中每个板块包含一组特定的特征:

    (k \in {A, B, C, D, E, F, G})。


随机森林分类器

  1. 数据划分
    数据集按照比例 (0.8:0.2) 分为训练集和测试集:

  2. 训练随机森林模型
    随机森林分类器使用以下公式构建多棵决策树 (T_m):

    其中,(\mathbf{X}_{\text{bootstrap}}) 是通过有放回采样生成的子数据集。

  3. 预测概率
    模型为每个板块 (k) 的特征预测正类的概率:

    其中 (M) 是随机森林中的树的数量。

  4. 组合预测概率
    所有板块的预测概率组合成新的数据集 (\mathbf{P}):


生成对抗网络(GAN)

  1. 生成器
    生成器是一个多层感知机(MLP),将随机噪声 (\mathbf{z} \in \mathbb{R}^{d_z}) 转换为生成样本:

    其中 (\mathbf{z} \sim \mathcal{N}(0, I))。

  2. 判别器
    判别器是一个二分类网络,输出真实样本 (\mathbf{P}) 和生成样本 (\mathbf{\hat{P}}) 的分类概率:

  3. 损失函数

    • 判别器的损失:
    • 生成器的损失:
  4. 优化
    使用随机梯度下降优化生成器和判别器的参数:

    其中 (\eta) 是学习率。


最终预测

  1. 生成器生成样本
    输入随机噪声 (\mathbf{z}),生成器输出预测样本:

  2. 判别器分类
    判别器输出生成样本为正类的概率:

    最终将 (\hat{y}_i > 0.5) 作为正类预测。

  3. 整体准确率
    计算最终预测的分类准确率:

    其中 (N) 为测试集样本数量。