归一化

Problem A
fuckyouhimcm

4.1参数选择：

● Popularity and Accessibility:
我们团队选择了参与人数，参与国家数，现场热度，在线热度以及奖金作为五个指标。
首先，运动比赛的参与人数肯定是反映一个运动的普及程度和吸引力的关键因素，直接关系到Popularity的衡量。参与人数多说明这项运动拥有广泛的群众基础和吸引力。
参与国家数可以体现一个项目的全球化程度，虽然主要与Inclusivity相关，但也能够反映一个运动的热度。如果一个项目在众多国家都有实践，这意味着它具备更大的全球推广潜力。
相比于仅仅衡量参与人数，全球参与国家数量更能体现一项运动的普及性。比如一项运动是否只流行在一个区域。
现场热度指数是衡量Popularity and Accessibility的重要指标，由现场观众数，比赛持续天数，座位数和入座率组成。现场热度直接体现了奥运会的价值，相比于在线观众，现场观众更能体现人们对奥运会的支持度。
在线热度指数也能反应一个运动项目在世界范围内的知名度。不同于现场观众，很多人可能只喜欢呆在家里并观看各种赛事，显而易见这也是需要被统计的。
而奖金可以衡量该项目的市场化潜力，高奖金比赛往往能够吸引更多运动员参与，可能对知名度有些微影响。
● Gender Equity:
性别平等很简单，我们使用了男性运动员和女性运动员的数量作为变量并比较它们数量上的差异以此来判断是否有性别平等。

● Sustainability:
这个板块我们使用了综合可持续性指标，其中包括资源循环利用性，场馆每平米维护成本和场馆每平米造价来判断是否能够达sustainability的指标。
● Inclusivity:
我们使用了综合包容性指数来判断一个运动是否具有包容性，其中包括弱势群体参与，文化适应性，地域平衡性和经济包容性。弱势群体的能力一直是需要被关注的，优秀的运动往往能够接纳不同能力的人。文化适应性，地域平衡性则能够判断一个运动是否能在世界范围内被广泛接受，而经济包容性也是针对特定群体，他们是否能够支付得起这项运动的费用（比如装备，训练的费用）。
● Relevance and Innovation:
一个运动的相关性则比较抽象，我们使用了十个指标来判断其Spectator Appeal：动态感，对抗性，技巧性，策略性，变化性，视听体验，易懂，文化蕴含，参与感和美感。这些都是一个运动所需具备的要素
● Safety and Fair Play:
安全和公平竞争包括项目是否容易发生安全事故、是否存在显著的不公平现象都会直接影响它的可行性。我们采用了三个变量以合成一个指标：综合受伤人数，兴奋剂使用比例以及裁判公正性

4.2参数归一化：

在选择训练模型之前我们需要把数据全部归一化，对于很多变量，他们之间有错综复杂的关系需要调整。经过归一化之后我们最终合并并且保留了10个有效的变量座位最终模型需要的变量

参与人数：Log 归一化

通过观察参与人数分布情况我们发现，该数据跨度非常大，平均数约为1209人以及标准差达到了更大的1837人，并且明显的长尾分布（有个别极端的高参与人数项目）。Log 归一化可以显著压缩较大值，同时保留小值的细微差异，使结果更平滑且适合后续分析。根据公式

x^{'} = \frac{lo g ( x + 1 )}{lo g ( max ( x ) + 1 )}

我们可以得到归一化后的变量。

参与国家数：核密度估计归一化

我们发现参与国家数服从明显的多峰分布，参与国家数为100和190左右的项目占了约20个，剩余项目的参与国家数则均小于80。我们使用KDE并使用平滑函数（高斯核）来估计数据的概率密度函数（PDF）。它的好处是能够适应多峰分布，对异常值不敏感，且不需要对分布进行假设。

构建核密度估计：
- 使用核密度估计生成数据的概率密度函数 $f (x)$ ：
  $f (x) = \frac{1}{nh} \sum_{i = 1}^{n} K (\frac{x - x _{i}}{h})$
  其中：
  - $n$ 是数据点数；
  - $h$ 是带宽参数；
  - $K$ 是核函数，常用高斯核：
    $K (u) = \frac{1}{2 π} e^{- \frac{u ^{2}}{2}}$

根据估计的PDF，我们可以计算每个数据点的 累积分布函数（CDF），然后用CDF值对数据进行归一化。
2. 计算累积分布函数（CDF）并归一化：

累积分布函数 $F (x)$ 是概率密度函数的积分：
$x^{'} = F (x) = \int_{- \infty}^{x} f (t) d t$
在实际计算中，CDF 是对离散点的估计，可以对KDE的PDF进行数值积分。

观众数量、持续天数、座位数、上座率：熵权法归一化

接下来我们确定了一个指标，以判断一个体育项目的比赛是否有一定的受欢迎程度。我们采用了观众数量，持续天数，座位数和上座率来进行组合，并最终得出一个指标。
我们使用了熵权法，这是一种基于信息熵的多指标综合评价方法，通过信息熵衡量每个指标的信息含量，自动分配权重，从而减少人为因素的干扰。

步骤 1：数据归一化

对原始数据进行归一化处理，使每个指标的数据都在 [0, 1] 的范围内，便于后续计算。由于该数据分布没有什么特殊性，我们使用 Min-Max 归一化：

z_{ij} = \frac{x _{ij} - min ( x _{j} )}{max ( x _{j} ) - min ( x _{j} )}

步骤 2：计算各指标的比重 $p_{ij}$

归一化后，计算每个指标中样本值所占的比重：

p_{ij} = \frac{z _{ij}}{\sum _{i = 1}^{n} z _{ij}}

步骤 3：计算信息熵 $E_{j}$

使用比重 $p_{ij}$ 计算每个指标的信息熵：

E_{j} = - k i = 1 \sum n p_{ij} ln (p_{ij})

k = \frac{1}{ln ( n )}

其中，当 $p_{ij} = 0$ 时，定义 $p_{ij} ln (p_{ij}) = 0$ 。

步骤 4：计算权重 $w_{j}$

根据信息熵 $E_{j}$ 计算每个指标的权重：

w_{j} = \frac{1 - E _{j}}{\sum _{j = 1}^{m} ( 1 - E _{j} )}

步骤 5：计算综合得分 $S_{i}$

结合各指标的权重，计算每个样本的综合得分：

S_{i} = j = 1 \sum m w_{j} \cdot z_{ij}

Intent: Jaccard Similarity归一化

为判断一个体育项目的受欢迎程度我们还需要判断其线上的表现。我们检验了人们在搜索某些关键词时的数据。其中搜索目的是一个影响不大的指标，包含四个种类：Informational，Navigational，Transactional，Local。它们可能会同时出现，此时我们将这四个布尔值（出现与否）综合为一个指标。为了强调覆盖多种 intent 类型的重要性，我们使用了Jaccard Similarity归一化方法。Jaccard 相似度衡量两个集合的相似度，是交集与并集的比值。首先我们需要：

样本集合 $A$

对于每个样本，提取 intent 类型为 1 的字段，构造集合：

例如，样本数据为 $[1, 0, 1, 0]$ ： $A = {Informational, Transactional}$

理想集合 $B$

根据奥运会项目的评估目标，设定理想 intent 类型组合 $B$ ：

如果奥运会重视经济效益与推广价值，可能设定： $B = {Informational, Transactional} = [1, 0, 1, 0]$

步骤 2：计算Jaccard 相似度

S = \frac{∣ A \cap B ∣}{∣ A \cup B ∣}

$A$ ：当前样本中 intent 类型为 1 的集合。
$B$ ：理想情况下需要的 intent 类型集合（根据判断是否加入一个奥运会项目的宗旨，我们确定了一个理想值。 $[1, 0, 1, 0]$ ，表示需要 Informational、Transactional）。
$S$ ：相似度，值范围为 [0, 1]，1 表示完全匹配，0 表示完全不匹配。

在线热度: PCA 自动权重生成与归一化方法

对于生成好的用户搜索目的指数和其他变量，我们使用了加权和的方法并且使用PCA来自动生成权重来归一化。这样不仅可以避免人为干预权重还有较强解释行（每个权重直接反映变量对数据整体方差的贡献）

步骤 1：数据标准化

对原始数据矩阵 $X$ 进行标准化，使得每个变量均值为 0，标准差为 1：

z_{ij} = \frac{x _{ij} - μ _{j}}{σ _{j}}

$z_{ij}$ ：标准化后的第 $i$ 个样本的第 $j$ 个变量值。
$μ_{j}$ ：第 $j$ 个变量的均值。
$σ_{j}$ ：第 $j$ 个变量的标准差。

标准化后得到数据矩阵 $Z \in R^{n \times m}$ ，其中 $n$ 是样本数， $m$ 是变量数。

步骤 2：计算协方差矩阵

标准化后的矩阵 $Z$ 用于计算协方差矩阵 $C$ ：

C = \frac{1}{n - 1} Z^{T} Z

$C \in R^{m \times m}$ ：协方差矩阵，表示变量间的相关性。

步骤 3：求解特征值与特征向量

对协方差矩阵 $C$ 进行特征值分解，得到：

特征值 $λ_{i}$ ：表示每个主成分的方差贡献。
特征向量 $a_{i}$ ：表示每个主成分的方向。

满足以下关系：

C a_{i} = λ_{i} a_{i}

$λ_{i}$ 的大小反映第 $i$ 个主成分的重要性。
$a_{i}$ 中的分量表示每个变量对该主成分的贡献。

步骤 4：选择主成分

计算每个主成分的方差贡献率：

Variance Ratio_{i} = \frac{λ _{i}}{\sum _{i = 1}^{m} λ _{i}}

根据累计方差贡献率选择前 $k$ 个主成分（如累积贡献率达到 80%-90%）：

Cumulative Variance Ratio = \frac{\sum _{i = 1}^{k} λ _{i}}{\sum _{i = 1}^{m} λ _{i}}

选出的主成分能够解释绝大部分数据的方差。

步骤 5：计算 PCA 权重

对于第一个主成分 $a_{1}$ ，每个变量的权重由特征向量的分量决定：

w_{j}^{PCA} = \frac{∣ a _{1 j} ∣}{\sum _{j = 1}^{m} ∣ a _{1 j} ∣}

$a_{1 j}$ ：第一个主成分的特征向量中第 $j$ 个分量。
$w_{j}^{PCA}$ ：变量 $j$ 的权重，表示它对第一个主成分的重要性。

步骤 6：计算综合得分

将每个变量的权重应用到标准化数据上，计算每个样本的综合得分：

S_{i} = j = 1 \sum m w_{j}^{PCA} \cdot z_{ij}

$S_{i}$ ：第 $i$ 个样本的综合得分。
$w_{j}^{PCA}$ ：第 $j$ 个变量的 PCA 权重。
$z_{ij}$ ：第 $i$ 个样本的第 $j$ 个变量的标准化值。

奖金: 鲁棒 S 型归一化

奖金也是作为判断一个体育运动是否足够吸引人的特质，越高的奖金越能够吸引更多运动员参与到其中。我们注意到奖金的分布存在严重长尾，大部分比赛不提供奖金但少部分比赛提供巨额奖金。这种分布让我们不得不使用鲁棒 S 型归一化。它通过以中位数为中心进行数据平滑，抑制极端值对归一化结果的影响，同时增强数据的中间区间对比度。并且奖金总为正数，符合鲁棒 S 型归一化的条件，不需要进行预处理

1. 计算鲁棒统计量

首先根据数据 $x_{j}$ 的分布，计算以下统计量：

中位数（Median）： $Median (x_{j})$
四分位距（IQR）： $IQR (x_{j}) = Q 3 - Q 1$
- $Q 3$ ：75% 分位点。
- $Q 1$ ：25% 分位点。

2. 鲁棒归一化公式

应用鲁棒 S 型归一化公式，将数据归一化到 (0, 1) 范围内：

z_{ij} = \frac{1}{1 + exp ( - k \cdot \frac{x _{ij} - Median ( x _{j} )}{IQR ( x _{j} )} )}

$z_{ij}$ ：归一化后的值。
$x_{ij}$ ：原始数据中的第 $i$ 个样本的第 $j$ 个变量值。
$k$ ：控制曲线陡峭程度的参数。

$k$ 的作用

$k$ 决定 S 型曲线的陡峭程度：
- $k$ 较大：数据分布更集中，中间区间对比度增强，极端值更快趋近于 0 或 1。
- $k$ 较小：数据分布更平滑，极端值对归一化结果的影响较大。

由于数据存在明显长尾现象，我们使用基于标准偏差的动态调整： $k = \frac{1}{σ _{j}}$
- $σ_{j}$ 是第 $j$ 个变量的标准差。
- 优点：对数据离散程度敏感，适合高方差数据。

男女比例：非线性强化比例

对于奥运会的男女平等评价，我们想重点突出 男女比例接近平衡（1:1） 的重要性，同时避免极端情况对评分的过大影响。在这种场景下，我们选择了非线性比例，这使得男女比例严重不平等时这个指数会迅速下降直到达到0

R = 1 - (\frac{∣ M - F ∣}{M + F})^{k}

$M$ ：男生数量。
$F$ ：女生数量。
$k > 1$ ：非线性强化参数，用于提高接近平衡情况的评分（我们选择 $k = 3$ ）。

当 $M ≫ F$ 或 $F ≫ M$ 时，评分下降迅速，以此不鼓励男女不平等的项目。

特殊场景：如花样游泳等仅支持单一性别的项目将不考虑这个指标

资源循环利用性、维护成本和造价: 线性/对数+加权和方案

对于这三个变量，归一化需要考虑其特性以及数据分布特点。

对于资源循环利用性，指标越高表示越好。对于维护成本，指标越低表示越好。对于场地造价，单位面积造价越低表示越好。
通过数据分析发现资源循环利用性和维护成本趋近于正态分布，而场地造价的分布则呈现明显正偏态。

所以，对于资源循环利用性我们直接使用Min-Max Normalization

z_{ij} = \frac{x _{ij} - min ( x _{j} )}{max ( x _{j} ) - min ( x _{j} )}

对于维护成本我们直接使用Inverse Normalization

z_{ij} = 1 - \frac{x _{ij} - min ( x _{j} )}{max ( x _{j} ) - min ( x _{j} )}

对于单位面积造价，我们使用对数归一化以抑制极端值的影响：

z_{ij} = \frac{lo g ( x _{ij} + 1 ) - min ( lo g ( x _{j} + 1 ))}{max ( lo g ( x _{j} + 1 )) - min ( lo g ( x _{j} + 1 ))}

归一化后的每个变量赋予权重 $w_{j}$ ，计算综合得分：

S_{i} = j = 1 \sum m w_{j} \cdot z_{ij}

$w_{j}$ ：第 $j$ 个变量的权重。
$z_{ij}$ ：归一化后的第 $i$ 个样本的第 $j$ 个变量值。
$m = 3$ ：变量数。

我们采用熵权法来计算每个权重：

计算每个变量的信息熵： $E_{j} = - \frac{1}{ln ( n )} i = 1 \sum n p_{ij} ln (p_{ij}), p_{ij} = \frac{z _{ij}}{\sum _{i = 1}^{n} z _{ij}}$
计算权重： $w_{j} = \frac{1 - E _{j}}{\sum _{j = 1}^{m} ( 1 - E _{j} )}$

最后直接计算加权和

S = j = 1 \sum m w_{j} \cdot z_{ij}

综合包容性指数：加权平均整合

包容性指标包含弱势群体参与，文化适应性，地域平衡性和经济包容性。由于其地位相当我们直接采用0.25的权重以计算加权和

S = i = 1 \sum 4 w_{i} \cdot x_{i}

$x_{i}$ ：第 $i$ 个变量的值（0, 0.5, 或 1）。
$w_{i}$ ：第 $i$ 个变量的权重，权重满足 $\sum w_{i} = 1$ 。

Spectator Appeal：投票模型

Spectator Appeal包含下列指标：动态感，对抗性，技巧性，策略性，变化性，视听体验，易懂，文化蕴含，参与感和美感，由于其地位相当我们直接计算其平均值

公式

S = \frac{sum ( x _{i} )}{n}

计算所有布尔值中为 1 的比例。
不需要权重，仅根据“通过的项数”评价。

适用场景

适合所有指标权重均等的简单场景。

受伤人数：协方差贡献法

受伤人数分三个变量：总受伤人数占总人数比例，受伤并且超过一天未恢复的人数占总人数比例，受伤并且超过七天未恢复的人数占总人数比例，可以简单地看作受伤总人数，短期受伤人数和长期受伤人数。由于三个变量间存在包含关系，我们利用指标对整体协方差的贡献来确定权重

首先计算协方差矩阵的行列和：
$S_{j} = i \sum Cov (x_{j}, x_{i})$
分配权重：
$w_{j} = \frac{S _{j}}{\sum S _{j}}$

最后使用加权和

S = j = 1 \sum m w_{j} \cdot z_{ij}

安全/公平竞争：方差权重法

对于安全与公平竞争这个板块的指标，其中包含三个变量：兴奋剂使用人数占总人数比例，受伤人数指标和裁判公正性。我们为了让稳定（方差小）的指标占据主导性，采用了方差权重法

计算每个指标的方差：
$Var_{j} = \frac{\sum ( x _{ij} - x ˉ _{j} ) ^{2}}{n - 1}$
计算权重：
$w_{j} = \frac{Var _{j}}{\sum Var _{j}}$

最后使用加权和

S = j = 1 \sum m w_{j} \cdot z_{ij}

4.3模型搭建：

在本研究中，我们选择使用随机森林模型作为最后的分析工具。随机森林模型具有处理高维复杂数据的能力，能够有效捕捉多个变量之间的非线性关系。这对于我们这种拥有复杂变量的分析有很大的优势。此外，其内置的变量重要性分析功能，能够帮助我们识别出影响奥运会项目选择的关键因素，如观众兴趣、可持续性、安全性等。随机森林的集成学习机制还提高了模型的鲁棒性和预测准确性，避免了单一模型可能出现的过拟合问题。基于上述特点，随机森林模型非常适合解决奥运会项目选择中涉及的多因素决策问题。

数据预处理

缺失值处理
对于数据集中存在的缺失值 ( $NaN$ )，采用均值填充的方法：
$x_{i, j} = {mean ({x_{k, j} ∣ x_{k, j} \neq = NaN}), x_{i, j}, if x_{i, j} = NaN, otherwise .$
数值转换
将所有非数值类型数据转换为 $NaN$ ，保证数据一致性。
特征划分
数据集被划分为多个板块 $A, B, C, \dots, G$ ，其中每个板块包含一组特定的特征：
$X_{k} = {x_{i, j} ∣ j \in 特征集 k},$
$k \in {A, B, C, D, E, F, G}$ 。

随机森林属于决策树模型的集成算法，通过生成多个决策树并结合它们的结果来提高预测的准确性和稳定性。它会随机选取数据和特征，并能在高维数据和复杂问题中取得良好的性能。

下面是一个随机森林算法的详细过程，包括训练数据集的变量、目标变量 $Y$ ，以及涉及的公式。

首先

输入数据：训练数据集包含 $n$ 个样本，每个样本有 $m$ 个特征，目标是预测一个目标变量 $Y$ 。
- 训练数据集： ${(X_{1}, Y_{1}), (X_{2}, Y_{2}), \dots, (X_{n}, Y_{n})}$
- 每个样本 $X_{i} = (x_{i 1}, x_{i 2}, \dots, x_{im})$ 是 $m$ 维特征向量。
输出数据：通过训练得到的多个决策树的预测结果 $\hat{Y}$ 。
模型训练

2.1 基本步骤

训练数据的随机抽样：
- 从训练数据集中随机有放回地抽取 $n_{tree}$ 个样本，形成一个新的子数据集（称为bootstrap样本），用于训练每棵决策树。
- 由于是有放回抽样，所以某些样本可能会在同一子数据集中多次出现，而其他样本则可能完全不出现。
构建决策树：
- 对于每棵树，在训练过程中，特征选择是随机的。
从所有特征中随机选择 $m_{split}$ 个特征进行节点分裂。
根据选定的特征选择分裂点（最大化信息增益或最小化基尼不纯度）。
对每个节点递归进行相同的过程，直到达到停止条件（如最大深度或最小样本数）。

基尼不纯度（Gini Impurity）的计算公式：

G ini (D) = 1 - i = 1 \sum K p_{i}^{2}

其中 $p_{i}$ 是类 $i$ 在数据集 $D$ 中的比例， $K$ 是类别的总数。

信息增益（Information Gain）：

I G (D, f) = E n t r o p y (D) - v \in {v_{1}, v_{2}, \dots, v_{k}} \sum \frac{∣ D _{v} ∣}{∣ D ∣} E n t r o p y (D_{v})

其中， $E n t r o p y (D)$ 为数据集 $D$ 的信息熵， $D_{v}$ 为根据特征 $f$ 分裂后的数据子集， $∣ D_{v} ∣$ 和 $∣ D ∣$ 分别是子集和原数据集的样本数量。

重复步骤：
- 重复第一步和第二步，直到建立 $n_{tree}$ 棵决策树。
投票机制（回归问题：平均，分类问题：多数投票）：
- 随机森林的最终预测是所有树预测值的平均： $\hat{Y}_{rf} = \frac{1}{n _{tree}} t = 1 \sum n_{tree} \hat{Y}_{t}$

4.4. 随机森林模型训练

我们使用了包含 $n = 762$ 个样本的训练数据集，每个样本包含 $m = 10$ 个特征。数据集包含了多个变量，例如： $x_{1}$ （参与人数）、 $x_{2}$ （参与国家数）、 $x_{3}$ （性别比例）等，目标变量 $Y$ 是二分类标签，表示是否符合条件（是否在2028洛杉矶奥运会举办）。

随机森林模型设置

我们训练了一个包含 $n_{tree} = 100$ 棵决策树的随机森林模型。每棵树在分裂节点时随机选择 $m_{split} = 5$ 个特征进行分裂，树的最大深度设置为 $d_{max} = 10$ ，最小样本数设置为 10。

评估结果

模型在测试集上的准确率为 $0.73$ ，F1分数为 $0.87$ ，表明模型具有较好的分类能力。通过特征重要性分析，我们发现“参与人数”和“在线热度”对预测有最大的影响。

总结

随机森林模型成功地在该数据集上进行了训练，并且表现优于传统的线性模型。通过进一步调优树的数量和深度，我们相信模型的性能还可以进一步提高。

缺点：

计算复杂度高：对于大规模数据集和大量树，训练和预测过程可能较为耗时。
可解释性差：相比于单棵决策树，随机森林模型较为复杂，难以直接解释每棵树的决策过程。

My Vault

Explorer

归一化

Problem A fuckyouhimcm