结果

实验系统:我们从浙江大学不同学科招募了360名学生,组成了60个规模为6的独立群体。每个群体通过进行300轮石头剪刀布(RPS)游戏(耗时90-150分钟)来完成一次实验,每轮实验使用固定的支付参数aa值。在现实世界中,个体通常需要基于部分信息做出决策。为了模拟这种情境,我们采用了传统的随机配对实验协议:在每一轮游戏中(时间tt),玩家在群体内随机配对并与对手进行对战;之后,每个玩家将收到关于自己支付和自己及对手动作的反馈信息。实验结束时,玩家根据自己累计的支付获得实际现金奖励(见方法部分)。我们的实验设置与另外两个最近的实验有所不同,后者中的每个玩家与整个群体竞争,并且在连续的时间内可能会改变动作。我们分别在五分之一的群体中设置了a=1.1,2,4,9a = 1.1, 2, 4, 9和100,以便比较在进化不稳定、中性、稳定和深度稳定区域中的动态行为。

个体玩家的动作边际分布:我们观察到,除了一个群体(a=1.1a = 1.1)外,其他所有群体中的个体玩家都会频繁地改变自己的动作(该特殊群体被排除在进一步分析之外,见在线补充资料)。在这59个群体中354名玩家的平均值中,玩家在一轮游戏中选择动作R、P、S的概率分别为0.36 ± 0.08、0.33 ± 0.07和0.32 ± 0.06(均值 ± 标准差)。对于相同aa值的每一组群体,我们得到了非常相似的结果(见在线补充表S1)。这些结果与纳什均衡(NE)理论一致,表明NE混合策略是描述玩家动作边际分布的良好模型。然而,玩家在两次连续时间的动作不是独立的,而是存在相关性。如图2A–2E所示,在每一轮中,玩家更有可能重复上一次的动作,而不是选择顺时针(即R → P,P → S,S → R,见图1B)或逆时针(R → S,S → P,P → R)转变。这种惯性效应在a=1.1a = 1.1时尤其明显,随着aa的增加,惯性效应逐渐减弱。

我们注意到,当a≥2a \geq 2时,个体玩家做出顺时针动作的概率与做出逆时针动作的概率相等或仅有微小差异(见图2A–2E)。在进化中性(a=2a = 2)和稳定(a>2a > 2)的RPS游戏中,个体玩家的循环行为几乎没有,或者仅有非常弱的循环行为,这与NE理论一致。如图2F–2J所示,个体玩家的动作转变统计结果可以进一步展现。

集体行为:

在任意时刻 tt,群体的社会状态记为 s(t)s(t); (nR(t),nP(t),nS(t))(n_R(t), n_P(t), n_S(t)),其中 nqn_q 是选择动作 q∈{R,P,S}q \in {R, P, S} 的玩家数量。由于 nR+nP+nS=Nn_R + n_P + n_S = N,因此存在 (N−1)(N−2)2\frac{(N - 1)(N - 2)}{2} 种这样的社会状态,这些状态都位于一个由等边三角形限定的三维平面上(见图1C)。随着石头剪刀布游戏的进行,每个群体在这个平面上都会留下一个轨迹。为了检测旋转流,我们为每个社会状态转变 s(t)→s(t+1)s(t) \rightarrow s(t+1) 指派一个旋转角度 h(t)h(t),该角度衡量了该转变相对于社会状态平面重心 c0=(N/3,N/3,N/3)c_0 = (N/3, N/3, N/3) 的旋转角度(见方法部分)。正值和负值的 hh 分别表示逆时针和顺时针旋转,而 h=0h = 0 则意味着转变没有围绕 c0c_0 旋转。例如,图1C中的三个转变的角度分别为 h(1)=π/3h(1) = \pi/3、h(2)=0h(2) = 0、h(3)=−2π/3h(3) = -2\pi/3。

在时间间隔 [t0,t1][t_0, t_1] 内绕 c0c_0 旋转的净循环次数计算为:

Ct0,t1=∫t0t1h(t)2πdt(1)C_{t_0,t_1} = \int_{t_0}^{t_1} \frac{h(t)}{2\pi} dt \tag{1}

如图3A–3E所示,C1,tC_{1,t} 在大多数59个群体中呈现增长趋势,表明持续的逆时针循环。在时间间隔 [t0,t1][t_0, t_1] 内每个轨迹的循环频率评估为:

ft0,t1=Ct0,t1t1−t0(2)f_{t_0,t_1} = \frac{C_{t_0,t_1}}{t_1 - t_0} \tag{2}

59个群体的 f1,300f_{1,300} 值列在表1中,得到的平均频率为:0.031±0.0060.031 \pm 0.006(a=1.1a = 1.1),0.027±0.0080.027 \pm 0.008(a=2a = 2),0.031±0.0080.031 \pm 0.008(a=4a = 4),0.022±0.0080.022 \pm 0.008(a=9a = 9),0.018±0.0070.018 \pm 0.007(a=100a = 100)。这些平均频率在各个 aa 值下都是正值,表明在看似高度不规则的社会状态演化过程中,存在一个确定性的模式,即社会状态从略微偏向R的动作,转变为略微偏向P,再到略微偏向S,最后又回到略微偏向R。统计分析确认,对于所有五组群体,f1,300>0f_{1,300} > 0 是显著的(Wilcoxon符号秩检验,p<0.05p < 0.05)。我们还注意到,在游戏的后半段(f151,300f_{151,300})的平均循环频率略高于前半段(f1,150f_{1,150}),这表明循环行为不会随着时间的推移消失。

一项近期的实验工作也观察到在类似RPS的游戏中存在循环行为,尤其是在有超过三个动作的情况下。另一个实验研究报告了在某些完全信息和连续时间的RPS类游戏中,存在持续循环的证据。然而,在离散时间内进行动作更新的情况下,29中未检测到(或仅检测到非常微弱的)群体级循环行为。而在这里和参考文献28中,我们发现即使在离散时间更新动作的情况下,也会出现集体循环运动,并且这种群体级行为不会受到aa值的影响。

经验条件反应模式:假设混合策略NE(即每个玩家在每轮游戏中以相同概率选择三种动作,与其他玩家和之前的支付无关),那么社会状态的转变应遵循详细平衡条件。因此,观察到的持续循环行为无法在NE框架内理解。持续循环也无法通过独立决策模型来解释,后者假设一个玩家在某一时刻的动作选择仅受到其上一时刻动作的影响(见在线补充资料)。使用图2A–2E中经验确定的动作转变概率作为输入,我们发现独立决策模型预测的循环频率为:0.00500.0050(a=1.1a = 1.1),−0.0005-0.0005(a=2a = 2),−0.0024-0.0024(a=4a = 4),−0.0075-0.0075(a=9a = 9)和−0.0081-0.0081(a=100a = 100),这些值都接近零,并且显著不同于经验值。

不同玩家的动作选择必定是相互影响的。图3F–3J中的经验数据证实了这种相互影响的存在。我们将玩家在某一游戏轮次的表现(输出)表示为 O∈{W(胜利),T(平局),L(失败)}O \in {W \text{(胜利)}, T \text{(平局)}, L \text{(失败)}}。在条件输出 OO 下,该玩家在下一轮游戏中做出顺时针、逆时针或保持相同动作的概率分别记为 O2O_2、O1O_1 和 O0O_0(其中 1+O2−O11 + O_2 - O_1)。最有趣的是,从图3F–3J中可以看出,如果玩家在某一轮中战胜对手,她在下一轮中重复相同动作的概率(W0W_0)明显高于选择其他动作的概率(W2W_2 和 W1W_1)。此外,当支付参数 a≥2a \geq 2 时,如果玩家在某一轮中输给了对手,她更有可能选择顺时针转变动作(概率为 L2L_2),而不是选择逆时针转变或保持相同动作。