标题是陶哲轩于 2012 年发表的一篇论文题目,表达了从多样性、复杂性中产生统一、普遍性的意念。这可以涉及到社会、科学、文化或其他领域,强调在多样性和复杂性中寻找普遍性原则或价值观。
探究宇宙中的秩序和混沌一直是科学研究的核心命题。陶哲轩教授的这篇洞察性文章引领我们进入普适的世界——一个展现了如何从错综复杂的微观动态系统中抽象出简明的宏观规律的奇妙领域。从统计学的经典规律到物理学中的相变现象,从自然数序列的神秘规律到量子力学的精确预测,普适性作为一种被广泛记录和验证的模式在各种不同尺度和领域中展现了其惊人的一致性。然而,尽管这些规律已被实证学科反复确认,但对于普适性的严格数学基础仍存在着诸多未知之谜。
– 译文
感觉这就是我一直想要追求的科研道路,但如何从细节入手,进入这一方世界,当前的我还一无所知。
自然是一朵变幻莫测的云,永远如一,又从不相同。 —— Ralph Waldo Emerson,《历史》(1841年)
译文一些摘要:
- 在一个包含许多相互作用组件的系统上无法执行切实可行的计算,这一现象被称为“维数诅咒”。尽管存在这个诅咒,但是当组件数量足够大时,通常会出现一个令人惊奇的现象:复杂系统的聚合属性(注:就是统计量,例如均值)可以不可思议地再次变得可预测,并由简单的自然法则支配。
- 更令人惊讶的是,整个系统的宏观规律常常在很大程度上与控制系统内部单个组件的微观规律无关。换句话说,人们可以用完全不同类型的对象替换微观组件,并在宏观层面上获得相同的控制规律。这意味着,无论系统的微观组成如何,只要系统的组件数量足够多,宏观规律就会出现,并且这些规律可以独立于微观组件的特性而存在。我们就说宏观规律是普适的。
- 大数定律(Law of large numbers):在数学与统计学中,大数定律又称为大数法则、大数律,是描述相当多次数重复实验后的结果的定律。根据这个定律,随着样本数量的增加,其算术平均值越来越有高的几率接近期望值。大数定律非常重要,因为它“说明”了一些随机事件均值的长期稳定性。人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋向于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具备稳定性。比如,我们向上抛掷一枚硬币,硬币落下后哪一面朝上是偶然的,但当我们抛硬币的次数足够多后,达到上万次甚至几十万、几百万次之后,我们会发现硬币每一面向上的次数约占总次数的二分之一,亦即偶然中包含着必然。大数定律是数学和自然界中最简单、最容易理解的普适性规律之一,但它绝不是唯一的一个。
- 另一个最基本的普适性规律的例子是中心极限定理(Central Limit Theorem)。粗略地说,这个定理断言,如果一个统计量是由许多独立且随机波动的组成部分组合而成,且没有一个组成部分对整体有决定性影响,那么这个统计量将近似地按照一种称为正态分布(或高斯分布)的规律分布,或者更通俗地称为钟形曲线。这个规律是普遍的,因为无论个别成分如何波动,或者成分有多少个,它都成立(尽管成分数量越多,规律的准确度越高)。
- 中心极限定理存在着一些扩展,它们是针对某些略有不同的统计数据类型的普适性规律。本福德定律(Benford’s Law)就是一个例子,它是关于大量级统计数据的前几位数字的一个普适性规律,如一个国家的人口数量或账户的金额大小;这个法则给出了一些反直觉的预测,比如,在自然界中出现的任何给定统计数据都更可能以数字1开头,而不是数字9开头——实际上以1开头的概率是以9开头的六倍多。
- 类似地,Zipf 定律是描述特定类别中最大统计量的普适性规律,例如世界上人口最多的国家或英文中使用频率最高的单词。它指出,统计数据的大小通常与其排名成反比;因此,例如,第十大的数据大约是第五大数据的一半大小。这个法则对于最顶端的两三个数据可能不太精确,但在之后的数据中准确性提高。与数学上较容易理解的中心极限定理和本福德定律不同,Zipf 定律是基于经验的。它是通过实践观察而确定的,但数学家们尚未给出一个完全满意和有说服力的解释,来说明这个定律怎样产生以及为什么具有普适性。
- 在20世纪50年代,著名物理学家和诺贝尔奖得主尤金·维格纳(Eugene Wigner)研究了这些共振统计数据,并提出了一个非凡的数学模型来解释它们,就是我们现在所称的随机矩阵模型(random matrix model)。这些模型精确的数学细节太过技术性,在此不便描述。但总的来说,可以将这样的模型看作是一个大量质量的集合,所有质量都通过各种随机选择的、不同强度的弹簧连接在一起。这样一个机械系统将在一定的频率下振荡(或共振);维格纳假设认为,大型原子核的共振应该类似于随机矩阵模型的共振。特别地,它们应呈现相同的排斥效应。因为可以严格证明随机矩阵模型的频率排斥,所以可以对核共振实验观察到的相同现象提供启发式的解释。高斯酉集(Gaussian Unitary Ensemble,GUE)假设
- 然而,普适性定律确实存在一定的局限。以中心极限定理为例,它预测了任何由众多小的、独立因素组合而成的数量都将趋向钟形曲线分布。但如果不满足该定理所需的前提假设,这个定律就可能不适用。比如说,所有成年人(男性和女性)的身高分布并不符合标准的钟形曲线,因为性别这一单一因素对身高的影响巨大,无法被其他所有环境和遗传因素平衡掉。
- 中心极限定理还有一个重要的失效场景,那就是构成某个量的独立因素并非真正独立,而是存在相关性,导致它们倾向于同涨同跌。在这样的情况下,可能形成“胖尾”现象(俗称“黑天鹅”),其数值会比中心极限定理所预测的平均值波动范围大得多。这一现象在金融模型中特别重要,在处理复杂金融工具时尤其明显,比如通过汇集抵押贷款所形成的抵押债务担保证券(CDOs)。只有在假设各个抵押贷款相互独立时,中心极限定理才能用来评估这些工具的风险;但在近期金融危机中(典型的“黑天鹅”事件),这种独立性假设戏剧性地崩溃了,导致许多持有这些证券的投资者和它们的保险公司遭受巨大财务损失。数学模型的强大仅取决于其背后的假设是否坚实。
- 普适性规律瓦解的第三种情形是系统没有足够的自由度来使得这些定律生效。举例来说,宇宙学家可以依据流体力学的普适性规律来描述整个星系的运动模式,然而,在仅受到三个天体引力影响的环境下,单个卫星的运动可能要复杂得多——这实际上就是所谓的火箭科学。
- 流体力学的普适性规律还会在介观尺度上失效:这个尺度比单分子的微观尺度要大,但又小于宏观尺度,后者是普适性规律适用的范围。一个典型的介观流体例子是流经血管的血液;构成这种液体的血细胞非常大,以至于它们不能简单地被视作微观分子的集合体,而应该被认为是具有复杂行为的介观实体。其他一些具有有趣介观特性的材料包括胶体流体(比如泥浆)、某些类型的纳米材料和量子点等;为这类材料建立准确的数学模型仍然是一个持续存在的挑战。
- 古德哈特定律(Goodhart’s law)表明,当一个度量指标成为目标时,它就不再是一个好的度量指标。