为什么是十二:和谐背后的数学原理

为什么是十二:和谐背后的数学原理

基本概念和新定义

十二平均律: 将一个八度平均分成十二等份, 每等分称为半音, 音高八度音指的是频率乘上二倍. 八度音的频率分为十二等分, 即是分为十二项的等比数列.
----Wikipedia

440Hz440\text{Hz} 定义为标准音高, 也就是 A4.

由于人的非线性感知, 我们对音程的感知同样是相对的. 也就是说, 人感知的均匀的音程, 其频率应该是等比例变化的, 而不是等差变化的. 因此如果两个音的频率差了一倍, 那么我们就认为这两个音相差一个 “八度”.

形式化地, 我们定义 f(x)f(x) 表示从 A4 升高 xx 个八度的频率. 那么就有 f(x)=440×2xf(x) = 440 \times 2^x. 这里取 xRx \in \text{R}.

音程指的是一个乐音体系中,两个音之间的高低关系。
----Wikipedia

这里所说的高低关系是基于非线性感知的, 所以在频率上的体现就是比值, 所以对于两个音 X, Y, 他们的音程即为 f(Y):f(X)f(\text Y) : f(\text X).

泛音

声音最基本的形式是正弦波, 是最纯净最简单的声音. 但是对于不同的乐器, 即使演奏的音高相同, 人们仍然可以分辨其区别. 这是因为它们拥有不同的音色. 而音色的形成则是由不同频率的正弦波组合而成的, 除了最低频的基音以外, 参与合成的其它正弦波被称为 “泛音”.

泛音的产生是因为乐器发声的部位 (弦, 管内的空气等) 振动时, 除了会整体振动 (波长等于弦长/管长), 还会分段振动. 这是 wikipedia 上给出的简明解释, 但是不够直接, 接下来我将从波的反射和叠加的角度, 推导出泛音的频率:

拿弦乐器为例, 振动会在弦上传播, 当遇到弦的两端时, 会发生反射. 设弦长为 11, 在 00 处施加一个频率为 ff 的振动源, 那么稳定时点 xx 上的振动位移, 我们可以认为是这样的级数:

S(x)=n=0μnsin(2πf(n+(1)nxv))S(x) = \sum_{n = 0}^{\infin} \mu ^n \sin\left (2\pi f(\frac {n + (-1)^nx}{v})\right)

级数的每一项表示经过 nn 次反射到达 xx 的振动. 其中 n+(1)nxn + (-1)^nx 是经过 nn 次反射到达 xx 的路程. 2πf(n+(1)nxv)2\pi f(\frac {n + (-1)^nx}{v}) 是通过这么长路程所需要的时间. μ\mu 表示每一次反射, 波会衰减为原来振幅的多少倍, 这个值非常接近于 11. 我们知道 fλ=vf\lambda = v, 因此当 2λ=kN+\frac 2{\lambda} = k \in \text N^+ 时 (弦长为半波长的整数倍), 就有 f=kv2f = \frac{kv}{2}:

S(x)=n=0μnsin(πk(n+(1)nx))=n=0μn(1)nsin(πk(1)nx)=n=0μnsin(πkx)=sin(πkx)n=0μn=sin(πkx)1μ\begin {aligned} S(x) &= \sum_{n = 0}^{\infin} \mu ^n \sin\Big (\pi k (n + (-1)^nx)\Big )\\ &= \sum_{n = 0}^{\infin} \mu ^n (-1)^n \sin\Big (\pi k (-1)^nx\Big )\\ &= \sum_{n = 0}^{\infin} \mu ^n \sin (\pi k x)\\ &= \sin (\pi k x) \sum_{n = 0}^{\infin} \mu ^n \\ &= \frac{\sin (\pi k x)}{1 - \mu} \\ \end {aligned}

这时候, 在每个点上, 相位都是相同的, 因此互相叠加形成了稳定的振动, 也就是所谓的 “驻波”.

对于不满足弦长为半波长的整数倍的振动, 由于每次反射回到这个点之后相位都会发生改变, 在发生足够多次反射后, 落在这个点的波相位趋于均匀分布, 互相抵消, 从而无法形成有效振幅, 所以没有驻波. 这里的原理类似于傅里叶变换中, 对某个频率求其幅度和相位, 需要和对应频率的正弦波卷积, 而原函数中其它不同频率的部分在卷积中自我抵消了.

因此, 可以稳定存在的波长满足, 2lλ=kN+\frac {2l}{\lambda} = k \in \text N^+, 其频率 f=vλ=vk2lf = \frac v\lambda = \frac {vk}{2l}. 这一系列的波组成了乐器发出的声音, 而最低频率 v2l\frac {v}{2l} 也就是基准频率, 它就是基音, 其余的部分, vk2l,k=2,3,...\frac {vk}{2l}, k = 2, 3, ... 就是泛音.

综上所述, 泛音的频率时基音的整数倍.

何为和谐

两个音 X, Y, 如果 f(Y)=2f(X)f(\text Y) = 2f(\text X), 也就是相差八度. 那么 X, Y 同时演奏时, 我们会认为这个声音是和谐的.

同样地, 实践中人们认为纯五度, f(Y)=32f(X)f(\text Y) = \frac 32f(\text X), 纯四度 f(Y)=43f(X)f(\text Y) = \frac 43f(\text X) 也是和谐的音程.

大部分资料写到这里就默认了这三种音程是和谐的, 但是我们结合泛音的分布可以发现, 它们的共同点就是: 拥有的公共泛音频率多. 如果以 f0=f(X)f_0 = f(\text X) 为基准, λf0=f(Y)\lambda f_0 = f(\text Y), 那么 X 的泛音频率就是 kf0,k=2,3,...kf_0, k = 2, 3, ..., Y 的泛音频率就是 λkf0,k=2,3,...\lambda k f_0, k = 2, 3, .... 当 λ=2\lambda = 2 的时候, Y 的每一个泛音频率都是 X 的泛音; 当 λ=32\lambda = \frac 32 的时候, Y12\frac 12 的泛音频率都是 X 的泛音; 当 λ=43\lambda = \frac 43 的时候, Y 31\frac 31 的泛音频率都是 X 的泛音.

泛音重合度越高, 我们的大脑就越倾向认为这是一个音, 而不是几个音各自响各的, 也就是所谓的 “和谐”.

同样地, 和弦也是如此, 和弦中的音共享的泛音频率越多, 这个和弦给人的感觉也越和谐.

构造乐律

一个合理的乐律 TT, 应当让每个音都能找到和自己组合后听起来和谐的音.

这里我们仅仅考虑这三个和谐音程差 22, 32\frac 32, 43\frac 43.

即对 xT\forall x \in T, 设 f0=f(x)f_0 = f(x), y1,y2,y3T,f(y1)=2f0,f(y2)=32f0,f(y3)=43\exist y_1, y_2, y_3 \in T, f(y_1) = 2 f_0, f(y_2) = \frac 32 f_0, f(y_3) = \frac 43.

代入 f(x)=440×2xf(x) = 440 \times 2^x, 原式可记为 xT\forall x \in T, x+1,x+log232,x+log243Tx + 1, x + \log_2\frac 32, x + \log_2 \frac 43 \in T.

x+1,x1+log23,x+2log23Tx + 1, x - 1 + \log_23, x + 2 - \log_2 3 \in T.
进一步化简得 x+1,x+log23Tx + 1, x + \log_23 \in T.

由于 11log23log_23 不可比, 因此通过 11log23log_23 的线性组合可以逼近所有实数, 也就是说, 理想乐律 TT 是稠密的. 虽然对于某些特殊的乐器来说这是可以实现的 (卡祖笛), 但是大部分的乐器仍然需要离散的乐律.

那么剩下的方式就只有近似, log231.5849625\log_2 3 \approx 1.5849625, 记 {x}\{x\} 表示取 xx 的小数部分, 写出前几个 {nlog23}\{n\log_2 3\}:

nn {nlog23}\{n\log_2 3\}
1 0.5849625
2 0.169925
3 0.7548875
4 0.33985
5 0.9248125
6 0.509775
7 0.0947375
8 0.6797
9 0.2646625
10 0.849625
11 0.4345875
12 0.01955

我们发现, 到了 1212 的位置, 是前 1212 个正整数中, nlog23n\log_2 3 离整数最近的时候了. 曾经人们就将 12log2312 \log_2 3 近似看作是整数, 将较大的 nn 变成 n12n - 12, 即减去对应数量的 log23\log_2 3 代替假发. 推出了 “五度相生律”:

Id nn xix0x_i - x_0 f(xi)f0=2xix0\frac {f(x_i)}{f_0} = 2^{x_i - x_0} xixi1x_i - x_{i - 1}
0 0 0 11 0.0751875
1 -5 0.0751875 256243\frac {256}{243} 0.0751875
2 2 0.169925 98\frac 98 0.0947375
3 -3 0.2451125 3227\frac {32}{27} 0.0751875
4 4 0.33985 8164\frac {81}{64} 0.0947375
5 -1 0.4150375 32\frac 32 0.0751875
6 6 0.509775 729512\frac {729}{512} 0.0947375
7 1 0.5849625 32\frac 32 0.0751875
8 -4 0.66015 12881\frac {128}{81} 0.0751875
9 3 0.7548875 2716\frac {27}{16} 0.0947375
10 -2 0.830075 169\frac {16}9 0.0751875
11 5 0.9248125 243128\frac {243}{128} 0.0947375

但是如此近似带来的问题便是不均匀, 即我们将剩下的 log20.02\log_2 0.02 的倍数忽略掉之后, 虽然绝对误差只有 0.019550.01955 个对数, 但是由于半音的音程本来就小, 所以导致半音的相对误差达到了 26%26\%.

以相似的方式, 如果加以考虑新的音程, 大三度: 54\frac 54. 这样近似生成的乐律便是 “纯律”. 这种乐律的原理也是通过对数 log23\log_2 3, log25\log_2 5 的加减拼凑实现的.

这两种乐律的局限有一个共同点, 那就是为了让一部分音的音程达到完美和谐而造成了另一部分音的不和谐. 在前面已经说明了能让所有音都能找到完美和谐的音的乐律是稠密的, 那么这时候如果希望继续优化乐律, 那么只有接受不完美的现实, 打破对完美和谐的执念.

既然总要有不和谐, 那么我们将这种不和谐平均, 是否可以减弱这种不和谐呢? 因此, 就有了十二平均律.

十二平均律

试想有这样一个乐律 TT, 对于基准音 x0x_0, T={xx=x0+kd,kZ}T = \{x|x = x_0 + kd, k \in Z\}. 也就是说这个乐律中的音的频率的对数是一个等差数列, 即, 这个乐律中的音的频率是一个等比数列. 这样的好处是: 对于寻找和谐音程, 每个音本质相同. 也就是说只要一个音能找到距离某个音程的音, 那么所有音都能找到这个对应音程的音.

这时候的问题就转化为: 如何选择合适的公差 dd, 使得 dd 的整数倍能够尽可能近似和谐的音程差.

首先, 一定不能忽视的就是八度, 所以 kd=1kd = 1, 即 d=1kd = \frac 1k. 接下来, 选择合适的 kk, 尽可能使得 aklog2(32)\frac ak \approx \log_2 (\frac 32), bklog2(43)\frac bk \approx \log_2 (\frac 43), bklog2(43)\frac bk \approx \log_2 (\frac 43), cklog2(54)\frac ck \approx \log_2 (\frac 54).

最后人们综合 kk 的大小和拟合精度, 选择了 1212 作为这个分母. 使得这三种近似音程的对数的相对误差分别达到了 0.2785%0.2785\%, 0.392535%0.392535\%, 3.54279%3.54279\%. 这样的误差在音乐中, 人耳已经很难分辨, 因此现在绝大多数的音乐都是用这种乐律谱成的.

等比的频率, 使得乐器的制造变得更加简单, 也催生了更多创作的可能. 所以说十二平均律极大地推动了人类音乐艺术的发展.

数字的巧合: 自然的施舍

综上, 十二平均律的 1212, 取决于 log231912\log_2 3 \approx \frac {19}{12}.

[0,1][0, 1] 上, 从所有分母不超过 1212 的有理数周围 0.020.02 半径的区域染色, 区间里的随机数 xx 落在染色区域内的概率由计算机模拟测试的频率逼近:

次数 频率
1000 90.200000%
10000 90.590000%
100000 90.103000%
1000000 90.232900%

虽然 90%90\% 看似很大, 但是这里面的巧合不仅仅是这样, 还巧合在通过线性组合 11, log23\log_2 3, 可以组合出 22, 32\frac 32, 43\frac 43 三个被认为最和谐的音程的对数. 而且在相同的分母 1212 下, 对 log2(54)\log_2 (\frac 54) 的近似也能达到不低的水准.

设想如果 {log23}\{\log_2 3\} 没有落在染色区域, 也就是说它不能被 1212 个半音以内的平均分配乐律近似, 那么我们世界的乐器将会变得十分难以制作, 演奏难度也会急剧上升, 我们就没有机会聆听到像现在的世界一样的, 如此繁盛的丰富的旋律了. 因此数字的巧合也是自然的施舍, 正是因为这优美的近似, 我们才能够像我们正在做的一样享受音乐.