1、12002 语言学高级论坛,吉林大学,长春,2002. 7.用卡方计算分析隋代押韵材料麦 耘1 2 (卡方)计算用于押韵研究1.1 麦耘 (1999) 运用朱晓农 (1989) 的数学方法,分析了隋代的押韵材料。其中,当“韵离合指数”小于 50 时,判为两韵分立,大于 90 时,判为两韵相混,而处于 50 到 90 之间时,就用 T 分布假设检验来作进一步的计算。该文提到:本文所用的具体方法不能说是尽善尽美的。例如 说,在做 T 分布假设检验前的数据分组,分法不同,有可能影响最后的结果 (这实际上是个统计学上的“抽样问题”)。又,除 T 检验外,概率 统计的假设检验方法还有多种,在古代韵文 统
2、计上是否能发挥 更佳的作用, 值得研究。现代统计学在不断发展,我们盼望数理统计在音韵学中的运用也能随之 发 展。1.2 承郑林啸小姐提示:白一平 (1985) 曾用 2(卡方)分布假设检验来分析上古幽部内两个韵母之间的关系。现在以冯蒸的中译本为根据,介绍一下白氏的方法 1。首先是统计单位。白氏不用一般的“韵段”的概念,而创造了“韵对”(rhyme pairs) 的概念: 相邻的两个韵脚之间构成一个韵对。这跟朱晓农的“韵次”是完全一样的。据朱晓农 (1989:16) 说,韵次的概念是潘悟云在上世纪 80 年代初想到的。不同地区的学者几乎同时而又各自独立地创造了相同的学术概念,这也可算是学术史上的
3、一段佳话吧。其次是计算公式。 2 计算是一种假设检验计算。关于假设检验的大原理,请参看麦耘 (1999)。 2计算公式(皮尔逊公式)如下 2:O 是观察频数 (白氏文中称“实际频率”)。E 是理论频数 (白文称“预想频率”),这是假设两个韵母没有区别时,它们各自自押和通押在理论上最有可能的频数。在研究 a、b 两韵的押韵关系时,首先点算出 a 韵的自押数 Oaa,b 韵的自押数 Obb,以及两韵的通押数 Oab。例如在白文中,幽部*-u 韵母字自押 201 韵对,*-iw 韵母字自押 12 韵对,两韵母字通押15 韵对。根据下列公式计算出 a 韵自押、b 韵自押及两韵通押的理论频数:Eaa =
4、 (Oaa+Obb+Oab)(2Oaa+Oab)2 (Oaa+Obb+Oab)2Ebb = (Oaa+Obb+Oab)(2Obb+Oab)2 (Oaa+Obb+Oab)2Eab = (Oaa+Obb+Oab)2 (2Oaa+Oab)2 (Oaa+Obb+Oab)(2Obb+Oab)2 (Oaa+Obb+Oab)取白文的数据,可算得 190.67、1.67、35.66。代入皮尔逊公式中,可得 2 = 76.544。 3现在来定检验水平(显著性水平) 。本文定 = 0.025,即 2.5%,就是说,据此作出的判断有97.5%的可信度。事实上, 可以定得大些,也可以定得小些。如果定得大些,对两韵分立
5、的标准就放松些,对两韵相混的标准就抓严些;相反,如果定得小些,对两韵分立的标准就抓严些,对两韵相混的标准就放松些。这道理跟做 T 分布检验时定 值是一样的。然后查 2 分布临界值表。这种表有一系列不同的自由度数值。在这里的问题中,有 a 韵自押、b韵自押及两韵通押 3 组数据,即 k =3,所以自由度总是 3-1=2。由临界值表中查得 20.025 (2)(检验水平为 0.025、自由度为 2 的 2 分布临界值 )为 7.378。本文将基本上使用这个临界值,拿它同计算所得的 2 值作比较,从而作出判断:当 2 7.378 时,两韵分立;当 2 7.378 时,两韵相混 4。上面算出的 76.
6、544 比 7.378 大得多,所以幽部中的两个韵母分立,不能自由互叶。事实上,如白文所说,即使定 = 0.001,临界值也只是 13.82,仍比 76.544 小许多,就是说,两韵分立的可能性超2过 99.9%。1.3 为了使同行们更方便地运用这一统计方法,笔者请电脑技术工作者根据上述公式编成应用软件,可与根据朱晓农公式编成的软件一同使用。本文即使用这个软件,用 2 分布检验法对麦耘 (1999) 的部分研究结果再做一番分析。2 对隋代押韵材料的 2计算和分析2.1 本文基本上只对麦耘 (1999) 中有韵离合指数在 35 到 90 之间的统计表进行处理。共有 14 个表,每表梯形线左下方为
7、观察频数,梯形线右上方为 2 值 (通押为 0 的不列 2 值;灰色背景表示原做了 T 检验者,加星号表示原离合指数超过 90 或经 T 检验显示混合者,反黑表示原离合指数在 50 到90 之间,又因原始数据太小而没做 T 检验,故不能判断是分是合者):表 1 表 2肴 宵 萧 模 虞肴 5 21.870 10.125 模 80 22.079宵 9 83 *1.841 虞 87 81萧 2 45 11表 3 表 4霁 祭 脂 之霁 28 *4.041 脂 63 41.242祭 35 26 之 121 243表 5 表 6侯 尤 删 山 仙侯 24 *8.124 删 12 0.617 106.1
8、66尤 115 304 山 4 1 8.298仙 2 5 113表 7 表 8魂 痕 元 文 欣 真 没 月 物 术魂 45 *0.003 10.788 106.989 214.926 没 10 3.349 7.359痕 13 1 3.120 49.104 月 16 20 13.836元 43 4 35 203.915 物 1 1 2 0.871文 15 1 0 110 0.036 263.283 术 0 0 1 1欣 0 0 0 4 0 0.013真 1 0 1 7 3 175表 9 表 10唐 阳 江 铎 药 觉唐 34 *0.041 *0.007 铎 31 *0.127 16.467阳
9、247 469 0.001 药 22 3 3.124江 1 1 0 觉 6 3 7表 11 表 12庚 耕 清 青 陌 昔 锡庚 117 52.216 8.185 32.163 陌 9 *3.054 1.920耕 1 1 31.276 6.216 昔 21 33 *0.005清 238 3 199 *16.895 锡 2 11 1青 40 2 78 26表 13 表 143屋一 屋三 屋 沃 烛屋一 12 *0.711 屋 84 0.003 107.202屋三 35 38 沃 1 0 0.006烛 7 1 452.2 下面作一些简单的分析讨论。表 1:宵、萧之间的 2 值是 1.841,小于
10、7.378,两韵相混。肴与宵、萧的 2 值都大于 7.378,所以肴是独立的。这两点都跟用朱氏算法的结果一致。表 2:模、虞之间的 2 值是 22.079,大于 7.378,两韵分立,跟用朱氏算法的结果也一致。表 3:霁、祭相混,跟用朱氏算法的结果相同。表 4:脂、之分立,也支持用朱氏算法得出的结果。其 2 值还相当大。表 5:侯、尤分立,这跟用朱氏算法的结果就不同。不过其 2 值 8.124 比临界值 7.378 大得有限。如将 定为 0.01,临界值为 9.210,则可认为相混。不过侯为一等韵,尤为三等韵,即使韵腹有异,也是互补的,可视为同一音位的不同变体。表 6:仙不同于删、山,这一点跟
11、用朱氏算法的结果一样。删、山之间仅看 2 值,像是相混了。不过仙跟删关系相当密,跟山关系极疏,这从侧面可看出删、山有别。山韵的数据过小,会影响 2 值不可靠。表 7:元不同于魂,跟用朱氏算法的结果吻合。但痕既混于魂、又混于元,就矛盾了。下面把魂、痕合在一起来算,结果元能独立:表 15魂痕 元魂痕 59 13.853元 47 35照统计结果看,欣与文、与真都相混,但文、真之间离得很远。其实跟欣有关的统计结果不能相信,因为这一韵字实在太少。表 8:物与没、与术的相混是假象,原因也是物、术字少。让人困惑的是没、月相混,这跟用朱氏算法的结果相反,又与阴声韵魂、元关系不相侔,且难以从语音史角度作解释。此
12、暂存疑。表 9:唐、阳相混不必说。江韵字更少,那结果没看头。表 10:铎、药相混顺理成章。但觉、药相混,跟用朱氏算法的结果不同。这是药韵字自押数量偏少引起的。要是对铎、药相混很有信心,可以把它们的数据合并起来计算,结果显示觉是独立的:表 16铎药 觉铎药 56 20.555觉 9 7表 11:庚与清不混,这跟用朱氏算法的结果相同,不过在这里分得有点勉强,如改取 = 0.01,就可以看作相混了。或许可以认为表现了从分到混的过渡特点。用朱氏算法,清、青勉强算相混,改一改 值,就可以算分立。这里的清、青则是很明显地分立。韵书里青韵独用,非无以也。表 12:陌、昔、锡大合流,情况跟用朱氏算法得出的结果
13、差不多。不过用朱氏算法,陌与昔混得有点勉强,陌与锡关系也疏,而这里是很肯定地显示出是混合了。只是这结果与阴声韵不相应。固然可以说陌、锡字少是个可能的因素,但换个角度想,或许也可以说入声韵发展较快吧。表 13:屋之一、三等韵同韵基,没问题。表 14:沃韵字之少,使与之有关的统计值都失去意义了。3 方法上的几点讨论3.1 2 检验只用于对韵(指韵基)的离合的计算,而不用于辙的离合计算,这一点很明确。3.2 笔者在多次运用朱氏算法中的 T 检验之后,发现有个很严重的问题:有时数据分组情况的小小变动,也对统计量影响很大,甚至得出的结果可以完全相反。此外,分组工作很繁琐。在没有电4脑软件的情况下,同复杂
14、的计算相比,分组不算什么事,但当大量的计算也只需要一按键就能完成时,分组就显得太麻烦,且易出错。相比之下, 2 检验减少了对原始数据的人工干预,对统计结果不失真有好处,同时也省了事。3.3 原始数据小的时候,结果就不甚可靠,一切统计方法都是如此。不过这里用到的方法似乎在这点上特别敏感。这也好理解:观察频数的总和跟理论频数的总和是相同的 5,只要一个观察频数朝一个方向、以某一幅度偏离理论频数,就一定会有另一或两个观察频数朝另一个方向、以同样的幅度偏离理论频数 6, 2 值会把不同的偏离加起来表现。因此当原始数据不大时,观察频数对理论频数的些微偏离都会引起 2 值的较大波动。3.4 拿表 15、表
15、 16 与表 7、表 10 比较,好像有点奇怪:把魂、痕的数据合并,算出跟元的 2值比分别计算的都大,铎、药跟觉也一样。照常识,合起来算出来的不该是分开算的加权平均值吗?原来,合并计算时是算上了魂与痕相押的 13 韵对、铎与药相押的 22 韵对,而分别算的时候,这些数据是不在考虑范围之内的。也就是说,白氏算法在分析两韵之间的关系时,把这两韵与其他韵的关系撇在一边。这使白氏算法更容易亮起“两韵相混”的绿灯,即使两韵关系其实并不是真的那么密切。而朱氏算法的“韵离合指数”计算把这些关系也加以考虑,就比较合理 7。所以在运用白氏算法时要注意两条:第一,要在朱氏韵离合指数计算的基础上用白氏算法。就是说,
16、只有当韵离合指数在 50 到 90 之间时才作 2 检验。换言之,可以用 2 检验代替 T 检验,但不能用来代替韵离合指数计算 8。第二,有时可以用数据合并的办法重新算一次,如同本文表 15、表 16 那样 9。即使这样,这仍然应看作是个缺陷。如何改进计算方法,是个需要研究的问题。3.5 以“韵次/韵对”为统计单位是个大进步,这是数理统计能够运用于押韵材料的基础。不过,只计算相邻韵脚的押韵关系,而把非相邻的韵脚之间的关系完全排除在研究视野之外,是否最合适?有没有更好的办法?希望有同仁对此作深入研究。1白文的中译本里有关卡方计算的说明中有两处错误需要纠正:一,第 700 页第 16 行“ .91
17、45%”中的百分号应删去;二,第 701 页第 2 行 “除以 228”应为“乘以 228”。因笔者未见原文,不知是翻译的问题还是原文就有误。2白文中的 fo 和 fe,本文用 O 和 E 表示。3此处得数与白文略有差异,是白文的计算有小误差,但 对 最后判断没有影响。4与朱晓农的算法一样,所谓相混是指韵基 (韵腹+韵尾) 相同,与介音无涉。5如白文的例子中,201+15+12=228,同样地, 190.67+1.67+35.66=228。6如白文的例子中,12-35.66= -23.66,另一方面,(201-190.67)+(15-1.67)=23.66,通押的观察频数比理论频数少了多少,自
18、押的观察频 数就相应地比理论频数增加多少。7但 T 检验也是不考虑其他韵的。8韵离合指数很大(譬如超过 120)时, 2值有时也会很大。这时不能根据 2值判断两韵分立,而 应以韵离合指数为准。9为什么把魂与痕、铎与药的数据合并 处理,而不是魂与元、铎与觉的?事实上,如果依后一种做法,会显示魂痕元三韵相混、铎药觉 三韵相混。笔者 认为考虑 合并 处理时应遵循两个原则:第一,取韵离合指数表明已经相混的合并(如符合此条件的不止一对韵,则取韵离合指数大的合并);第二,取语音史上更易于说明理由的合并。在本文的例子中,两者是重合的。引 用 文 献白一平(William H. Baxter III 1985) 汉语上古音的*-u 和*-iw 在诗经中的反映中译本,载冯蒸汉语音韵学论文集,首都师范大学出版社 1997,北京麦 耘(1999) 隋代韵文材料的数理分析,载语言研究总第 37 期,武汉朱晓农(1989) 北宋中原韵辙考,语文出版社,北京