1、王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 中国回族的起源与演 化 全世界 约 有 15.7 亿 穆斯 林 人口 , 约 占 2007 年 世界 人 口的 23 , 主 要分 布在 北 非, 中东 , 西亚 , 中 亚, 南亚 和东 南 亚等地 区 。 穆 斯林 在中 国 境内被 称为 回族 或回 回 。 中国回 族有 大约 980 万人 口, 在全 国呈 现散 居分布 的状 态 , 除 了宁 夏回 族自治 区外 , 还有 2 两个 回 族自治 州, 14 个自 治县 ,以 及在 28 个省市 中分 布 有 139 个 回 族自治 乡。 中国回 族的 先民 最早 可以 追溯到
2、 唐宋 时期 , 有不 少 信仰伊 斯兰 教的 阿拉 伯人 、 波 斯人 陆 续来到 中国 , 他们 中有 一 些人居 住下 来 , 成 为后 来 回族的 一部 分祖 先 。 不 过 , 回 族真 正开 始 其 多 民族 、多 人 种的 融合之 路 是在 元代 。 林干1 在 试 论回 回民 族 的来 源与形 成 一 文中 提出回 回民 族主 要源 于元 代由波 斯、 阿拉 伯及 突厥 各 民族分 布地 区等 地迁 居到 中国来 的移 民 。 杨怀中2 也 认为 蒙 元时 代大 批 中亚 穆斯 林 入居 中国, 为 回族 最终 形 成一 个民族 共 同体 奠定 了 人 口数 量基 础 。杨 志
3、玖3 的研 究 提供 了元 代大 量中 亚 突厥 民族 加 入回 回人群 体 的资 料。 而 邱 树森4 更进 一 步认 为, 元 代加 入回 回 人行 列的还 应 包括 康里 人 、钦 察人, 西 辽地 面的 其他突 厥人 以及 部分 非穆 斯林人 群之 溶入 回回 者 , 如阿速 人 、 朮 忽回 回、 罗 哩回回 等 。 杨 建 新5 认 为, 先后 注 入回 回人 群 的核 心成 份 ,唐 宋以来 主 要是 波斯 人 、大 食人, 元 代主 要是 波斯和 中亚 人 , 明 代则 主 要是中 亚以 及吐 鲁番 和哈 密一带 的人 。 此外 , 汉族 、 藏 族 、 蒙 古族 等民族成 分
4、融入回 族的情 况也受到 学者的关 注,尤 其是汉族 成分的加 入是十 分重要的 力量 。 总的说 来 , 学 者们 普遍 认 为回族 的族 源成 份相 当复 杂, 是由 外来 成分 、 边 疆 内附成 分和 其他 民族吸 纳成 分长 期融 合的 结果4, 6-8 。 作为中 国 分 散居 住程 度最 高的少 数民 族, 回族 素以 “ 大分散 , 小集中 ” 的分 布形 态闻名 。 唐宋时 期 , 来 华朝 贡 、 贸 易 的海外 穆斯 林主 要集 中居 住在当 时东 南沿 海地 区的 各口岸 城市 和 帝国的 都城 中 。 从 元代 开 始, 大批 东来 的穆 斯林 在 元帝国 境内 出现
5、 , 他们 或 为官为 民 、 或 军 事驻扎,遍布各地。 穆德 全9-11 提 出元代回回人 分 布的路线是以蒙古的 军事 征进路线为坐 标的,而 在元统一 之后, “ 屯田是分 布的一个 重要因 素,还有 经商、传 教、服 官等原因 而 在 各地安家 落户,到 了明代 ,又有了 新的发展 。那是 在元代分 布的基础 上而壮 大起来的” 。 因 此, 今天 回族 在全 国的 分 布状态 , 并非 全 部 是现 代 社会发 展的 产物 , 他们 的 定居格 局具 有悠 久的历 史传 统 。 回 族主 要聚 居在以 宁夏 、 甘肃 为代 表的 西北地 区和 以云 南为 代表 的西南 地区 。 在
6、东部 地区 呈现 更为 分散 的居住 形态 , 其中 北方 的 京津地 区 、 河 北、 河南 、 山 东都是 回族 人 口较多 的省 份和 城市 , 尤 其河南 省是 东部 地区 回族 聚集第 一大 省 , 其 回族 人 口的数 量仅 次于 宁夏和 甘肃 ; 而在 南方 , 回族整 体的 聚居 人口 较少 , 也 更为 分散 , 江苏 的南 京、 福建 的泉 州 等地都 是回 族相 对集 中的 居住地 。 对回族 族群 的遗 传学 研究 , 起 源于 体质 人类 学的 有 关分析 。 人群 的外 形体 征 有很大 成分 的遗传 因素 , 故而 能够 一 定程度 上体 现群 体的 遗传 特征
7、。 从 20 世 纪下 叶开 始, 各地 的回 族 都 有 不同 详细 程度 的体 质研 究 。1996 年 ,戴 玉 景等12 研究 了 甘肃 临夏 的回族 , 发现 这个 群体的 体质 特征 接近 新疆 的哈萨 克 、 柯 尔克 孜等 少 数民族 , 具有 伊斯 兰民 族 的独有 特征 , 同 时 明 显显 示出 东亚 人种 的体 质 特点 。1997 年 , 郑连斌 等13 研 究了 宁夏 回族的 体 质特 征, 发现宁 夏回 族具 有蒙 古人 种的一 般特 征 , 也 具有 本 民族的 特点 。 2001 年 , 任 甫等14 研 究了 甘 肃 的回 族, 发现 其体 质特 征 与中
8、国北 方少 数民 族聚 类 。2003 年 ,任 家 武等15 研究 了 湖 南回族 的体 质特 征 , 发 现 其与湖 南其 他 民 族有 相似 之处 , 具 有东 亚民 族的 特 征。 这些 研究 都 指出各地 回族都有 明显的 蒙古人种 特征,也 有自己 的民族特 点,比较 接近西 北的少数 民族 。 但是体 质特 征是 由遗 传和 环境共 同作 用形 成的 ,并 不能完 全代 表回 族的 遗传 特点。 相比一 般的 体质 形态 特征 ,肤纹 的遗 传率 更高 ,不 受环境 影响 ,能 够更 好地 代表群 体的遗 传特 征。 张海 国等16 分析 了中 国所 有的 少数 民族的 肤纹 特
9、征 , 发 现各 地的回 族都 与 南北方 的各 个民 族群 体错 落聚类 在一 起 , 而 并不 在 回族内 部聚 为一 群 , 也 不 仅限于 靠近 北方 民族。 这就 提示 了回 族的 遗传结 构中 受到 周边 民族 的影响 是十 分显 著的 。 最有代 表性 的是 对 DNA 结 构的直 接研 究。 回族 的 DNA 研究 虽然 常常 见诸 报道 ,但 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 都是针 对零 星位 点或 者局 限地区 的研 究。 各项 研究 普遍指 出, 回族 虽然 带有 部分西 方人 群的遗 传特 征, 而族 群总 体的遗 传结 构却 最接 近当
10、地的汉 族。 例如 谢小 冬等17 分析 了甘肃 临夏 的回 族群 体的 少数法 医学 常用 的常 染色 体 STR 位点 ,发 现甘 肃回 族与甘 肃汉 族最为 接近 , 但也 带有 高 加索类 型的 等位 基因 。 对 新疆回 族的 线粒 体研 究显 示, 新疆 回族 的 线粒体单倍 群有 93.3% 属 于东部欧亚 特征单倍 群, 这如果不是 近期的汉 族基 因流动的结 果, 很有可 能是 历史 上与 汉族 通婚中 , 汉 族母 系的 贡献18 。 这 说明 这一 回族 群体 的遗传 结构 总 体倾向 于当 地汉 族。 在其他 一些 非穆 斯林 发源 地的国 家 , 与 中国 回族 一
11、样存在 着穆 斯林 族群 起源 的问题 。 特 别是印 度的 穆斯 林人 群遗 传学研 究 , 对 中国 回族 研 究有很 大的 借鉴 意义 。 在 印度 , 伊 斯兰 教 是仅次 于印 度教 的第 二大 教派。2007 年,Terreros 等19 发表 了印 度穆 斯林 人 群的线 粒体 多 样性研 究结 果。 研究 分析 了印度 北部 的什 叶派 和逊 尼派穆 斯林 的线 粒 体 DNA 的高变 区序 列 信息 , 并 与来 自中 东、 中 亚、 东北 部非 洲和 其他 印 度群体 比较 , 发现 印度 的 什叶派 和逊 尼 派 与印度 的群 体 , 而 不是 其 他地方 的什 叶派 和
12、逊 尼派 更接近 。 西亚 线粒 体单 倍 群在印 度两 大穆 斯林教 派中 的缺 失暗 示了 这两大 教派 在母 系上 有可 能是印 度起 源。 常染 色体 研 究也得 出相 似 的结果 。 Eaaswarkhanth 等20 通过 常染 色体 的 13 个 STR 研究 得出 结论 , 认 为 印度的 穆斯 林 大部分 是本 土人 群的 文化 同化伴 随着 少量 来自 西亚 的基因 流动 。 Y 染色 体的 研 究结果 则复 杂 而详细 得多21 。 北 部印 度 的 Y 染色 体有 三个 类型 : 第一类 是中 亚 、 西 亚和 南 亚人群 普遍 存 在的 R1 和 R2 ; 第二 类是
13、 中东起 源 的 J2* , 什 叶派 特 有的 E1b1b1 , 还有 一些 G* 和 L* ; 第 三 类是本 土 的 H1*, F*, C* 和 O* 。E1b1b1 是仅 仅在 什叶派 中发 现, 暗示 印度 两个穆 斯林 教 派 的来源 不同 。 最新 的一 项 线粒体 与 Y 染 色体 的全 面 研究22 更 明确 的指 出, 伊 斯兰教 在印 度 的传播 主要 是文 化传 递 , 只有少 量基 因流 动 。 印 度 大多数 穆斯 林人 口的 遗传 基因是 从非 穆斯 林人口 中获 取 , 但 也有 少 量的来 自伊 朗和 中亚 的而 非直接 来自 阿拉 伯半 岛的 基因流 动 ,
14、 还 有 极少部 分来 自撒 哈拉 以南 非洲 、 阿 拉伯 和西 亚的 混 合。 中国 的回 族人 群应 该 与印度 穆斯 林有 相似的 形成 模式 ,但 是具 体结构 特征 则需 要全 面的 分析。 黎巴嫩 的一 项研 究更 全面 地揭示 了宗 教传 播与 人群 遗传结 构之 间的 关系23 。 黎巴嫩 是 个有 400 万 人口的 地中海 东部国家 ,它的 人口 有着 穆斯林、 基督教 徒和 德鲁 兹教徒等 。通 过分析 黎巴 嫩人 Y 染 色体 SNP 和 STR 位点 发现 黎巴 嫩的父 系遗 传结 构与 宗教 的关联 比与 地 理位置 的关 系更 加紧 密 。 Y 单倍 群 J*x
15、J2 在阿 拉伯 半 岛的频 率比 黎巴 嫩的 高 , 而其在 黎巴 嫩 的穆斯 林中 的频 率也 比非 穆斯林 的高 。相 反, 单倍 群 R1b 在西 欧的 频率也 比 黎巴嫩 的高 , 而同 时 R1b 在黎巴 嫩基 督 徒中的 频率 比非 基督 徒的 高。 黎巴 嫩 R1b 的 STR 单 倍型与 西欧 的 单倍型 有着 明显 的 不 同, 并 且在黎 巴嫩 的基 督徒 中如 果不经 过混 血要 到达 到现 在的频 率似 乎 不可能。 因此该 研究认 为 开始于公 元 7 世纪 阿拉伯 半岛的伊 斯兰教 扩张将 这 一地区的 特征 谱系传 入了 那些 后来 的黎 巴嫩穆 斯林 中 ,
16、而 11-13 世 纪的十 字军 东侵 又将 西欧 的谱系 带入 了 黎巴嫩 的基 督徒 中。 各个 人群与 当地 群体 的基 因交 流是显 著的 。 综上所 述 , 过 去的 零星 遗 传学研 究都 指出 , 中国 各 地回族 的遗 传结 构更 接近 于汉族 群体 和其他 中国 少数 民族 , 而 不是西 亚和 中亚 的民 族 。 这与历 史学 的有 关研 究并 不完全 一致 。 所 以更可 靠更 全面 的回 族遗 传结构 研究 以及 与 东 亚本 土各 群 体比 较和 基因 交流 分析, 对于 从 遗 传层面 更准 确地 理解 回族 族源问 题是 极有 必要 的。 王传超 复旦大学博士学位
17、论文 2015 年 东亚人群遗传历史 占城流亡 的回辉 人 遗传世系 被海南 本 土成分替 换 回辉人 人口 相对 较少 , 主 要生活 在中 国大 陆南 部的 海南岛 最南 端 。 虽 然他 们 有独特 的语 言, 但并 不被 认为 是一 个 单独的 民族 , 而是 划入 回 族。 虽然 民族 识别 没有 问 题, 但是 他们 的 起源并 不明 确 。 回 辉人 的 民间故 事认 为他 们的 祖先 一直是 穆斯 林 , 起 源于 中 亚, 一如 中国 其 他回族 。但 回辉 人 同 时也 被认为 是占 城王 国(7 世 纪至 18 世纪 )为 躲避 越 南入侵 而流 亡的 占城人 后裔24
18、。 根据 口 述历史 材料 , 占城 王子 和 大约一 千占 城人 在越 南占 领占城 后迁 到了 海南 , 并 获得 明朝 允许 在 海南建 立了 流亡 政权25 。 但 据中 国历 史文 献记 载 , 早 在宋 朝, 占 城的首 都于 公 元982 年陷 落之后 ,占 城难 民就 开始 流落海 南26。 回辉人 的语 言回 辉话 , 和占 语一样 , 同属 于南 岛语 系下 的马来-波 利尼 西亚 语族27,28。 回辉话 与北 拉格 莱语 十分 相像 , 并 被归 为占 北语 支29。 但是 , 回辉 话 在 海南 岛上却 犹如 一 块 “语 言飞 地 ” , 其周 围 均非南 岛语 系
19、 (例 如 : 侗 傣语系 和汉 语 ) 。 由 于长 期接触 汉语 和黎 语, 以及 有方 向性 的内 部 漂变 , 回 辉话 从结 构上 变 得类似 汉语 和黎 语 。 例 如 , 回 辉话 发展 出 了马来-波 利尼 西亚 语少 有 的固定 声调30 。 在过往 研究 中 , 我 们发 现 东亚的 语言 与 Y 染 色体 父 系谱系 有着 很强 的关 联31-34。因 此, 回辉 话结 构上 的改 变 也有可 能反 映在 遗传 上 。 我们 在 2008 年 报道 过31 个回辉 人样 本的 Y 染色 体数 据, 其中 高频 出现 的 O1a-M119 (58.1% )和 Y- STR
20、网络 结构 中 显示的 其与 侗傣 人群的 联系 , 表明 回辉 人 很可能 有侗 傣遗 传背 景33。 这 些结 果说 明 , 回 辉人 的起源 很可 能 伴随着 对原 住民 的同 化, 或者近 期的 基因 交流 。 但 是,Y 染色 体数 据只 能从 父 系角度 提供 证 据, 而且 我们 之前 的研 究 所涉及 的样 本量 较小 可能 导致偏 差 。 此 外, 缺乏 同 占城人 的数 据进 行比较 , 使回 辉人 起源 问 题仍存 在争 议 。 为 了解 决 该问题 , 在本 研究 中, 我 们对 102 个 回辉 人样本 (72 男和 30 女 ) 进 行母系 遗传 的线 粒 体 DN
21、A 和相 关Y 染色 体标 记的 分 型, 以期 对回 辉人的 起源 有更 深入 的理 解。 1 材料和方法 1.1 群体样本 该研究 获得 了复 旦大 学生 命科学 学院 伦理 委员 会的 批准。102 份回 辉人 外周 血 样本均 采 自海南 三亚 。 受试 者均 获 得了相 关研 究的 充分 信息 , 并 签署 了知 情同 意书 。 所有研 究对 象均 健康,5 代 以内 无可 查亲 缘关系 。 1.2 Y 染色体标记 根据最 新 的 Y 染色 体谱 系 树35,36 ,对 样本 在 Y 染色体 非重 组区 上 的 14 个 单核苷 酸 多态 (SNP )M130 、M89 、M9 、M
22、45 、M119 、M110 、M101 、P31、M95 、M88 、M122 、M164、M159 和M7 , 使 用使 用聚 合酶 链 反应 (PCR ) -限 制性片 段长 度多态 (RFLP ) 进行分 型 。 4 个SNP (M48 、 M8 、M217、M356) 使用 Taqman (Applied Biosystems, Foster City, CA, USA )进行分型。 7 个STR 多 态 (DYS19 、DYS389I 、DYS389II 、DYS390 、DYS391 、DYS392 、DYS393 ) 用 荧光 标 记引 物PCR 进行 分型。 变 性产物 用丙
23、 烯酰 胺凝 胶电 泳分离, 在 3730xl 遗 传分 析仪 (Applied Biosystems, Carlsbad, CA, USA )上 区分 等位 基因 。 1.3 线粒体DNA 标记 线粒体 高变 I 区(HVS-I) 使用引 物 L15974 和 R16488 进行 扩增37 。PCR 产物 经虾 碱 酶和外 切酶 (Roche Diagnostics, Shanghai, China ) 纯化后 , 使用Big-Dye Terminator Cycle Sequencing 试 剂盒 (Applied Biosystems ) 进行 测 序反应 。用 软 件Sequence
24、Analysis 3.3 (Applied Biosystems ) 读 取 序 列 。 根 据 修 订 的 剑 桥 标 准 序 列38 , 使 用 软 件 DNASTAR (DNASTAR, Madison, WI, USA)对 HVS-I 序列 进行 编 辑和排 列。 编码 区上 的22 个多态 (3010 、 7598 、663 、10 400 、10 310 、4216 、4491 、12 308 、10 646 、11 719 、4715 、4833 、8271 、 5301 、70 287 、13 263 、14 569 、5417 、5178 、12 705 、15 607 、9
25、824 ) 根 据谱 系使 用 SNaPshot (ABI SNaPshot Multiplex Kit; Applied Biosystems )进行分型。PCR 产物 也在 3730xl王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 遗传分 析仪 (Applied Biosystems ) 上电 泳分 离。 每 段 mtDNA 的 单倍 群谱 系关 系根 据 HVS-I 基序和 编码 区多 态综 合分 析推断 得出39,40 。 1.4 统计分析 Y 染色 体 STR 和 mtDNA 的 HVS-I 基序 的网 络结 构根 据 median joining 方法41,使 用
26、软件Network version 4.510 (http:/www.Fluxus- ) 构建 。 回辉人 基因 型 数 据 由 本 次 研 究 得 到 , 其 他 邻 近 人 群 数 据 来 源 于 已 有 文 献31,32,37,42-50 。使用 Arlequin 3.11 计算 Y-STRs 的 Slatkin 线性 Fst (Rst )遗 传距 离51。 使用 SPSS 18.0 软 件(SPSS, Chicago, IL, USA) 进 行主 成分 分析 (PCA )和多 维尺 度分 析(MDS )。 2 结果和讨论 2.1 Y 染色体 根据Y 染色 体委 员会 (YCC ) 的命
27、 名规 则35, 36,从 72 个回 辉人 个体 样本 中 共确定 了 8 个SNP 单 倍群 (见 文章 补 充材料 的附 表 S1 ) 。 尽 管 回辉人 的语 言被 归为 占北 语, 但在 他们 的父系 遗传 结构 中单 倍 群O1a*-M119 占高 频 , 这 与占 城人并 不相 似 。 而 在占 城 人中占 主流 的 O2a1* 和其 下游 单倍 群 O2a1a , 只 占回 辉人 的4.17% (图 1) 。 在回 辉人 中频 率中 等的古 老东 南亚支 系C-M130 和F*-M89 , 可 能源 于特 定祖 先贡 献 之后发 生的 遗传 漂变 。 另 外, 发 现了 汉 藏
28、的典 型支 系O3a2c1a-M11752, 53 在回 辉人 中低 频存在 , 占 4.17% 。 这可 能 源于汉 族移 民 的近期 基因 交流 。 图1 回辉人和占城人的 Y 染色体单倍群频率 使用其他已 发表 的 Y 染 色 体数据,可 以比较 分析回 辉人、占城 人和东 亚其他 人群的详 细父系 遗传 结构 类型 。 我 们对回 辉人 和其 他 43 个 东 亚人群 的 Y 染 色体 频率 数 据进行 主成 分 分析 ( 图2 ) , 发现 在第 二 主成分 上, 来自 印度 支那 半岛 的 人群 和来 自海 南 岛 的人群 分别 聚 类成两 组 。 其 中 , 回 辉人 位于海 南
29、组 , 和海 南原 住 民 、 中国 南部 人群 侗水 等 聚在一 起 。 而 占 城人与 印度 支那 组非 常接 近。 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 图 2. 44 个群体 Y 染 色体 单倍群 的主 成分 分析 图 基于 52 个人 群在 6 个通 用 Y-STR 位 点(DYS19 、DYS389I 、DYS390 、DYS391 、DYS392 、 DYS393 )上 的遗 传距 离 Rst 所 作的 MDS 图也 显示 , 回辉人 与海 南岛 人群 较为 接近( 图 3)。 形成这 种模 式的 主要 原因 还是回 辉人 中高 频 的O1a*-M119
30、单倍 群和 低频 的O2a1*-M95 单倍群。 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 图 3. 基于 6 个通用 Y-STR (DYS19 、DYS389I 、DYS390 、DYS391 、DYS392 、DYS393) 的 52 个人 群MDS 聚类 图 回辉人 、 海南 原住 民和 印 度支那 人群 在 O1a*-M119 单倍群 上的 具体 距离 , 能 够清楚 地揭 示回辉 人的 主流 父系 遗传 起源。 因此 , 我 们找 到相 关人群 中 的 O1a*-M119 个 体, 在 6 个 STR 多态位 点 (DYS19 DYS389I DYS390 DYS
31、391 DYS392 DYS393 ) 上构 建了 中 点连接 网络 结 构 ( 图4) 。 图 中所 示, 海 南原住 民除 了少 数散 布在 其他人 群中 , 其 他均 形成 了若干 个几 近 孤立的 分支 , 这表 明海 南 原住民 早已 隔离 于中 国南 部的其 他侗 傣人 群和 台湾 原住民 。 几乎 所 有的回 辉人 样本 都聚 类于 海南原 住民 的孤 立分 支中 , 而印度 支那 的样 本倾 向于 和中国 南部 聚 类到一 起 。 这 些结 果说 明 , 回 辉人 的主 要父 系单 倍 群来源 于海 南本 土的 民族 群体 , 而 不是 占 城人或 者其 他印 度支 那人 群。
32、 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 图 4.根据 O1a*-M119 内部 6 个 STR 单倍型构建的中 点连接网络结构. 节点 之 间的连 线长 度 等比于 突变 步数. 2.2 线粒体DNA 目前 从102 个回 辉人 样本 中共发 现 19 个mtDNA 单 倍 群 ( 附 表 S2 ) , 其中 较为 高频的 为 D4 、F2a 、F1b 、F1a1 、B5a 、M8a 、M* 、D5 和 B4a (按 降序排 列) 。D4 和 F2a 为 回辉人 的两 个主要 单倍 群, 分别 占 16.67% 和 15.69% , 但是 这两 个单倍 群在 其他 海南
33、 原住 民和印 度支 那 人群中 没有 发现 或者 低频 出现 。 然 后 , 我 们在 单倍 型 水平上 将回 辉人 的这 两个 单倍群 同其 他 相 关 人 群 进 行 比 较 。 发 现 大 部 分 回 辉 人 的 D4 样 本 共 享 几 个 相 同 的 HVS-I 基 序 位 点 , 为 16223 16316 16362 ,但 是这种单倍型 在东亚和 印 度支那人群中 较为罕见 。 回辉 人的 F2a 单 倍 型 仅 仅 在 部 分 汉 族 和 云 南 的 一 些 小 型 人 群 ( 拉 祜 族 、 彝 族 、 摩 梭 人 ) 中 发 现31,32, 42,50,54 。回 辉人
34、这 种 B 和 F 单倍 群占 高频 的分 布 模式, 与邻 近人 群和 南方 其他人 群十 分 相似, 此外 ,我 们用 回辉 人和其 他所 有 30 个人 群 的 mtDNA 单 倍群 分布 频率 作 PCA 分析 (图 5),发现 台湾原 住民、印 度支那人 群和海南 原住民 在第一主 成分上形 成三个 聚类。单 倍 群 E、F5 和 B4 为 台湾 一组 的 主要类 型, 而单 倍 群G、A 、C、M9 和M8 为 海南 和汉 藏一组 的主 要 贡献。回 辉人倾向 于和海 南原住民 聚在一起 ,而占 城人则和 印度支那 人群聚 为一类。 综上 , 频率分 布模 式揭 示了 回辉 人和海
35、 南原 住民 的遗 传相 似性。 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 图5 东亚31 个群体线粒 体单倍群频率的主成 分分 析图 然而 , 由 于正 向选 择或 遗 传漂变 造 成 mtDNA 谱 系变 化频率 较高 , 仅仅 基于 单 倍群频 率比 较得出的结 果可能 存在误 导50,55。而 基于个 体谱 系的网络结 构分析 能够更 好地提供一 个 关于回 辉人 、占 城人 和其 他人群 的关系46,48。根据 mtDNA 的 HVS-I 基序 和 SNP 确 定的 单 倍群, 构建mtDNA 单 倍群D4、F2a 、F1b、F1a1 、M8a 、D5 和B4a
36、的网 络结 构 ( 图 6)。 这些 mtDNA 单倍 群在 回辉 人和 印度支 那人 群中 均占 高频 或中频 , 总和 占回 辉人 总 数的 72.55%。在 D4 单倍群 网络结 构中, 回 辉人只有 一个单倍 型和泰 人共享, 其他形成 了一个 较大的独 立分 支 ; 在 F2a 和F1b 中也 能 见到独 立分 支 。 在B4a 和 M8a 图 中, 回辉 人只 和海 南 原住民 的样 本 聚在一 起 。 在F1a1 图中 , 回辉人 只和 中国 大陆 南部 人群聚 为一 类 。 在 B5a 和 D5 图中 , 回辉 人、 海南 原住 民和 来自 中 国 大陆 南部 、 台湾 岛、
37、印 度支那 的人 群一 起 , 聚 在 较大或 中等 大小 的分支 中 。 但 无一 回辉 人 样本是 直接 和占 城人 聚为 一类 。 总 体而 言, 回辉 人 的母系 遗传 谱系 与海南 和中 国南 部的 族群 更为接 近, 而 不 是印 度支 那人群 。 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 图6. 线粒体DNA 的HVS-I 序列单倍群网络结构. 节 点之间 的连 线长 度等 比于 突变步 数. 在本研 究中 ,Y 染 色体 父 系遗传 谱系 和 mtDNA 母系 遗传多 样性 表明 , 相比 于 占城人 和其 他印度 支那 人群 , 回辉 人 与海南 原住 民
38、最 为接 近 。 这说明 , 回辉 人的 形成 过 程中伴 随着 对原 住民的 大量 同化 。 在同 化 过程中 , 回辉 人的 语言 从 结构类型 上 变得 更像 汉语 或侗傣 语系 的 语 种 。 然而 最有 意思 的是 , 回辉人 的文 化和 自我 认同 仍然保 留了 占城 人的 传统 。 作 为穆 斯林 的 回辉人 依照 伊斯 兰教 义和 原则来 处理 日常 生活 中的 各种事 务 , 比 如卫 生、 饮 食、 斋戒 , 甚 至 是祷告 的确 切时 间。 这些 伊 斯兰信 仰对 保存 他们 的生 活方式 和自 我认 同起 着至 关重要 的作 用 , 这种作 用更 多的 是在 社群 意义
39、层 面上 , 而不 是生 物 学层面 。 我们 可以 称之 为 遗传替 换的 “宗 教决定 ”机 制 : 一 小群 迁 入移民 被当 地原 住民 接纳 后, 在遗 传成 分上 被当 地 人群替 换 , 但 是 这一小 群移 民带 来的 宗教 信仰却 使他 们 保 存了 他们 根植于 宗教 的文 化传 统和 自我认 同。 王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 常染色体 STR 揭示甘肃穆斯林群体回族和东乡 族的 东亚起源 中国的 穆斯 林群 体指 的是 十个官 方认 可的 穆斯 林族 群, 有维 吾尔 、 东乡 、 回 、 保安 、 哈 萨克 、 柯 尔克 孜 、 撒 拉
40、、 塔吉克 、 乌兹 别克 和塔 塔 尔族 。 这 些民 族的 起源 是 带有大 量基 因流 动的人 群迁 徙模 式还 是单 纯的文 化传 播 、 基 因交 流 非常有 限的 模式 , 一直 是 争论的 焦点 。 据 历史文 献记 载, 伊斯 兰文 化最早 是在 1400 多年 前的 唐代( 公元 618-907 年 ) 由来自 阿拉 伯 和波斯 的士 兵、 商人 和使 者传入 中国 的56 。 中国 的 穆斯林 群体 一直 被认 为是 这些移 民的 后 代。 通过 全基 因组 水平 的遗 传分析, 维吾 尔族 已被 证实 是典型 的东 西方 混合 群体57 。 然而 , 甘肃和 宁夏 等地
41、的东 乡、 保 安和回 族却 有着 典型 的东 亚本土 人群 (蒙 古人 种) 的 体质特 征13, 58, 59 。谢 小东 等17 用 常染色 体 TH01 和 D13S317 这 两个 位点 也得 出回 族 和汉族 的遗 传近 缘性。Y 染色 体 STR 的聚 类分析 也把 宁夏 和辽 宁的 回族归 入了 汉藏 族群 里60 。撒拉 、保 安 和东乡 里大 约有 24-30% 的 Y 染色 体属 于东 亚特 有单 倍群 O3-M122 。 中亚 、南 亚和欧 洲常 见 的 Y 染色 体单 倍群 R-M17 也分别 占到 撒拉 、 保 安和 东 乡族 的 17%, 26% 和 28%61
42、。 由此 看来 , 中国穆 斯林 族群 的起 源和 演化中 与本 土族 群存 在大 量的基 因交 流62 。 然而 , 之前的 研究 所 使用的 位点 有限 、 样本 量 也很小 , 难以 对穆 斯林 群 体的遗 传历 史给 出确 切答 案。 因此 , 我 们 对取自 甘肃 省临 夏市 的东 乡、回 族和 汉族 的 652 份 样本进 行了 常染 色体 15 个 法医常 用 STR 位点的 分型 检测 , 以 期可 以 进一步 理清 穆斯 林群 体起 源和演 化过 程中 与周 围族 群的遗 传混 合 。 东乡和 回族 是典 型的 中国 现代穆 斯林 人群 , 将 这两 个 群体与 世界 范围
43、的穆 斯林 和非穆 斯林 群 体进行 比较 ,能 更全 面解 析中国 穆斯 林的 源流 。 材料和方法 我们在 甘肃 省临 夏市 采集 了 163 份 东乡 族、 219 份回 族的无 关个 体血 液样 本 , 为便于 比 较, 我们 还采 集了 270 份 当地 汉 族的 血样 。 我们 的 研究由 甘肃 政法 学院 伦理 审查委 员会 审核 通 过 。 受 试 者 均 获 得 了 相 关 研 究 的 充 分 信 息 , 并 签 署 了 知 情 同 意 书 。 样 本 DNA 由 常 规 的 Chelex-100 法 提取63 , 15 个常用 法医 学 STR 位点 AmpFlSTR Si
44、nofiler PCR 试 剂盒 来进行 扩增 , 这 15 个位 点是 D8S1179, D21S11, D7S820, CSF1PO, D3S1358, D13S317, D16S539, D2S1338, D19S433, vWA, D18S51, D5S818, FGA, D6S1043 和 D12S391 。PCR 产物在 ABI 3500XL 型 遗传 分 析仪上 电泳 , 用 ABI Genemapper ID-X 软件 来读 取分 型结果 。 采用 Powerstates V12 标 准 版软件 对数 据进 行分 析处 理, 获得 各基 因座 的等 位基 因频率 、 观察值 杂
45、合 度 (Ho) 、 期 望 值杂合 度 (He) 、 个 体识 别 力 (DP) 、 非父 排除 率 (PE) 和多 态信 息 含量 (PIC) ;用 Arlequin v3.5.1.3 软件 来测 试各 STR 位点的 基因 型分 布是 否 Hardy-Weinberg 平衡51 。 因 为本 研究 中的 统计分 析是 基于 贝叶 斯聚 类原理 , 所 以我们 收集 了 世界范 围 内 45 个群体 的 13 个 常染 色体 STR 位点 (除 去 D6S1043 和 D12S391 )的 原始 基因 型数据 来分 析群 体间的 遗传 关系64-90 。 分子方 差分 析、 平均 配对 核
46、苷酸 差异 、Fst 、Slatkins 线性 Fst 以及 共祖系 数均 由 Arlequinv3.5.1.3 软 件使 用基 因型 数据 算出。 精细 的群 体遗 传结 构是在 人群 混 合、 LOCPRIOR 模型 以及 等 位基因 频率 相关 这些 假设 下使 用 Structure 2.3.4 软件91, 92 得出 的。 从 K=2 到 K=8 的 Structure 每次运 行都 重复 几次 , 使 用 100000 次 迭代 , 其 中 20000 次作 为预 采样(burn-in) 而 被舍 弃。 每 个 K 值都 计算 了后 验概 率 。 遗 传距 离和 群体 结构 的 图
47、形展 示通 过 R 语言 v3.0.293 和 Distruct v1.1 软件94 来 实现 的。 结果 甘肃临 夏市 东乡 、回 和汉 族藏族 群体 的 15 个 常染 色 体 STR 位点 的遗 传和 法医 学参数 都 列在 表 1 中。 Hardy-Weinberg 平 衡检 验中 并未 发现 显 著偏离 平衡 的位 点 , 这 说 明我们 的取 样 很有代 表性 。 这些 位点 在 三年个 群体 中的 个体 识别 力都很 高 ,DP 的 值都 在 0.85 以上 , 说明 这一 套 STR 位 点对 法医 学 个体识 别很 有用 。 中国穆 斯林 群体 东乡 和回 族与非 洲和 中东
48、 群体 的遗 传距离 最大 , 而与 东亚 族 群, 尤其 是 各地汉 族的 遗传 距离 最小 。 东 乡与 临夏 和宁 夏回 族 , 临 夏 、 陕 西、 上海 以及 广东的 汉族 , 拉王传超 复旦大学博士学位论文 2015 年 东亚人群遗传历史 萨的藏 族两 两之 间的 Fst 遗传差 异是 不显 著的 (p0.005 ) 。东 乡族 和上 述群 体 的遗传 差异 非 常小 (Fst0.002, Slatkin 线性 Fst 0.003)。 同 样地 , 临 夏回族 与宁 夏回 族 , 伊 犁 的维吾 尔族 , 陕西和 云南 的汉 族, 内蒙 古 的俄罗 斯族 以及 拉萨 的藏 族两两
49、之间 的 Fst 遗 传差 异 是不显 著的 。 宁夏回 族也 与本 研究 中所 用到 的 5 个汉 族群 体没 有 明显差 异 。 然 而 , 东 乡、 回 族与欧 洲 、 中 东以及 非洲 的群 体两 两之 间的 Fst 都大于 0.01 。 两 个 维吾尔 群体 与全 部群 体的 遗传距 离都 有 统计学 差异 , 且维 吾尔 族 与东亚 、 欧洲 以及 大部 分 中东群 体两 两之 间的 遗传 距离几 乎都 是一 样的, 这说 明维 吾尔 族是 典型的 混合 人群( 图 7) 。 上 述 遗 传 距 离 分 析 不 支 持 中 国 穆 斯 林 群 体 与 中 东 和 欧 洲 群 体 的 近 缘 性 。 我 们 然 后 用 Structure 软 件里 基于 模型 的聚类 算法 在个 体水 平精 确解析 群体 的遗 传混 合历 史。 这 种方 法 可 以把个 体划 分 到 K 个聚 类 簇里 ,K 是预 先设 定但 可 以更改 的数 值 。 根 据后验 概率 , 最 合适 的 K 是 在其 等于 3 的时 候, 群体的