1、 TASSEL5.0 用户手册 Cornell 大学 Buckler 实验室 (June 12, 2014) 翻译: 陈建国 湖北大学 生命 科学 学院 1 声明 : 虽然 Cornell 大学 Buckler 实验 室已经进行了广泛的测试并且一般来说结果是可靠的、正确的或合适的, 但是对于任何一套特定的数据不能保证 一定能够得到你想要的结果 。强 烈地建议用户利用其它 软件来验证 TASSEL 的结果。 更多的帮助: 除了这个文档以外还可以得到额外的帮助 。 欢迎用户报告软件的缺陷,通过TASSEL 网址申请新的性能。 也欢迎对我们现在的团队成员提出问题。 要想得到更快速和更准确的答案,请
2、把你的问题提交给最相关的人: Tassel 用户群(推荐) http:/ 一般的信息 Ed Buckler( 项目领导人 ) esb33cornell.edu 数据输入 , Pipeline Terry Casstevens tmc46cornell.edu 统计 分析 Peter Bradbury pjb39cornell.edu Contributors: Ed Buckler, Terry Casstevens, Peter Bradbury, Zhiwu Zhang, Dallas Kroon, Jeff Glaubitz, Kelly Swarts, Jason Wallace,
3、Fei Lu, Alberto Romero, Cinta Romay, Eli Rodgers-Melnick, Alexander Lipka, Sara Miller, James Harriman, Yogesh Ramdoss, Michael Oak, Karin Holmberg, Natalie Stevens, and Yang Zhang. Citations: Overall Package: Bradbury PJ, Zhang Z, Kroon DE, Casstevens TM, Ramdoss Y, Buckler ES. (2007) TASSEL: Softw
4、are for association mapping of complex traits in diverse samples. Bioinformatics 23:2633-2635. Genotyping by Sequencing: Glaubitz JC, Casstevens TM, Lu F, Harriman J, Elshire RJ, Sun Q, Buckler ES. (2014) TASSEL-GBS: A High Capacity Genotyping by Sequencing Analysis Pipeline. PLoS ONE 9(2): e90346 M
5、ixed Model GWAS: Zhang Z, Ersoz E, Lai C-Q, Todhunter RJ, Tiwari HK, Gore MA, Bradbury PJ, Yu J, Arnett DK, Ordovas JM, Buckler ES. (2010) Mixed linear model approach adapted for genome-wide association studies. Nature Genetics 42:355-360. 2 TASSEL 项目由国家科学基金和 USDA-ARS 资助 相关 的链接 : 主网站 :http:/ww 开源代码
6、: https:/bitbucket.org/tasseladmin/tassel-5-source Wiki:https:/bitbucket.org/tasseladmin/tassel -5-source/wiki 3 目录 引言 6 1 入门指南 . 7 1.1 执行 TASSEL 8 1.2 开源代码 8 1.3 软件开发工具 8 1.4 图形界面 9 1.5 管道(命令行界面) 10 1.6 GBS 管道 10 2 File(文件)菜单 . 10 2.1.1 Save Data Tree(保存数据树) 10 2.1.2 Open Data Tree(打开数据树) 10 2.1.3
7、Save Data Tree As(数据树另存为 ) . 10 2.1.4 Open Data Tree(打开数据树 ) 11 2.1.5 Set Preferences(设置首选项) 11 3 Data(数据)菜单 . 11 3.1 Load(加载) 12 3.1.1 Hapmap . 14 3.1.2 HDF5(层次数据格 式,版本) . 14 3.1.3 VCF(Variant Call Format 变异体召唤格式) 15 3.1.4 Plink 15 3.1.5 投影校准( Projection Alignment) . 15 3.1.6 Phylip 15 3.1.7 FASTA
8、. 16 3.1.8 Numerical Data(数值数据) . 16 3.1.9 Square Numerical Matrix(数值方阵) 17 3.1.10 Table Report(表格报告) 18 3.1.11 TOPM( Tags on Physical Map,物理图谱上的标签) . 18 3.2 Export 导出 . 18 3.3 转换(Transform ) . 19 3.3.1 Genotype Numericalization(基因型数字化) 19 3.3.2 Transform and/or Standardize Data 转换和 /或标准化数据 20 3.3.3
9、 Impute Phenotype 估算表现型 21 3.3.4 PCA(主成分分析) 22 3.4 Synonymizer(举出分类单元名称的同义词) 23 3.5 Intersect Join(交集合并) . 25 3.6 Union Join(并集合并) . 26 3.7 Merge Genotype Tables(合并基因型表格) . 26 3.8 Separate(分离) . 27 3.9 Homozygous Genotype(纯合的基因型) . 27 4 Impute(估算)菜单 27 5 Filter(过滤)菜单 . 35 5.1 Sites(位点) . 35 4 5.2 Si
10、te Names(位点名称) 37 5.3 Taxa Names(分类单元名称) . 37 5.4 Taxa(分类单元) . 38 5.5 Traits(性状) 39 6 分析(Analysis )菜单 . 42 6.1 Diversity(多样性) 42 6.2 Linkage Disequilibrium(连锁不平衡) . 43 6.3 Cladogram(进化分枝图) . 45 6.4 Kinship(亲缘关系) 45 6.5 GLM(一般线性模型) 46 6.6 MLM(混合线性模型) . 47 6.7 基因组选择(使用岭回归) Genomic Selection (using Rid
11、ge Regression) 50 6.8 Geno Summary(基因型汇总) 51 6.9 Stepwise(逐步的) 56 7 Results(结果)菜单 56 7.1 Table(表格) 56 7.2 Archaeopteryx Tree(始祖鸟树) . 57 7.3 2D Plot( 2D 图) 58 7.4 LD Plot(LD 图) 59 7.5 Chart(图表) 61 7.6 QQ Plot( QQ 图) . 62 7.7 Manhattan Plot(曼哈顿图) 62 8 教程 62 8.1 缺失表现型的估算 . 63 8.2 主成分分析 . 65 8.3 利用遗传标记估
12、计亲缘关系 69 8.4 利用 GLM 进行关 联分析 . 72 8.5 利用 MLM 进行关联分析 78 9 附录 84 9.1 核苷酸代码(来源于国际理论和应用化学联合会(IUPAC ) 84 9.2 TASSEL 教学数据集 . 85 9.3 经常被问的问题 85 5 引言 虽然自从 2001 年开始公开发行以来 TASSEL 已经发生了相当大的变化,但是它的主要功能仍然是为研究表现型和基因型之间的关系提供工具1。TASSEL 的功能有:关联研究,评价进化关系,分析连锁不平衡,主成分分析,聚类分析,估算缺失数据,数据可视化 。TASSEL 的开发由玉米遗传学和基因组学的一个课题组领导,因
13、此这个软件的设计和计算上的优化都是为了解释很多植物和育种情况中存在的生物学 现象 。 与人类遗传学相比,很多作物在核苷酸水平和结构变异上都是非常多样的( 多样性 比人类大 10 50 倍), 近 交 和 大的家系也是常见的,并且全基因组预测正在日益应用于现实世界的问题 。 这些生物学的差异导致一些不同的优化,这些优化对作物之外的很多生物学系统 也有用处。 驱动 TASSEL 开发的设计要点之一是对更大的数据集进行分析的需要。 TASSEL5 的核心对大数据进行了很多设计优化,包括: 核苷酸的位级编码( bit level encoding) ,这样可以非常迅速地获得遗传距离和连锁不平衡估计值(
14、速度增加 20 50 倍)。 广泛应用 HDF5 文件格式,它已经作为很多气候模型的一个稳健的元件对矩阵形式数据 开发 。 从大规模的测序基因分型 (Genotyping -by-Sequencing) 数据中提取和调用 SNPs 的工具(通过超过 2.5 百万个 SNPs 和 96 百万个序列等位基因对 60,000 个样本进行了测试)。 对作物中的大家系进行了优化的投影(projection )和 估算 方法 。 这些优化中的一些可以使内存和计算的改良 100,000 倍。 以 DNA 亲缘关系为基础的混合模型已经开始主宰 GWP(Meuwissen et al ,2001)和 GWAS(
15、 Yu et al,2006 ),然而这些模型的求解可能是缓慢的 。 TASSEL 已经成为一个试验台,实现了最优化方法中的一些,比如 EMMA(Kang at al , 2008), 加上最优化方差分量的方法,一旦使用 P3D(Zhang et al , 2010)和 EMMAX(Kang et al, 2010) 。 压缩算法也是可用的( Zhang et al, 2010) 。 当正确地使用时,这些优化使得强大的 GWAS 在计算上成为可能。 代码正在不断地对更多 的处理器(core )和集中站 ( cluster) 而优化。 例如,我们通常在 64 核计算机上运行估算 。 虽然 Jav
16、a 的优点是系统之间的互操作性,但是它的6 代码大约比最优化的 C 语言库慢 2 倍,对于一些问题的处理比 GPU 慢 10 倍 。TASSEL5 正在构建 直接到本机码的连接层,当需要这些效率时。 TASSEL 是为各种各样的用户设计的,包括那些对统计遗传学或计算机科学不熟练的用户。 利用图形界面,通过点击适当的选项,就可以在少数几个步骤中完成 GWAS,这 种 GWAS利用混合线性模型方法来结合有关群体结构6-8和隐藏的亲缘 关系9的信息 。分析所需的所有处理过程都是自动进行的,包括导入表型数据和基因型数据, 估算缺失数据( 表现型或基因型) ,按次要等位基因频率过滤标记,产生主成分和亲缘
17、关系矩阵来代表群体结构和隐藏的亲缘 关系,优化压缩水平和进行 GWAS。 TASSEL 的命令行版本称为 Pipeline(管道) ,为用户提供对任务编制程序的能力,利用脚本而不是图形用户界面(GUI ) 。这个特征允许科研工作者利用少许代码行来定义任务,并提供把 TASSEL 作为一个分析管道的组成部分来使用或进行模拟计算的能力。我们也建立了一个大的开发者社区,为这个平台增加功能,并合作来改进该系统 。 因此在整个用户手册中你将看到如何通过三种不同的方式来完成大多数事情:利用 GUI,利用管道,利用 API(应用编程接口) 。 TASSEL 是 用 Java 编写的,因此几乎可以在任何操作系
18、统中使用 。 通过单击 上的一个链节,可以利用 Java 网页启动(Java Web Start )技术来安装它。 也可以下载 TASSEL 的单机版本,以管道模式使用,或者在用户想要启动该软件的任何情形中从命令行使用。 1 入门指南 开始使用 TASSEL 的一个快速的方法是加载教学数据并尝试进行分析 。 然而,因为一些必要的步骤可能不是直观的,我们建议新用户按照这个手册后面 的指南去做。 本节 提供安装和启动 TASSEL 软件的信息,并 对界面 进行 简短的概述。 7 1.1 执行 TASSEL http:/ 1.2 开源代码 在下面的网站上可以得到 TASSEL 的开源代码: http
19、s:/bitbucket.org/tasseladmin/tassel-5-source。 该套装软件使用了内含在 TASSEL 发行版的很多其它的库 。 这些包括 PAL 库的一个修改版( http:/www.cebl.auckland.ac.nz/pal-project/ ), COLT 库(http:/dsd.lbl.gov/hoschek/colt/ ), jFreeChart(http:/www.jfree.org/jfreechart/), Guava(Google Core Libraries )( https:/ ), JUnit ( http:/junit.org ),Arc
20、haeopteryx ( https:/ ), 以 及BioJava (http:/www.biojava.org )。 1.3 软件开发工具 jProfiler (http:/www.ej- install4j (http:/www.ej- 8 NetBeans IDE (https:/netbeans.org) Eclipse (http:/www.eclipse.org) IntelliJ (http:/ Structure101 (http:/) TeamViewer (http:/) Bitbucket (https:/bitbucket.org) sourceforge (http
21、:/) JIRA (https:/ Tower (http:/www.git-) 1.4 图形界面 TASSEL 被组织成五个主要面板 。 1) 顶部的菜单控制功能。 2) 左边 顶部的数据树 , 组织数据集和结果。在 执行 一个想要的功能或分析 之前 必须首先选择数据树中显示的数据集。要选择多个数据集,按下 CTRL 键然后选择数据集 。3) 报告面板 ,位于数据树 面板 下面 。它显示 从数据树 中选择的数据集的有关信息,比如数据的类型以及它是如何创建的 。4)进度监控面板,在报告面板下面, 显示运行任务的进度,具有能够取消任务的按钮。5 )主面板,占据视图区域的右侧,显示从数据树中选择的
22、数据集的内容。 9 1.5 管道(命令行界面) http:/ 1.6 GBS 管道 http:/ 2 File(文件)菜单 数据树可以按照二进制格式保存 。 2.1.1 Save Data Tree(保存数据树) 这个命令允许你将数据树面板的全部内容保存到一个默认位置 。 当用户下一次启动该程序时如果他们不想再创建一个已经用信息 填充过的数据树,那么这个命令是有帮助的。 为了保存一个数据树,选择 File(文件) Save Data Tree(保存数据树) 。 2.1.2 Open Data Tree(打开数据树) 为了恢复一个先前保存的数据树,选择 File(文件) Open Data Tr
23、ee(打开数据树)。 2.1.3 Save Data Tree As(数据树另存为 ) 为了把数据树保存到一个特定的位置或者要给它一个特定的名称,选择 File(文件) Save Data Tree As(数据树另存为 ) 。 10 2.1.4 Open Data Tree(打开数据树 ) 为了从一个特定的位置恢复一个数据树,选择 File(文件) Open Data Tree(打开数据树 ) 注意: 上面提到的保存数据树的信息通常适用于特定的版本。 当 TASSEL 的一个新版本发布时,用一个以前的版本保存的数据树可能不能加载到该版本 。 为了长期贮存,最好的作法是保存单独的数据集而不是整个
24、数据树。 2.1.5 Set Preferences( 设置首选项 ) 目前只有一个首选项 ,即 是否要保留“稀有”等位基因。 这是对于核苷酸数据 是不相干的,因为在那个状态的数目上没有数据丢失。 对于其它类型的数据,等位基因状态的最大数目 ( 每个位点 0 可能超过 14。 如果你“保留稀有等位基因”(Retain Rare Alleles ),较低频率的等位基因的值将被固定到一个稀有的状态 (Z ) 。 否则,那些较低频率的等位基因被转变为未知的( N)。 3 Data(数据) 菜单 Data(数据)菜单具有用来导入和导出数据集的选项,还有其它的数据处理功能。 11 3.1 Load(加载
25、) Load(加载)提供选项来导入基因型、表现型、群体结构、以及亲缘关系矩阵、等等的文件。 可以从 TASSEL 网址下载教学数据,链节为: http:/ 要使用 这些数据,压缩文件必须被解压,并保存在你的本地计算机上。 利用“ Make Best Guess”选项将这些教学文件正确地加载 。可以同时导入多个文件,通过首先加亮它们( 单击时按住 Shift 或 Ctrl 键 ) 然后单击 Open 按钮 。 12 13 3.1.1 Hapmap Hapmap 是一个基于文本的文件格式,用于存储序列数据。 一系列 SNP 以及种质品系的全部信息被保存在一个文件里。 第一行包含标题标签,每个额外的
26、行包含与单个 SNP 有关的全部信息 。最前面 11 列描述 SNP 的属性,接下来的列描述单个种质品系的 SNP 值。 第一行的最前面 12 列看起来应该 像 这样的,其中“ Line 1”是种质品系名称的开始。 rs# alleles chrom pos strand assembly# center protLSID assayLSID panelLSID QCcode Line 1 虽然所有 11 个标题列是必需的,但对于 TASSEL 要正确地解释数据并不需要填写所有11 列 。 仅仅需要的字段是“ chrom”(染色体名称)和“ pos”(位置) 。 在下面的例子中,基因型值是用个
27、字符(即 AA)代 表 的 。 注意你可以把那些基因型值作为单个 字符值记录(见附录中的“ Nucleotide Codes”( 核 苷 酸 代 码 )。 为了 让 TASSEL 正确地读取 Hapmap 数据,数据必须按照每个染色体内部的位置次序排列,文件应该用制表符分隔(下面的例子为 Excel 格式,仅仅为了容易查看) 。如果一些数据缺失, 还是必须给出 制表符的正确数目,以便 TASSEL 可以正确地将数据分派到列。 3.1.2 HDF5( 层次 数据格式,版本 ) http:/www.hdfgroup.org/HDF5 14 3.1.3 VCF( Variant Call Forma
28、t 变异体召唤格式 ) http:/www.1000genomes.org/wiki/analysis/variant-call-format/vcf-variant-call-format-version-42 3.1.4 Plink Plink 是一个全基因组关联分析工具箱,它带有它自己的基于文本的数据格式 。数据被保存在两个文件中,一个 .map 文件和一个.ped 文件。 .ped 文件包含所有的 SNP 值,具有六个强制性的标题列,家系标识符、 个体 标识符、父本的标识符、母本的标识符、性别 以及表现型 。TASSEL 仅仅要求个体标识符字段被填写。 .ped 文件的每一行描述单个种
29、质品系 。 注意在 Plink 中,一个未知的字符是用“ 0” 代表的。 然而在 TASSEL 中一个未知的字符是用 “ N” 代表的, “0 ” 代表杂合的 indel。 TASSEL将自动地在 “ 0” 和 “N ” 之间转换 。 任何导出的 Plink 文件将用“+ ”( 插入 )和“ -”( 缺失 )来代表杂合的 indel。 .map 文件描述关联的.ped 文件中的全部 SNP,其中每一行提供一个 SNP 的 有关信息。 .map 文件必须准确地包含四个列: Chromosome(染色体), rs#, Genetic distance(遗传距离)和 Position(位置) 。TA
30、SSEL 不要求 Genetic distance(遗传距离) 字段被填写。 两个文件都应该用制表符分隔。 对于数据格式的更详细说明,请访问 Plink 基本用法和数据格式网页: (http:/pngu.mgh.harvard.edu/purcell/plink/data.shtml )。 3.1.5 投影校准( Projection Alignment) 3.1.6 Phylip 有关 Phylip 格式的详情在以下网址上: http:/evolution.genetics.washington.edu/phylip/doc/sequence.html 15 3.1.7 FASTA 3.1.
31、8 Numerical Data( 数值数据 ) 这类格式被用于性状和协变量数据(比如群体结构) 。与序列比对 基因型数据相似,数值数据也由两个部分组成:一个标题定义数据结构,一个包含主要数据的主体。 应该用制表符作为分隔符。 然而,任何空白字符(比如空格)也将被 当作 一个分隔符 。 因此,名称中嵌入的空格将导致数据被错误地导入。 我们建议用“NA ”或“ NaN”来代表缺失值。 然而,任何文本值(例如“ ?”)将被作为缺失数据解释 。有若干数值数据的格式来满足 建模的要求。性状数据(因变量)可以被导入,通过利用“ ”启动第一行然后利用性状名称 。 额外的分类器(classifier )也可
32、以被包括在随后的标题行中,通过利用“ ”启动行,继之以数据的每一列的名称 。例如,为了定义环境,利用“ ”启动第二个标题行。 可以在文件的开头插入注释行。 注释行以字符 “# ” 开始。 3.1.8.1 性状格式 这个格式不要求用户提供有关行数和列数的信息 。 文件以关键词 开始, 后面是列的名称 。品系的列不应该被标签。 例 1,性状值的简单列表: EarHT dpoll EarDia 811 59.5 NA NA 33-16 64.75 64.5 NA 38-11 92.25 68.5 37.897 4226 65.5 59.5 32.21933 4722 81.13 71.5 32.42
33、1 A188 27.5 62 31.419 例,在多个环境中收集的性状: EarHT PlantHT EarHT PlantHt Loc1 Loc1 Loc2 Loc2 16 811 59.5 NA NA NA 33-16 64.75 121.5 NA NA 38-11 92.25 153.8 37.897 83.4 4226 65.5 130.1 32.21933 82.1 4722 81.13 165.7 32.421 90.1 A188 27.5 110.2 31.419 79.6 3.1.8.2 协变量格式 除了第一行必须是“ ”之外,协变量数据的格式 和性状数据一样。 这一行告诉 T
34、ASSEL 这个文件中的变量将被作为协变量使用而不是作为因变量使用。 这是用于群体结构协变量的格式。 Q1 Q2 Q3 33-16 0.014 0.972 0.014 38-11 0.003 0.993 0.004 4226 0.071 0.917 0.012 4722 0.035 0.854 0.111 A188 0.013 0.982 0.005 3.1.8.3 作为数值协变量的标记值 有时候,用户可能想要把标记值当做数值 协变量 。 如果文件的第一行是“ ”,那么数据将将被作为数值数据导入,但是在 GLM 和 MLM 中用作标记数据。 m1 m2 m3 m4 m5 33-16 0 1 1
35、 0 0 38-11 0 0 1 0.3 0 4226 0 1 1 0.5 0 3.1.9 Square Numerical Matrix( 数值 方 阵 ) 亲缘关系可以用 外部 软件 计算, 比如 利用 SAS Proc Inbreeding 从系谱 计算18,或者 利17 用其他 软件从标记 计算 。 用下面的格式来导入 得到 的亲缘关系估计值: 如果 n 代表分类单元的数目,则亲缘关系文件的格式如下: n Taxa1Name r11 r12 r1n Taxa2Name r21 r22 r2n TaxanName rn1 rn2 rnn 这里 rij(i, j = 1, 2, , n)
36、是亲缘关系矩阵中位于第 i 行和第 j 列的元素。亲缘关系矩阵不允许有缺失值。 重要提示: 当前的格式与 TASSEL 2.0 或更低的版本中使用的格式不同。 3.1.10 Table Report( 表格报告 ) 数据可以作为制表符分隔的文本文件导入 。 文件的第一行将被解释为列标签,剩余的行为表格中的行。 3.1.11 TOPM( Tags on Physical Map, 物理图谱上的标签 ) 3.2 Export 导出 提供了选项来导出序列数据: Hapmap、 Plink、 Phylip(顺序的或间隔的) 。 表现型和协变量数据被作为数值的性状数据导出 。表格报告(Table Rep
37、orts )被作为一个制表符分隔的表格导出。对于数值数据,导出(Export )的功能与结果(Results )模式中的表格(Table )功能相似。 18 3.3 转换( Transform) 这一组功能允许对基因型和 (数值的) 表现型数据进行多个数据操作 。 当一个基因型数据集被选择时,数据被转换为数字。 当一个数值数据集被选择时,可以进行数学的转换、数据 估算 以及主成分分析(PCA ) 。 在一个数据( Data) 对话框中将显示转换列( Transform columns)标签页,具有三个标签: Trans、Impute 和 PCA。 3.3.1 Genotype Numerica
38、lization( 基因型数字化 ) 提供了两个选项来将基因型从字符转换为数值,如下面的对话框所示。 19 3.3.1.1 Collapse Non Major Alleles( 折叠非主要等位基因 ) 这个功能把 1 分派给主要等位基因,把 0 分派给任何其它的等位基因。 转换的基因型被保存在一个新的数值数据集中。 3.3.1.2 Separate Alleles 分离等位基因 这个功能对每个等位基因指定一个指示符(存在为 1,不存在为 0) 。 转换的基因型被保存在一个新的数值数据集中。 3.3.2 Transform and/or Standardize Data 转换和 /或标准化数据
39、 Trans 对话框是默认的选择,如同下面所示。 在列( Column)列表中,选择你想要转换的一列或几列。 然后选择你想要执行的转换类型 。 选择标准化(Standardize)复选框将通过从性状值中减去列平均数然后除以该列的标准差来转换数据。 单击产生数据集( Create Data set)按钮将在数据树中产生一个只包含选定列的数据集的位置 。 20 3.3.3 Impute Phenotype 估算表现型 k-最近邻算法 (k- nearest-neighbor algorithm)20被用来估算缺失的表现型数据 。 如果数据是对一个分类单元的性状之一缺失,该算法寻找与它最像的其他分类
40、单元(邻近者 )来估计缺失的性状 。 它运用邻近 者的平均数来估算缺失数据。 单击估算( Impute)标签来显示以下对话框 : 21 3.3.4 PCA( 主成分分析 ) 只 能对没有缺失值的数值数据集进行主成分分析( PCA) 。 有两种方法:相关 系数(correlation ) 或协方差 。 这确定是 用相关系数矩阵还是 用协方差矩阵将 作 为该分析的基础 。默认为相关 系数 ,这是遗传数据的一个合理的选择 。 通过选择以下任何一个,可以控制输出数据集中 PCA 轴的数目:与每个轴有关的最小的特征值,由一个轴捕获的方差的最小百分率,或者轴的数目。 产生的轴将按照每个捕获的方差的大小排序
41、。 22 3.4 Synonymizer(举出分类单元名称的同义词) 这个按钮使分类单元名称统一,以便 可以进行 数据集的合并。 合并功能产生合并的数据集,它是通过匹配分类单元名称 来进行 的 。 因而,如果一个给定的分类单元存在多个名称(一个添加的后缀、另一种拼写、不同的命名规则、等等)那么两个数据集 就不能 被正确地合并 。 为了帮助补救这个问题, Synonymizer 功能允许用一个数据集的分类单元名称来替换第二个数据集中相似的分类单元名称 。 它依赖于一个算法来计算名称之间的相似度,利用来自第一个数据集、而与第二个数据集最相似的名称。 使用 Synonymizer 时要记住,选择的次
42、序对结果有影响 。 总是首先选择具有你想要使用的名称(“real ”名称)的数据集,然后,在按住 CTRL 键的同时 ,单击你想要改变其分类单元名称 ( “synonym ” )的第二个数据集 。然后单击 Synonymizer 按钮。一个同义词数据集将被放在数据树面板上,在 Synonyms(同义词)下 。 数据集中第二次选择的每个名称现在被列在 TaxaSynonym 列中。紧挨着这一列的是一个 TaxaRealName 列,列出由“ real”名称数据集获得的最高得分匹配 。MatchScore 列表示两个名称之间相似性的大小(其中 0 是没有相似性,1.0 是完全相同)。 23 注意
43、! 在使用同义词之前,我们强烈地 建议 用户核对匹配得分,尤其对于那些匹配得分低的分类单元。 要那么做 ,用户选择同义词文件,然后单击“ Synonymizer”按钮 。 此时,不正确的匹配(通常是匹配得分低的那些)可以被拒绝。 首先对匹配得分列排序可以使这个过程相当容易 。 如果一些分类单元没有被正确地解释,可以手工地修改匹配。 在左边选择你想要修改的分类单元,然后从右侧选择一个替换分类单元 。 单击箭头按钮 来替换该分类单元 。 没有同义词的分类单元可以通过选择然后单击“ No Synonym”被识别 。单击 OK 来保存改动。 24 一旦确定了分类单元名称是正确匹配的,就可以使用同义词了
44、 。 选择了同义词以后,按下 CTRL 键同时单击第二个 /同义词数据集(你想要改变其名称的数据集) 。 然后再一次单击Synonymizer 按钮来把新的名称应用到数据集。 3.5 Intersect Join( 交集 合并 ) 命令 ./run_pipeline.pl -fork1 -h group1.hmp.txt -fork2 -h group2.hmp.txt -combine3 -input1 -input2 -intersect -export group1_group2_intersect.hmp.txt -runfork1 -runfork2 -runfork3 这个命令按照
45、分类单元的交集合并多个数据集 。 分类单元必须在两个要被包含的数据集中都存在。 利用 CTRL 键结合鼠标单击选择多个数据集,然后单击交集(intersection )按钮25 来合并数据集 。 因为这个功能运用分类单元名称来合并数据集,分类单元名称中的任何变异都可能 妨碍 正确的合并 。 利用“ Synonymizer”可以使分类单元名称统一。 3.6 Union Join( 并集合并 ) 命令 ./run_pipeline.pl -fork1 -h group1.hmp.txt -fork2 -h group2.hmp.txt -combine3 -input1 -input2 -inte
46、rsect -export group1_group2_union.hmp.txt -runfork1 -runfork2 -runfork3 这个命令按照分类单元的并集合并多个数据集 。 如果分类单元从一个数据集中缺失,则将插入缺失数据 。利用 CTRL 键结合鼠标单击选择多个数据集,然后单击并集(union )按钮来合 并数据集 。 因为这个功能运用分类单元名称来合并数据集,分类单元名称中的任何变异都可能妨碍 正确的合并。利用“ Synonymizer”可以使分类单元名称统一。 3.7 Merge Genotype Tables( 合并基因型表格 ) 命令 ./run_pipeline.p
47、l -fork1 -h group1.hmp.txt -fork2 -h group2.hmp.txt -combine3 -input1 -input2 -intersect -export group1_group2_merge.hmp.txt -runfork1 -runfork2 -runfork3 其他选项 (使用这些选项(即 after -Xmx5g) 进行更多的控制。) -retainRareAlleles true | false 这定义是否保留稀有等位基因。 如果为 false,超过 14 个较低频率的等位基因将被改变为未知的( Unknown) 。 如果为 true,则它们将被改变为 Z(Rare ,稀有的) 。 这个选项对 核苷酸数据不起作用 。 -exportType Hapmap | HapmapDiploid 在- export 标签之后使用这个选项 。 如果为 Hapmap,则 按照 IUPA