1、一、 生物信息学数据库或者软件1. GenBank网址: http:/www.ncbi.nlm.nih.gov/pubmed/18073190/简介:GenBank (R) is a comprehensive database that contains publicly available nucleotide sequences for more than 260 000 named organisms, obtained primarily through submissions from individual laboratories and batch submissions fr
2、om large-scale sequencing projects. Most submissions are made using the web-based BankIt or standalone Sequin programs and accession numbers are assigned by GenBank staff upon receipt. Daily data exchange with the European Molecular Biology Laboratory Nucleotide Sequence Database in Europe and the D
3、NA Data Bank of Japan ensures worldwide coverage. GenBank is accessible through NCBIs retrieval system, Entrez, which integrates data from the major DNA and protein sequence databases along with taxonomy, genome, mapping, protein structure and domain information, and the biomedical journal literatur
4、e via PubMed. BLAST provides sequence similarity searches of GenBank and other sequence databases. Complete bimonthly releases and daily updates of the GenBank database are available by FTP. (GenBank(R)是一个综合性的公开可用的核苷酸序列数据库包含超过 260 000 名生物,主要是不同的实验室和一批大规模测序项目提交的。大多数的意见是分析人员在收到使用基于 Web 的Banklt 或独立的 Se
5、quin 程序加入编号的。与欧洲分子生物学实验室的核苷酸序列数据库在欧洲和日本 DNA 数据银行保证全球覆盖日常数据交换。可通过NCBI 的 GenBank 检索系统, Entrez,它整合了主要的 DNA 和蛋白质序列数据库以及分类,基因组,映射数据,蛋白质结构域的信息,并通过 PubMed 生物医学文献。BLAST 提供的 GenBank 序列数据库的序列相似性搜索及其他。完成并发布和 GenBank 数据库的日常更新可用 FTP)数据库网页截屏1. SWISS-PROT网址: ftp:/ftp.ebi.ac.uk/pub/databases/sp_tr_nrdb/简介:The Swiss
6、-Prot is the best annotated protein database and as such an absolute requirement in the toolbox of any protein chemist. The database is maintained by SIB and EBI and details can be found at the Expasy web site.( SWISS-PROT 是最好的带注释的蛋白质数据库,是任何蛋白质化学家的工具箱的一个绝对的要求。该数据库维护的 SIB 和 EBI 还有细节保持可以在网站上找到)数据库网页截屏
7、2. PROSITE网址:http:/prosite.expasy.org/prosite_details.html简介:PROSITE is a database of protein families and domains. It is based on the observation that, while there is a huge number of different proteins, most of them can be grouped, on the basis of similarities in their sequences, into a limited nu
8、mber of families. Proteins or protein domains belonging to a particular family generally share functional attributes and are derived from a common ancestor.It is apparent, when studying protein sequence families, that some regions have been better conserved than others during evolution. These region
9、s are generally important for the function of a protein and/or for the maintenance of its three- dimensional structure. By analyzing the constant and variable properties of such groups of similar sequences, it is possible to derive a signature for a protein family or domain, which distinguishes its
10、members from all other unrelated proteins. A pertinent analogy is the use of fingerprints by the police for identification purposes. A fingerprint is generally sufficient to identify a given individual. Similarly, a protein signature can be used to assign a newly sequenced protein to a specific fami
11、ly of proteins and thus to formulate hypotheses about its function.PROSITE currently contains patterns and profiles specific for more than a thousand protein families or domains. Each of these signatures comes with documentation providing background information on the structure and function of these
12、 proteins.(PROSITE 是一个蛋白质家族和结构域数据库。它是基于观察他们的序列相似性为基础,虽然有许多不同的蛋白质,其中大部分可以分有限的家庭。蛋白质或蛋白质结构域属于一个特定的家庭,分享相似的功能属性和来自一个共同的祖先。很明显,在研究蛋白质序列家族,一些地区已经在进化过程中保守的比别人更好。这些地区一般都是重要的用于三维结构维护蛋白质或功能。通过不断的相似序列组的属性和变量,它有可能使其成员从所有其他不相关的蛋白质得出一个蛋白质家族或域的签名。一个恰当的比喻被用于识别目的,警察用指纹。指纹一般是足以识别某一个人。同样,一个蛋白质的签名可用于分配一个新测序的蛋白质的特定的蛋白质
13、家族,从而制定其功能假设。PROSITE 目前包含模式和超过一千的蛋白质家族或域特定的配置文件。这些签名与文档提供对这些蛋白的结构和功能的背景信息。)数据库网页截屏3. PDB网址:http:/www.rcsb.org/pdb/home/home.do#Category-welcome简介:The Protein Data Bank (PDB) archive is the single worldwide repository of information about the 3D structures of large biological molecules, including pro
14、teins and nucleic acids. These are the molecules of life that are found in all organisms including bacteria, yeast, plants, flies, other animals, and humans. Understanding the shape of a molecule deduce a structures role in human health and disease, and in drug development. The structures in the arc
15、hive range from tiny proteins and bits of DNA to complex molecular machines like the ribosome.The PDB archive is available at no cost to users. The PDB archive is updated each week at the target time of Wednesday 00:00 UTC (Coordinated Universal Time).The PDB was established in 1971 at Brookhaven Na
16、tional Laboratory under the leadership of Walter Hamilton and originally contained 7 structures. After Hamiltons untimely death, Tom Koetzle began to lead the PDB in 1973, and then Joel Sussman in 1994. In 1998, the Research Collaboratory for Structural Bioinformatics (RCSB) became responsible for t
17、he management of the PDB. In 2003, the wwPDB was formed to maintain a single PDB archive ofmacromolecu-lar structural data that is freely and publicly available to the global community. It consists of organizations that act as deposition, data processing and distribution centers for PDB data.In addi
18、tion, the RCSB PDB supports a website where visitors can perform simple and complex queries on the data, analyze, and visualize the results. Details about the history, function, progress, and future goals of the RCSB PDB can be found in our Annual Reports and Newsletters.The PDB Advisory Notice defi
19、nes the conditions for using data from the PDB archive. Our Policies 2) 表现相似的一组 OU T ; 3)不同的距离测量法怎样相关联。方法从程序分析中可得到如下具体信息:是否不同的许多物种(或不同的各组物种) 表现出特异的变异特性;是否一组物种 ,当用一对距离测量法计算时表现出的特有的性质,当再用不同的距离测量法时也一样保持这样的性质;是否一种特定的距离测量法对衍算出的某一进化树是合适的;是否进化树的时间钟在树中都一致; 是否从不同的数据衍算或用不同的算法得出进化树有所不同。主要步骤为:1) 用不同的距离测量方法产生的距离
20、矩阵(两个级以上 ) ,并将它们依次保存在一个 3 . DIP 文件中;2) File/ Open DIP file 把已保存于电脑中的 DIP 文件调出,点 OK 后,出现一个 Plot Data 的对话框要求输入两项:即 X 轴和 Y 轴各自代表的距离矩阵计算方法,然后画出这两个距离矩阵的打点图。对于分子序列距离矩阵的算法有达 16 种供选择,如 J uke 3) 看图,对图中比较感兴趣的特征用颜色或符号标记,将对应的物种作标记并作一些统计分析;4) 用不同的距离矩阵方法重复 23 步。下载网址:www. life. anu. edu. au6 MAPMAKERMAPMAKER 是一种构建
21、遗传图谱的软件。用途及方法利用分子标记构建遗传图谱的基本步骤是:1) 选择适合作图的分子标记;2) 选择用于建立作图群体的亲本组合;3) 建立具有大量 DNA 标记处于分离状态的分离群体;4) 测定作图群体中不同个体的标记基因型;5) 对标记基因型数据进行连锁分析,构建标记连锁图;最后再定位到染色体上 13 。尤其是第五部分对标记进行连锁分析时,需要统计分析大量的分子标记之间的连锁关系,涉及到 RFL P ,AFL P ,RAPD ,微卫星,SNP 等各种标记。随着标记数目的增加,计算工作量呈指数级递增,指望用手工计算是不可想象的,必须借助计算机软件。目前开发出来的比较著名应用广泛的软件有洛克
22、菲勒大学的 Linkage 与 Genhunter (www. rockefeller. edu/ software) 14 以及麻省理工学院( MIT ) 的 Mapmaker ( http :/ /ftp2genome. wi. mit . edu/ dist ribution/ software/ map2maker3) 。前两种需要在 SUN , Unix 或 Lynix ,Macintosh 下运行, 而 Mapmaker 除了这些系统外,还支持 DOS 操作系统。首先用 Prepare data 命令加载数据文件,然后 Mapmaker 将用两点连锁分析法初步寻找连锁群。先用 Se
23、quence 命令输入欲分析的标记座位;接着键入 Group 命令指导程序将 Sequence 中的标记分为不同的连锁群,要决定任何两个标记是否连锁,Map2maker 计算任两个标记之间的最大似然距离及相应的 LOD 值(LOD 值为两个似然函数之比的对数值,LOD = lg L ( r) / L (0. 5) ,其中 r 为重组率) ,若 LOD 值大于默认的阈值 3. 0 则程序认为这两个标记是连锁的。为了找出连锁群,如果程序计算发现标记 A 与标记 B 连锁,而标记 B 又与标记 C 连锁,那么 A ,B ,C 三个标记将被包括在一个相同的连锁群中。接下来,程序在一个连锁群内部决定最有
24、可能的标记排列次序。先给一个连锁群中标记所有的每一个可能的次序计算最大似然图谱,以及得出每一相应图谱的可能性。然后比较这些图谱的可能性,选出最有可能的标记排列次序。这称为穷尽分析, 可用Compare 命令来做。穷尽分析(运算量为 N ! / 2) 对大连锁群(标记数 N 为 610 之间时) 是不可行的,需要先在连锁群内随机挑出小于限制数目的标记组成一个标记子集再作分析。Mapmaker 在整个遗传图谱的构建过程中大约需要执行 90 多步,限于篇幅本文不再深入详述。下载网址:www. rockefeller. edu/ software7. PIR 数据库网址:http:/pir.ge or
25、getown.edu/简介:The Protein Information Resource (PIR) is an integrated public bioinformatics resource to support genomic, proteomic and systems biology research and scientific studies(Wu et al.2003)蛋白质信息资源(PIR)是一个集成的公共生物信息学资源来支持基因组学,蛋白质组学和系统生物学研究和科学研究(Wu 等人。2003)网页截图:8.BioEdit 软件用途:BioEdit 是一个序列编辑器与分
26、析工具软件。功能包括:序列编辑、外挂分析程序、RNA 分析、寻找特征序列、支持超过 20000 个序列的多序列文件、基本序列处理功能、质粒图绘制等等。BioEdit 是一个功能齐全的免费分子生物学应用软件,可以完成核苷酸序列和蛋白质序列进行所有常规的分析操作,如:序列比对、序列检索、引物设计、系统发育分析等。与 DNAMAN 相比,其分析内容相对更丰富一些,而且提供了很多网络程序的分析界面和接口.软件用法:首先要把所有的序列复制到 windows 自带的记事本中,全部以 fasta 格式存到同一个文件中,保存成*.txt,序列内部最好不要有空格或者换行。序列格式举例如下:“序列 1 ATCGATCG 序列 2 ATCGATCG序列 3 ATCGATCG 序列 4 ATCGATCG”然后用 Bioedit 打开刚才保存的文件*.txt,点击窗口上方的 Accessory application 菜单,再点击 clustelW multiple alignment,这时候会弹出一个窗口,直接选择 Run clustalW,又弹出一个窗口,选择 ok,等待结果就行了。最后的比对结果可以保存成*.fas 格式,适用于各种分析下载网址:ftp:/iubio.bio.indiana.edu/molbio/seqpup/