BLAST核酸氨基酸序列相似性比较
BLAST核酸氨基酸序列相似性⽐较
BLAST 核酸/氨基酸序列相似性⽐较
Blast (Basic Local Alignment Search Tool)是⼀套在蛋⽩质数据库或DNA数据库中进⾏相似性⽐较的分析⼯具。BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。BLA ST结果中的得分是对⼀种对相似性的统计说明。
BLAST 采⽤⼀种局部的算法获得两个序列中具有相似性的序列。如果您想进⼀步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST的功能
BLAST对⼀条或多条序列(可以是任何形式的序列)在⼀个或多个核酸或蛋⽩序列库中进⾏⽐对。BLAST还能发现具有缺⼝的能⽐对上的序列。
BLAST是基于Altschul等⼈在J.Mol.Biol上发表的⽅法(J.Mol.Biol.215:403-410(19 90)),在序列数据库中对查询序列进⾏同源性⽐对⼯作。从最初的BLAST发展到现在NC BI提供的BLAST2.0,已将有缺⼝的⽐对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋⽩序列和核算序列;也可选择多个数据库但数据库必须是同⼀类型的,即要么
都是蛋⽩数据库要么都是核酸数据库。
所查询的序列和调⽤的数据库则可以是任何形式的组合,既可以是核酸序列到蛋⽩库中作查询,也可以是蛋⽩序列到蛋⽩库中作查询,反之亦然。
BLAST包含的程序:
1、BLASTP是蛋⽩序列到蛋⽩库中的⼀种查询。库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。
2、BLASTX是核酸序列到蛋⽩库中的⼀种查询。先将核酸序列翻译成蛋⽩序列(⼀条核酸序列会被翻译成可能的六条蛋⽩),再对每⼀条作⼀对⼀的蛋⽩序列⽐对。
3、BLASTN是核酸序列到核酸库中的⼀种查询。库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。
4、TBLASTN是蛋⽩序列到核酸库中的⼀种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋⽩序列,再同所查序列作蛋⽩与蛋⽩的⽐对。
5、TBLASTX是核酸序列到核酸库中的⼀种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋⽩(每条核酸序列会产⽣6条可能的蛋⽩序列),这样每次⽐对会产⽣36种⽐对阵列。
通常根据查询序列的类型(蛋⽩或核酸)来决定选⽤何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要⽤TBLASTX也可,但记住此时不考虑缺⼝。
BLAST适⽤于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到⽹上查询也可以(即NetBlast),但记住如果你认为⾃⼰的序列很有价值的话,还是谨慎为宜。
如何访问在线的BLAST功能服务?
您只要通过浏览器访问Blast主页(www.doczj/doc/6493a341ad02de80d4d840ef.html /) 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上⼀样⽅便和快捷。
BLAST 采⽤⼀种局部的算法获得两个序列中具有相似性的序列。
Blast中常⽤的程序介绍:
1、BLASTP是蛋⽩序列到蛋⽩库中的⼀种查询。库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。
2、BLASTX是核酸序列到蛋⽩库中的⼀种查询。先将核酸序列翻译成蛋⽩序列(⼀条核酸序列会被翻译成可能的六条蛋⽩),再对每⼀条作⼀对⼀的蛋⽩序列⽐对。
3、BLASTN是核酸序列到核酸库中的⼀种查询。库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。
4、TBLASTN是蛋⽩序列到核酸库中的⼀种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋⽩序列,再同所查序列作蛋⽩与蛋⽩的⽐对。
5、TBLASTX是核酸序列到核酸库中的⼀种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋⽩(每条核酸序列会产⽣6条可能的蛋⽩序列),这样每次⽐对会产⽣36种⽐对阵列。
NCBI的在线blast:www.doczj/doc/6493a341ad02de80d4d840ef.html /i
1,进⼊在线blast界⾯,可以选择blast特定的物种(如⼈,⼩⿏,⽔稻等),也可以选择blast所有的核酸或蛋⽩序列。不同的blast程序上⾯已经有了介绍。这⾥以常⽤的核酸库作为例⼦。
2,粘贴fasta格式的序列。选择⼀个要⽐对的数据库。关于数据库的说明请看NCBI在
3,blast参数的设置。注意显⽰的最⼤的结果数跟E值,E值是⽐较重要的。筛选的标准。最后会说明⼀下。
4,注意⼀下你输⼊的序列长度。注意⼀下⽐对的数据库的说明。
5,blast结果的图形显⽰。没啥好说的。
6,blast结果的描述区域。注意分值与E值。分值越⼤越靠前了,E值越⼩也是这样。
7,blast结果的详细⽐对结果。注意⽐对到的序列长度。评价⼀个blast结果的标准主要有三项,E值(Expect),⼀致性(Identities),缺失或插⼊(Gaps)。加上长度的话,就有四个标准了。如图中显⽰,⽐对到的序列长度为1405,看Identities这⼀值,才匹配到1344bp,⽽输⼊的序列长度也是为1344bp(看上⾯的图),就说明⽐对到的序列要长⼀点。由Qurey(起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了⼀段的。有时也要注意3'端的。
附:
E值(Expect):表⽰随机匹配的可能性,E值越⼤,随机匹配的可能性也越⼤。E值接近零或为零时,具本上就是完全匹配了。
⼀致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。
缺失或插⼊(Gaps):插⼊或缺失。⽤"—"来表⽰。
BlastN/MegaBlast/Discontiguous MegaBlast 的区别:
三者之间的共同之处就是BlastN/Megablast/Discontiguous megablast 都是BlastN,就是核酸序列⽐对核酸序列的算法。
简单⽽⾔
BlastN : 应该是出现较早的算法。⽐对的速度慢,但允许更短序列的⽐对(如短到7个碱基的序列)。
MEGABLAST : 主要⽤来鉴定⼀段新的核酸序列,它并不注重⽐对各个碱基的不同和序列⽚断的同源性,⽽只注重被⽐对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快。同⼀物种间的。
Discontiguous MEGABLAST : 灵敏度(sensitivity)更⾼,⽤于更精确的⽐对。主要⽤于跨物种之间的同源⽐对。
详细解释
1,MEGABLAST 常被⽤于鉴定核酸序列
MEGABLAST is the tool of choice to identify a nucleotide sequence.
MegaBLAST也是⼀种BLASTN程序,不过它主要是⽤来在⾮常相似的序列之间(来⾃同⼀物种)⽐对同源性的。
鉴定某⼀段核酸序列是否存在于数据库,最好的⽅法是选择MEGABLAST。如果⽐对到的序列在数据库中注释完整的话,那该序列丰富的注释可以当作新序列的参考。当然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成这种事情。但MEGABLA ST就是特别设计⽤于⾮常相似序列之间的⽐对,可⽤于寻查询序列的最佳匹配的序列。
2,Discontiguous MEGABLAST 更好地⽤于查不同物种的相似的核酸序列,⽽不是与查询序列相同(identical)物种的。Discontiguous MEGABLAST is better at finding nucleotide sequences similar, but not identical, to your nucleotide query. Discontiguous MEGABLAST,⽤于跨物种核酸序列快速⽐
对。它使⽤⾮重叠字段匹配算法(noncontiguous word match)
来进⾏核酸⽐对。Discontiguous MegaBLAST⽐b lastx等翻译后⽐对要快得多,同时它在⽐较编码区时也具有相当⾼的敏感度。
但是需要指出的是,核酸与核酸之间的⽐对并不是发现同源蛋⽩编码区域的最佳⽅法,直接在蛋⽩⽔平⽤Blastp⽐对更好。这是因为密码⼦的简并性。(Lc.注:翻译得有些拗⼝,多多见谅!)
Discontiguous MEGABLAST详细介绍:www.doczj/doc/6493a341ad02de80d4d840ef.html /blast/discontiguous.ht ml
原⽂:www.doczj/doc/6493a341ad02de80d4d840ef.html /blast/producttable.shtml#tab31
本⽂详细出处参考:www.doczj/doc/6493a341ad02de80d4d840ef.html /1009/#more-1009
1,Blastp: 标准的蛋⽩序列与蛋⽩序列之间的⽐对
Standard protein BLAST is designed for protein searches.
Blastp⽤于确定查询的氨基酸序列在蛋⽩数据库中到相似的序列。跟其它的Blast程序⼀样,⽬的是要到相似的区域。2,PSI-BLAST : 敏感度更⾼的蛋⽩序列与蛋⽩序列之间的⽐对
PSI-BLAST is designed for more sensitive protein-protein similarity searches.
Position-Specific Iterated (PSI)-BLAST,是⼀种更加⾼灵敏的Blastp程序,对于发现远亲物种的相似蛋⽩或某个蛋⽩家族的新成员⾮常有效。当你使⽤标准的Blastp⽐对失败时,或⽐对的结果仅仅是⼀些假基因或推测的基因序列时("hypothetical protein" o r ""),你可以选择PSI-BLAST重新试试。
3,PHI-BLAST : 模式发现迭代BLAST
PHI-BLAST can do a restricted protein pattern search.
PHI-BLAST, 模式发现迭代BLAST, ⽤蛋⽩查询来搜索蛋⽩数据库的⼀个程序。仅仅出那些查询序列中含有的特殊模式的对齐。
PHI的语法详细介绍看这⾥:www.doczj/doc/6493a341ad02de80d4d840ef.html /blast/html/PHIsyntax.html Peptide Sequence Databases蛋⽩序列的数据库
nr
All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissP rot + PIR + PRF
所有⾮冗余的的GenBank CDS区的翻译序列+ 参考序列的蛋⽩+ PDB数据库 + S wissProt蛋⽩数据库+ PRF蛋⽩数据库refseq
RefSeq protein sequences from NCBI's Reference Sequence Project.
所有NCBI的参考序列
swissprot
Last major release of the SWISS-PROT protein sequence database (no updates). swissprot的蛋⽩数据库
pat
Proteins from the Patent division of GenPept.
专利的蛋⽩数据库
手机查核酸报告查询pdb
Sequences derived from the 3-dimensional structure from Brookhaven Protein Da ta Bank.
PDB数据库

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。