核酸\蛋白序列比对分析
生物技术 02级 021402198 曾彪
摘要 生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。
关键词 核酸/蛋白质序列分析 生物信息数据与查询 序列比较 DNA芯片 质谱 隐马尔可夫模型
正文 人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。
大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的
目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP手机查核酸报告查询等等。
要在如此庞大的数据库中到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA和BLITZ 。
面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信
息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。
核酸序列分析
核酸序列的基本分析
1.测定分子质量、碱基组成、碱基分布等基本数值;
2.序列变换:反向序列、互补序列、互补反向序列;
3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及参考文献。
4.克隆测序的分析:测序峰图的查看、核酸序列中载体的识别和去除、其他人工序列的分析和去除
核酸序列的电子延伸---GenBank的UniGene数据库、意大利Tigem的EST Machine、EMBL
的EST Cluster Project等
基因的电子表达谱分析---将待分析序列与EST数据库进行序列对库的检索,用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,进而得到该基因的组织表达谱。SAGE数据库、UniGene、Tigem等。
核酸序列的电子基因定位分析---染体定位。
– 通过序列标签STS数据库定位
– 利用UniGene/RH放射性杂交定位
– 直接利用基因组序列定位
cDNA对应的基因组序列分析---EST和cDNA的基因组序列查询了解该基因的基因组结构:外显子/内含子结构、转录调控区。
基于核酸序列对齐分析的功能预测
– 利用数据库的核酸序列的同源性分析
– 两条核酸序列之间的同源性分析
– 核酸序列之间的多重比对分析及进化分析
可读框架分析
1)cDNA序列的可读框架分析
2)基因组序列中的编码区/内含子结构分析
3)cDNA序列与基因组序列的对齐及显示,Sim4程序。
5)基因启动子及其他调控位点分析---启动子、增强子、转录因子结合位点、内含子与外显子。
6)重复序列分析
7)引物设计
蛋白质序列分析
1.蛋白质序列检索
2.蛋白质基本性质分析
1) 氨基酸组分、分子质量、等电点
2) 疏水性分析
3) 跨膜区分析
4) 前导肽和蛋白质定位
5) 卷曲螺旋分析
蛋白质功能预测
6) 基于序列同源性分析的蛋白质功能预测。 Blast、Blast2、FASTA。
7) 基于模体、结构位点、结构功能域的蛋白质功能预测
蛋白质结构预测
8) 蛋白质二级结构预测
9) 蛋白质三级结构预测——与已知结构的序列比较、同源模建、threading算法和折叠识别
DNA 芯片技术与脱氧核糖核酸序列分析
在分子生物学的许多研究领域,都需要对DNA分子进行序列分析,阐明DNA 分子的一级结构是进一步认识其功能的基础。因此,分析测定DNA 序列的能力在很大程度上决定着人们获取遗传信息、认识生命奥秘的能力。人类基因组计划的根本目标是分析人类基因组DNA 的全部核苷酸顺序,这项计划的实施极大地促进了DNA序列分析技术的发展,各种新的高速测序技术不断出现。在这些新的DNA序列分析技术中,DNA 芯片(DNA chip) :技术以其新颖的构思和诱人的应用前景而受到人们的广泛关注,它综合应用了生物学、化学以及工程技术科学等学科的众多相关技术,在微型芯片上合成了高密度的寡核苷酸探针阵列,将探针阵列与待分析DNA 序列同步杂交,用高分辨率的检测装置进行扫描检测,再结台计算机系统分析处理,可以快速获取所需的遗传信息 这是一种全新的DNA序列分析技术,与传统测序技术相比,它的突出优点是整个检测过程快速高效。由于探针阵列具有高度的序列
多样性,它可以同时对大量基因、乃至整个基因组进行扫描分析,从而能够使人们从一个更高的层次来全面研究基因的功能,分析不同基因之间的生物相关性 这些是传统的序列分析技术所无法企及的。随着这项技术的广泛应用,将会给分子生物学的发展带来深远的影响,特别是将在以研究基因定位和基因功能为主的后基因组计划中发挥越来越太的作用。
DNA 芯片是生物芯片的一种,也称为微阵列(Microarray),是指由大量探针按一定的顺序排列在固相载体表面而形成的探针阵列,目前DNA 芯片主要包括eDNA 芯片和寡核苷酸芯片。探针阵列的合成目前主要有两种方式:(1)离片合成法(Off-Chip Synthesis);(2)在片/原位合成法(On—Chip/in situ Synthesis)。DNA 芯片是通过核酸杂交原理来进行序列分析的,将标过的未知序列与芯片上的探针阵列进行杂交,严格控制反应条件,如靶序列浓度、杂交温度及缓冲溶液浓度等,那么与靶序列完全互补的探针显示比较强的杂交信号,利用高分辨率的检测装置检测出完全互补的探针,经过计算机系统分析处理,即可确定待测序列。
DNA 芯片可广泛应用于涉及DNA 序列分析的众多研究领域。目前DNA芯片技术主要应用于比较分析特定基因的遗传多样性,检测多态性位点用于基因定位,检测突变位点诊断遗
传病,监测基因的表达水平,DNA 测序以及进行其它的序列比较等方面的研究。1 检测多态性/突变位点利用DNA芯片技术,可以同时检测众多基因乃至整个基因组的多态性/突变位点。在用寡核苷酸芯片扫描分析特定基因时,针对不同的检测目的,可以设计台成出不同形式的探针阵列,将待分析序列与这四个探针同时杂交,严格控制杂交条件,那么完全互补探针的杂交信号最强,从而可以确定位点;2 DNA 测序SBH(Sequencing by Hybridizati0n)法是近年来提出的一种新的DNA 测序方法,它用一系列较短的已知序列的寡核苷酸探针,与较长的待分析序列杂交,寻其互补序列,根据杂交结果分析待测DNA 序列。
人类基因组计划的实施,对现代分析科学提出了严峻挑战,同时也给分析科学的发展带来了巨大的机遇,促进了分析科学与众多相关学科的渗透融合。DNA芯片技术正是在此基础上发展起来的一种全新的DNA 序列分析技术,这一技术已在分子生物学的许多研究领域显示了巨大的潜力和诱人的应用前景。目前DNA 芯片技术的研究与应用正处在一个迅猛发展、日趋完善阶段,在不断拓展其新的应用领域的同时,还需要进一步提高探针阵列的合成密度以及检测系统的分辨率与灵敏度,更重要的是要使这项技术逐步实现常规化与自动化。随着这一技术的逐步完善与广泛应用,将会在二十一世纪的分子生物学中发挥更大的
作用。
质谱及隐马尔可夫模型在肽和蛋白质序列分析中的应用
了解肽和蛋白质的序列对理解其功能具有重要意义,测定其序列也是当前生命科学研究中的重要内容之一.质谱作为高灵敏度的测定分子结构的仪器,其高灵敏度、广泛的适用性及快速性等特性使它具有很大潜力发展成为辅助传统测序方法的新方法,并得到了广泛的关注.肽和蛋白质序列的质谱测定方法质谱用于肽和蛋白质的序列测定主要可以分为三种方法.一种方法叫蛋白图谱(protein mapping),即用特异性的酶解或化学水解的方法将蛋白切成小的片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库,搜索与之相对应的已知蛋白,从而获取待测蛋白序列;第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基.其中亚
稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂;第三种方法与FAman法有相似之处,即用化学探针或酶解使蛋白或肽从N端或c端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(1adder sequencing),经质谱检测,由相邻峰的质量差知
道相应氨基酸残基.
隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域。目前,人们已经得到大量的蛋白质序列和结构数据,传统研究蛋白质的方法已经不再实用,生物学家已经转向能够处理大量数据的统计方法来进行研究。隐马尔可夫模型可以通过训练,识别同一特征的蛋白质序列。从SCOP数据库中选择了一个蛋白质族,由它得到了能够代表该族特征的隐马尔可夫模型,并用该模型对一些蛋白质序列进行分析。隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域,它的基础是计算机技术、统计学和分子生物学。HMM 可被用于蛋白质同源性的研究。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markov链,另一个是与Markov链的每一状态相关联的观察结果的随机过程。隐Markov链的特征要靠可观测到的信号揭示。编码蛋白质的原始DNA 序列,在生物的进化过程中,会受到自然环境和各种因素的影响,使翻译出的蛋白质序列经历突变,遗失,或引入外源序列等变化,最后按不同的进化路径分化,形成多种功能相近的蛋白质。因此,可以把这些蛋白质看作由一个基本蛋白质序列经过插入,删除或替换了某些氨基酸残基而形成的。这个过程可以用HMM 来表示。HMM 可以用于已知一级结构进行蛋白质的分类,
并且有较好的效果,是对其它预测和分类方法的补充。若结合各种蛋白质结构数据库,会产生更准确的预测结果。但它也存在一些缺陷,使得它用于结构分析方面有一定的不足。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论