组蛋白H1序列固有无序特性分析
组蛋白H1序列固有无序特性分析
王春玲2, 于家峰1, 王红梅2, 王吉华1,2
【摘 要】组蛋白H1对于高阶染质结构的形成和基因表达调控具有重要作用. 为了揭示组蛋白H1在染质结构形成中的生物学机制,本文对组蛋白H1三个结构域C-terminal domain (CTD)、N-terminal domain(NTD)和Globular domain (GD) 及各区域连接位点对应序列氨基酸偏好、复杂度等序列特征进行了系统对比研究,并对各区域进行了固有无序蛋白有序区/无序区预测分析. 结果表明,组蛋白H1三个结构中,中间的球状结构域(GD)中的氨基酸序列是非常保守的,NTD富含疏水氨基酸,CTD末端富含碱性氨基酸. 进一步的研究表明, CTD和NTD两个结构域普遍具有固有无序特性,因此这些区域具有较大的柔性结构,对其在染质形成中行使的重要生物学功能具有重要意义.
【期刊名称】原子与分子物理学报
【年(卷),期】2016(033)006
【总页数】5
【关键词】组蛋白H1; 固有无序蛋白; 序列分析
1 引 言
组蛋白(Histone)是真核生物染体的基本结构蛋白,富含碱性氨基酸且带正电荷,与带负电荷的 DNA 通过静电引力结合,参与染体结构的形成,是组成染质的基本单位. 细胞核中有5种主要类型的组蛋白:H1,H2A,H2B,H3和H4. 五种组蛋白在功能上分为两组:一组是核小体组蛋白(nucleosomal histone),包括H2A,H2B,H3和H4,它们的作用是将DNA分子盘绕成核小体;另一组是连接组蛋白H1,它与形成核小体的八聚体蛋白 H2A、 H2B、 H3、H4 不同,在构成核小体装配中起连接作用,结合于核小体之间的连接DNA上,锁住核小体DNA的进出口,使核小体一个挨一个,彼此靠拢,以形成更加紧密的染体结构. 在高等真核生物中,组蛋白H1有三个结构域,中间的球状结构域(Globular domain,简称GD)、N端的尾巴(N-terminal domain,简称NTD)和C端尾巴(C-terminal domain,简称CTD)[1].
组蛋白H1在真核细胞染质中起多个重要的角,包括核小体的定位[2],稳定的折叠和染质凝聚[3,4],并直接调节基因表达. 组蛋白H1定位在神经元和星形胶质细胞的细胞质中,与淀粉状纤维结构结合,与一些疾病的发生有关[5]. Thomas[6]等人研究发现,就与DNA作用
而言,CTD在染质凝聚方面比另两个区域更为重要,CTD氨基酸对 DNA 凝聚起了决定作用. Izzo[7]等对人类的组蛋H1的5种亚型进行了研究. Jeffrey[8]等人提出组蛋白H1末端结构域无序的观点.Annalisa[9]和Sean[10]分别发表综述文章,介绍了组蛋白H1家族的特异性和家族成员行动机制令人激动的新视角和组蛋白H1目前的前景和挑战. 尽管大量的文献对组蛋白H1进行了研究,但是组蛋白H1的末端结构域如何与核小体结合发挥其在核小体结构中的纽扣作用的分子机制及组蛋白H1末端结构域的柔性结构功能形成的原因还缺少系统研究. 因而,本文首先对组蛋白H1三个结构域对应的氨基酸序列进行了深入的序列特征比较分析,然后首次对组蛋白H1进行了固有无序蛋白蛋白特性分析,为今后组蛋白H1的生物学机理研究提供了可靠的理论依据.
2 材料及方法
2.1 数据集
构建数据集的组蛋白H1序列从Uniprot数据库中下载,选取其中有明确三个结构域注释信息的96条序列,按照注释分成CTD、NTD和GD三个数据集.
2.2 序列分析方法
Wootton[11]将源于香农熵的序列复杂度应用于氨基酸序列分析,为了更进一步分析组蛋白H1三个结构域的序列信息,采用序列复杂度K[12,13]来描述,其定义为:
(1)
其中,N表示氨基酸的种类数(此处为20),i表示第i种氨基酸,fi表示第i种氨基酸在研究序列中的频率. 当20种氨基酸的组成概率相同时,公式(1)中对应的序列复杂度K值最大,为4.32,表示氨基酸使用偏好性最小;而如果此序列只由一种氨基酸组成,K值为0,表明此序列的氨基酸偏好最明显. 因此,K值越大,序列中各种氨基酸组成就越接近,氨基酸的使用偏好性越不明显,因而K可以用于描述序列中氨基酸偏好程度.
ntd2.3 固有无序蛋白预测算法
固有无序是一类缺乏稳定结构而又具有重要生物功能的天然蛋白[14]. 2012年Zhou课题组发展了固有无序预测器Spine-D[15],无论是短的或长的无序区域其特异性大都在85%以上,在长无序区域中敏感性达到81%,90%以上的有序区域敏感性可达65%,具有较好的预测效率. 因此,为了分析组蛋白H1的柔性结构形成机制,本文采用Spine-D算法对组蛋白H1进行了固有无序区预测研究.
3 研究结果及讨论
3.1 组蛋白H1各结构域序列复杂度分析
首先根据公式(1)对CTD、NTD和GD三个结构域的序列复杂度进行了计算分析,结果见图1所示. 图中,横坐标表示序列复杂度K值,以0.2为步长,纵坐标表示对应K值分布区间在各个结构域所占的比例. 由图1可见,三个结构域的K值的范围是2.0<K≤4.2,三个结构域在K值的分布上有很大的差别. CTD的K值集中在2.0~3.2,NTD的K值集中在2.4~3.8,GD的K值集中在3.4~4.2 . 由此可以看出,氨基酸的使用偏好性上,CTD比NTD强,NTD比GD强.
3.2 组蛋白H1的三个结构域的氨基酸偏好性分析
为了分析组蛋白H1的三个结构域中氨基酸组成的差异,我们计算了20种氨基酸在三个结构域中的百分比,如图2所示. 当20种氨基酸的使用相同时,每种氨基酸所占百分含量应为5%,所以如果某种氨基酸的百分含量大于5%,则该数据集偏好使用这种氨基酸. 由图2可见,三个区域偏好趋势相似,但是CTD和NTD 更集中偏好几种氨基酸,以5%为下限,CTD中偏好使用
A,K,P,S,T;其中疏水氨基酸:A,P ; 亲水氨基酸:S,T;带正电的氨基酸:K. NTD中偏好使用A,E,K,P,S,T,V;其中疏水氨基酸:A,P,V;亲水氨基酸:S,T ; 带正电的氨基酸:K ;带负电的氨基酸:E. GD中偏好使用A,G,K,L,P,S,T,V;其中疏水氨基酸:A,L,P,V ;亲水氨基酸:G,S,T ;带正电的氨基酸:K . 并且在CTD和NTD中A,K,P三种氨基酸的含量很高,而芳香族氨基酸(F,W,Y)的含量都极低.
通过对组蛋白H1序列氨基酸偏好分析可知,组蛋白H1的中间球状结构域(GD)中的氨基酸序列是非常保守的,与已有研究中有序氨基酸使用偏好一致[16],因而GD具有稳定的结构特性. 相比之下,两个末端结构域,NTD富含疏水氨基酸,CTD末端富含碱性氨基酸,赖氨酸(K)、丝氨酸(S)、脯氨酸(P)和丙氨酸(A)的含量非常丰富,与固有蛋白无序区氨基酸使用偏好相似[16],从而使组蛋白H1的两个末端结构域具有较大的柔性,有利于与DNA分子结合,锁住核小体DNA的进出口,行使纽扣的作用,稳定核小体结构,促进染质的凝集.
3.3 组蛋白H1固有无序蛋白特征分析
图1和图2的结果表明组蛋白H1各区域具有不同的氨基酸使用特征,两端NTD和CTD展现出一定的结构无序特征. 因而,接下来运用Spine-D算法进一步对96条组蛋白H1序列进行了有
序区/无序区预测,结果如图3所示. 图3中,预测值大于0.5的认为趋于无序分布,小于0.5趋于有序分布. 由图3可见,组蛋白H1序列中部区域出现明显的低谷区域,这个低谷在序列上位于组蛋白H1的中间球状结构域,而组蛋白H1两端的CTD和NTD的预测值都大于0.5,都包含在Spine-D预测无序区内,表明组蛋白H1两端具有明显的结构无序区. 表1中给出人的组蛋白H1的亚型的Spine-D的具体预测结果,由表中可以看出,CTD和NTD都在预测的无序区范围内,展现出明显的无序结构特性.
3.4 三个结构域连接处氨基酸偏好分析
由以上分析可以看出组蛋白H1的三个结构域中NTD和CTD趋于无序分布,而GD趋于有序分布,所以为了进一步对其序列信息进行挖掘,
在每条蛋白质序列的三个结构域的连接处两侧截取数目为n的氨基酸残基,n分别选取3、4、5和6个氨基酸残基,NTD和GD的连接处记为NG-n,GD和CTD的连接处记为GC-n. 计算20种氨基酸在两个连接处的百分含量,为了更直观地衡量哪些氨基酸倾向于连接区域,用Pi-0.05表示.i代表20种氨基酸的第i种氨基酸, Pi表示第i种氨基酸的频率. 当值大于0时,说明该连接处偏好使用该氨基酸. 由图4可以看出,NTD和GD的连接处偏好氨基酸A、K、P、R、S
、T,更多的偏好A、K、P;GD和CTD的连接处偏好氨基酸A、F、K、L、S,更多的偏好A、K、L.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。