丁 宇,王马寅,唐敏强,等.高温胁迫下2个棉花品种转录组可变剪切差异分析[J].江苏农业科学,2023,51(5):1-11.
doi:10.15889/j.issn.1002-1302.2023.05.001
高温胁迫下2个棉花品种转录组可变剪切差异分析
丁 宇,王马寅,唐敏强,李子阳,谢尚潜
(海南大学,海南海口570228)
摘要:棉花(GossypiumhirsutumL.)是一种重要的经济作物,是世界上第二大的天然纺织纤维来源和重要的食用油来源。棉花对生物和非生物胁迫高度敏感,尤其是高温胁迫极易影响花粉的活力和花药的开裂。为了解析棉花在高温胁迫下基因转录水平的相应变化机制,开展了热敏和耐热2个棉花品种的全长转录组响应高温胁迫处理变化的研究。通过转录本的可变剪切分析发现,2个棉花品种在高温胁迫下可变剪切的总数显著增加。热敏品种Che61-72中发现了2900个差异表达基因,并且差异基因在加热前样本(R0)和加热12h后的样本(R12)中分别识别到了13251个和25296个可变剪切事件,其中内含子保留事件增加得最多,有3837个。耐热品种新陆早36号中发现了2437个差异表达基因,在加热前样本(T0)和加热12h后的样本(T12)中鉴定到了11
248个和13769个可变剪切事件,外显子跳跃事件变化得最大,增加了4144个。富集分析发现,2个品种的差异基因都显著富集到了光系统Ⅰ的光捕获、叶绿体类囊体膜和光合作用-天线蛋白通路中,并筛选出5个关键基因(CPB3、A0A1U8IZF2、A0A1U8KCA2、A0A1U8NDW4和A0A1U8NI70),均被注释为叶绿素a/b结合蛋白,它们参与了调控棉花光合作用动态平衡。本研究为棉花在高温胁迫的调节机制的深入研究提供了理论依据,为后续耐高温的种质改良及新品种培育提供了数据支持。 关键词:棉花;高温胁迫;全长转录组;纳米孔测序;可变剪切
中图分类号:S562.01 文献标志码:A 文章编号:1002-1302(2023)05-0001-10
收稿日期:2022-05-17
基金项目:国家自然科学基金(编号:32060149、31760316);海南省自然科学基金(编号:320RC500、321RC469)。
作者简介:丁 宇(1996—),女,海南海口人,硕士研究生,主要从事转录组、基因组等生物信息学研究。E-mail:woshidingyuya@163.com。
通信作者:谢尚潜,博士,教授,主要从事生物信息学和基于三代测序的基因组学和转录组学研究。E-
mail:sqianxie@foxmail.com。 棉花(GossypiumhirsutumL.)是一种重要的经济作物,是世界上第二大的天然纺织纤维来源和重
要的食用油来源[1]。近年来,由于温室效应,地表温度升高对植物生长产生不同程度的影响[2]。棉
花在高温胁迫下花粉活力会受严重影响并导致花
药的开裂[3-4]
。因此,从不同水平了解棉花抗高温
胁迫分子机理,选育耐高温棉花材料是十分必要的。
随着测序技术的发展以及基因组研究的兴起,棉花抗高温胁迫已经开展了相关的研究。已有研究表明,棉花的酶活性、萌发、生长、根系发育、营养
发育和开花最适温度在25~31℃[5]
,高温环境通
过减弱棉花光合作用和新陈代谢,引起授粉能力减
弱[6]
,影响棉花花朵的定型、生产率和所产生的纤维的质量[7]。Liang等通过纳米孔测序转录组分析
新疆棉花事件是怎么回事了棉花的抗热胁迫机制,揭示了富集在核糖体、激素信号转导以及内质网蛋白质加工途径的差异表达基因、叶绿体a/b结合蛋白基因和lncRNAs对棉
花耐热机制的调节作用[8]
。Reddy等研究发现,在
20~30℃的最适温度下,棉花生物产量增加,超过
最适温度则导致产量严重下降[9]
。高于最适温度会抑制棉花光合作用[7-10],同时伴随着碳水化合物
的进一步消耗和呼吸作用的增强[
11]
。Barua等发现,热休克蛋白与棉花等作物的光合作用能力密切
相关[12]
。Min等发现,在高温敏感品系种,棉花花
药在高温诱导下GhCKI高度表达,该基因可能在高
温胁迫中有重要作用[13]。Wang等研究发现,
miRNAs通过调节与生长稳态、活性氧、叶绿体功能、植物-病原菌相互作用和植物激素信号转导途
径相关的基因来发挥作用[
14]
。Ma等揭示了lncRNA对高温下棉花雄性生殖的作用,并发现了
GhHRK1基因在高温胁迫反应中的负调控作用[15]
。
这些研究结果为理解棉花抗高温胁迫的基因水平的调控机制提供了支持,但高温胁迫条件下关键调控基因转录本水平的调控解析仍有待进一步研究。
目前,三代测序技术已经被广泛运用于植物的全长转录本研究,主要包括鉴定复杂的可变剪切事
件、全长转录变异体、融合转录本和选择性多聚腺苷事件。可变剪切事件的发生是调控基因表达的一种重要调控机制,也是促进转录组和蛋白质组多样性的动力[16]。三代测序相较于二代测序在序列长度、转录本识别方面的优势,更有助于识别复杂的剪接异构体,研究植物响应各种胁迫的基因调控机制[17]。前人利用三代测序技术已经在高粱(Sorghumbicolor)[18]、玉米(Zeamays)[19]、异源多倍体棉花(allopolyploidcotton)[20]和花竹(Phyllostachysedulis)[21]中分别鉴定到可观的可变剪切事件。多倍体棉花中与耐热机制相关的可变剪切事件仍有待进一步研究。
本研究基于纳米孔测序的全长转录组数据,分析了热敏(Che61-72)和耐热(新陆早36号)2个品种的棉花在热刺激处理前后的可变剪切差异,发现高温胁迫增加了可变剪切事件,并进一步分析
了在高温胁迫中差异表达基因的功能,以及可变剪切事件的解析。本研究为棉花高温胁迫的调节机制的深入研究提供了理论依据,为后续耐高温的种质改良及新品种培育提供了数据支持。
1 材料与方法
1.1 数据收集与处理
收集来自NCBI的2个棉花品种(热敏品种Che61-72和耐热品种新陆早36号)的纳米孔测序数据,此数据由石河子大学在2021年3月4日上传发布,登录号为PRJNA706603。测序样品使用光照培养箱(温度为40℃)进行热应激处理,在处理0h和12h后测序。使用pipeline-nanopore-ref-isoforms程序(https://github.com/nanoporetech/pipeline-nanopore-ref-isoforms)对纳米孔测序全长转录组数据进行处理,再用minimap2v2.24软件将测序数据比对到棉花的参考基因组(https://www.ncbi.nlm.nih.gov/genome/?term=Gossypium+hirsutum)[22],参数设置为-axsplice,-secondary=no-C5。
1.2 注释与可变事件的鉴定
将cDNA_Cupcake(https://github.com/Magdoll/cDNA_Cupcake)的collapse_isoforms_by_sam.py脚本用于比对数据去除冗余的转录本和合并同种转录本,使用SQANTI3v4.3软件[23]对处理后的转录本数据结果与基因组注释进行比较分析。可变剪切事件通过SUPPAv2.3软件[24]使用默认参数进行识别鉴定,SUPPA可以从注释生成转录事件和局部选择性剪切事件,把可变剪切事件分为以下7种类型:外显子跳跃(SE),外显子互斥(MX),5′端选择性剪切(A5),3′端选择性剪切(A3),内含子保留(RI),替代第1个外显子(AF),替代最后1个外显子(AL)。
1.3 基因表达水平的量化和差异表达分析
通过Salmon定量软件[25]将全长reads比对到参考基因组上,并对匹配质量大于5的reads进行量化。通过每百万计数(CPM)估计基因表达水平(CPM=映射到转录本的reads/样本中对齐的总reads×106)。使用DESeq2R包[26]对2个棉花品种不同时间点的样品进行差异表达分析。在该分析中,由DESeq2确定的P<0.01、|foldchange|≥2被认为是差异表达基因(DEG)。
1.4 差异表达基因的功能富集分析
使用eggNOGv2.0.0软件[27]进行差异基因注释,从差异基因的GO数据库中获得注释
背景信息。利用R的clusterProfilerR包[28]对差异基因进行GO富集分析,P值小于0.05的GO条目被认为是差异表达基因显著富集。进一步使用KOBASv3.0[29]分析KEGG通路中DEGs的富集情况(α=0.05)。
2 结果与分析
2.1 数据统计分析
本研究从NCBI公共数据库中选取了棉花的耐热品种(新陆早36号)和热敏品种(Che61-72)的纳米孔测序的转录组样本进行分析,其中热敏品种Che61-72对照组(加热前样本,R0)和试验组(加热12h后样本,R12)总的reads分别为19301677和21456617,总碱基数为15.6G和19.4G,GC含量为43.2%和42.5%。序列的平均长度为849bp和951bp,N50长度为918bp和1064bp。在耐热品种新陆早36号的对照组(加热前样本,T0)和试验组(加热12h后样本,T12)中,分别获得了19219360和16564945条reads,总的碱基数为14.7G和13 6G,GC含量分别为43.3%和42 6%,序列N50长度为868bp和934bp,平均长度为801bp和964bp(表1)。
2.2 数据的处理与注释
比对2个不同品种棉花获得转录本,使用cDNA_Cupcake对全长转录组序列进一步去除冗余转录本。4个样品的转录组序列比对到基因组上的
表1 纳米孔测序数据统计概要
样本Reads数碱基数
(G)GC含量
(%)平均长度
(bp)N50长度
(bp)R01930167715.643.2849918R122145661719.442.59511064T01921936014.743.3801868T12
16564945
13.6
42.6
864
934
比对率分别为99.93%、99.93%、99.91%和99 93%(表2)。
使用SQANTI3v.4.3对转录组进行分析和注
表2 全长转录本数据
样本比对率
(%)转录本数
(个)基因总数
(个)已知基因数
(个)新基因数
(个)R099.9120616051344454285916R1299.93377518653475305612291T099.9321684453402465116891T12
99.93
195797
50437
44711
5726
释,转录本总数最多的是热敏品种Che61-72的试验组(R12),得到了377518个转录本,基因总数也
最多,其中已知基因数为65347个,新基因数量为12291个。而转录本最少的是耐热品种新陆早36号的试验组(T12),有195797个。基因总数为50437个,其中已知基因数为44711,新基因数有5726个。对新的基因进一步进行注释,并用于下游分析。
在热敏品种Che61-72的R0中每个基因只有一个转录本的现象占的比重最大,有32.25%,其次是具有2~3个转录本,占了28.49%。而在R12中具有6个以上转录本的基因的比重最高,有36 3%。在耐热品种新陆早36号的T0和T12中,
每个基因具有1个转录本的现象比重最大(图1)。经过热应激处理后,2个品种中6个以上转录本的数量增加,可能是生物体内基因需要产生更多的可变剪切体来应对热应激反应。这些结果表明,使用纳米孔测序平台进行大规模转录本测序是重建转录本的有效方法,
有利于复杂转录事件的研究。
2.3 热应激处理后可变剪切事件的广泛动态变化
在高等动植物基因组中,大部分基因在转录过程中存在可变剪切,从而引起同个基因的多个转录本。植物在胁迫条件下会产生更多的剪切变异来
微调其基因的表达模式[30]
。本研究使用了SUPPA
软件去识别可变剪切事件,可变剪切事件分为7种类型:外显子跳跃(SE),外显子互斥(MX),5′端选择性剪切(A5),3′端选择性剪切(A3),内含子保留(RI),替代第1个外显子(AF),替代最后1个外显子(AL)(图2-A)。在热敏品种Che61-72的R0样品中,从35162个基因中检测到了66638个可变剪切事件,在R12样品中,从61097个基因中检测
到了137248可变剪切事件(图2-B)。研究结果表明,经过40℃热应激的外部条件刺激12h后,R12与R0相比表达的基因变多,可变剪切事件增加,特别是内含子保留(RI)增加了27591,占了总的可变剪切数量的30.06%,其次是3′端选择性剪切(A3),占了28.46%(图2-C)。在耐热品种新陆早36号的T0样品中,从31687个基因识别到了59639个可变剪切事件,其中内含子保留(RI)事件最多。在T
12样品中,从34977个基因中识别到了69483个可变剪切事件,而3′端选择性剪切事件最多,占了总事件的30.73%(图2-B和图2-C)。在40℃热应激刺激后,T12与T0相比表达的基因
和可变剪切事件都有所增加,但耐热品种对热应激的反应没有热敏品种这般强烈,最多的3′端选择性剪切事件增加了4023个。3′端选择性剪切(A3)是棉花中最普遍的形式[31]。已有研究表明,内含子保留(RI)可能是植物应对胁迫的重要分子机制[32]。棉花在热应激处理后,内含子保留(RI)事件发生了显著变化,这表明内含子保留(RI)可能在响应高温胁迫的转录后转录组调整中发挥作用。
2.4 响应热应激的差异表达基因与可变剪切的变化
为了探究热应激条件下基因表达的差异,分析了热敏品种Che61-72和耐热品种新陆早36号在温度为40℃条件刺激12h后的基因表达情况。在Che61-72中发现了2900个差异基因(DEGs),其中1592个基因表达上调,1308个基因表达下调。差异基因在R0样本中共识别到了13251个可变剪切事件,在R12样本差异基因中,可变剪切事件大量增加,一共识别到了25296个可变剪切事件,其中RI事件增加得最多,有3837个(图3-A)。在新陆早36号中发现了2437个差异表达基因,其中1369个上调基因,1068个下调基因。在T0样本中鉴定到了11248个可变剪切事件,在T12样本中鉴定到了13769个可变剪切事件,在热应激后,可变剪切事件增加了2521个,其中外显子跳跃事件变化得最大,增加了4144个。
从2个不同品种的棉花样本的可变剪切变化中研究发现,热敏品种Che61-72对热应激反应非常
强烈,不同类别的可变剪切事件都呈上升趋势,而耐热品种新陆早36号的不同类别的可变剪切事件除了外显子跳跃显著增加和外显子互斥少量增加之外,其他5个类型都有减少的现象,这可能是与耐热品种中耐热机制对热应激的自身调控有关。
为了防止因为材料本身的差异导致的结果误差,本研究继续分析了热敏品种(R0)和耐热品种(T0)之间的基因表达的差异情况。一共发现了318个差异基因,其中206个基因表达上调,112个基因表达下调。其与热敏品种的热应激的表达差异基因中有37个共有基因(图3-C),与耐热品种的热应激的表达差异基因中有38个共有基因(图3-D)。在后续的功能注释分析时,
剔除共有差异基因。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论