2024年9月4日,我院郑郁善教授团队在Advanced Science(中科院1区Top期刊, IF =14.3)期刊发表题为“ De novo whole-genome assembly of the 10-gigabase Fokienia hodginsii genome to reveal differential epigenetic events between callus and xylem”的研究论文,由福建农林大学工业原料林研究所郑郁善教授团队主持的“福建柏基因组学研究”取得突破,破译了福建柏基因组,为首次报道染色体水平柏科基因组。
福建柏又名建柏、滇柏、广柏,属柏科扁柏属,被列为国家二级重点保护珍稀植物。福建柏高可达30m或更高,胸径达1m,树干通直,是优良的园林绿化及用材树种;特别是适应性强,生长速度快,对立地要求不高,是适合我国南方大力推广的造林树种。福建柏作为一种典型的柏科裸子植物在中国有广泛的分布,不同种源的福建柏在茎干、分支和叶片形态上表现出差异(见图1)。由于福建柏基因组较大,其染色体水平的基因组学研究尚未见报道,阻碍了其基础及应用研究的发展。本研究首先构建福建柏染色体水平的基因组参考序列,基因组调研估算福建柏的基因组大小约为 10 G, 基因组的杂合率和 GC 含量分别估算为 0.54% 和 35.23%。
图一. 用于福建柏基因组测序的材料及14个种源的形态多样性
为了实现福建柏基因组的高质量组装,本研究采用了 PacBio 测序技术,以克服基因组的高重复性问题。使用 FALCON 对120 倍覆盖度的PacBio数据进行基因组组装出9.9 Gb的基因组数据。进一步通过 10X Genomics 的补充组装,最大的 scaffold 长度达 58M。为了生成参考级别的组装,利用 Hi-C 数据和 ALLHiC 算法 (Zhang et al., 2019)将 scaffold 组装成 11 个染色体 (见图2),与已报道的染色体核型研究结果一致。其中三个最大染色体长度均超过 1G大小。基于eukaryota_obd10谱系数据集(2024-01-08)的BUSCO(v5.3.2)评估显示,转录组和蛋白质模型中完整的BUSCO标记基因分别为92.6%和91.8%。使用OMArK (Nevers et al., 2024)检测福建柏基因组组装的基因完整性为92.88%。本研究提供了一个高质量的参考基因组组装,为研究裸子植物柏科谱系提供了重要资源。
裸子植物基因组具有显著的重复序列,其中长末端重复序列是主要的可移动元素(Niu et al., 2022),通过结合预测和RepeatMasker注释,发现福建柏基因组中63.11%被分类为重复区域。DNA转座子和逆转录转座子分别占福建柏基因组序列的0.41%和62.29%。长末端重复序列(LTRs)是最丰富的转座元素类型,占基因组序列的61.93%。由于这些元件的重复特性,组装它们具有很大的挑战。利用LTR组装指数(LAI)进一步评估本基因组组装质量 (Ou et al., 2018),LAI值显示福建柏每条染色体LAI范围从12.66到13.93,表明本基因组达到参考级别组装质量。
目前,银杏(Liu et al., 2021)、油松(Niu et al., 2022)和苏铁(Liu et al., 2022)是三种已被报道的高质量裸子植物基因组。使用OrthoFinder对四个代表性植物物种进行比较基因组分析时,识别出156,414个基因被分组为同源群,占总基因的84.3%。使用JCVI (Tang et al., 2024)对上述四个物种进行了全局和局部的共线性分析。福建柏与苏铁、银杏和油松之间的共线性块分别揭示了8,214对、7,441对和8,936对基因(见图2)。
图2. 福建柏染色体规模组装及比较基因组学
本研究使用了基于转录组的比对、预测以及同源搜索等方法共注释了50,521个蛋白编码基因。外显子的平均长度为269个碱基,内含子的平均长度为7,424个碱基。与被子植物进行比较观察到其较长的内含子(见图3)。同时内含子/外显子的长度与表达水平呈正相关。长内含子具有较高的TE插入频率。同时内含子中含TE的基因表现出较高的表达水平。这一结果表明,包含TE的内含子与mRNA表达有一定的相关性,这与之前在油松中的研究结果一致 (Niu et al., 2022)。对木质部进行的全基因组亚硫酸盐测序(BS-Seq)揭示了内含子区域的高DNA甲基化水平(图3)。包含内含子的基因具有较高的甲基化水平。相反单外显子基因显示出低甲基化水平。
图3. 福建柏木质部的石蜡包埋组织切片以及转录与DNA甲基化关联分析
在裸子植物中利用基因工程技术研究基因功能是至关重要的。愈伤组织作为一种分化组织类型,在植物再生和农杆菌介导的稳定转化中发挥着重要作用。全局DNA甲基化谱显示,相比于愈伤组织,木质部在编码基因和TEs中表现出较高的CHG和CHH甲基化水平(见图4)。此外,差异甲基化区域(DMRs)的分析揭示木质部的增强甲基化区域数量大于愈伤组织。DMRs的分布显示,它们在转录起始位点(TSS)和转录终止位点(TTS)周围富集。特别是在CHH类型中,DMRs在启动子区域的富集尤为明显。
图4. 福建柏愈伤组织和木质部的DNA甲基化特征
进一步使用定量蛋白质组学比较愈伤组织和木质部的蛋白水平。共发现了1,970个差异蛋白(图5),KEGG通路分析揭示上调蛋白质富集在RNA降解通路(图5)。这包括5' -> 3'降解复合体的组成部分(DDX6和EDC4)、3' -> 5'降解核心外泌体(Rrp40/4345和Mtr3)、5'外核酸酶(XRN2)和CCR4-NOT复合体(CCR4、CNOT1/3/7/8和PABP1)。
图5. 福建柏愈伤组织和木质部的定量蛋白质组学
定量蛋白质组学揭示了差异蛋白涉及RNA降解和mRNA 3'-UTR结合相关的蛋白。本研究对愈伤组织和木质部进行了Nanopore直接RNA测序(DRS),以揭示两种组织间全局多聚poly(A)长度(PAL)和选择性多腺苷酸化(APA)的变化。DRS结果显示愈伤组织中的PAL长度普遍长于木质部(图6)。在愈伤组织中,具有较长PAL的基因在细胞壁生物合成、细胞骨架蛋白结合、己糖转移酶活性等方面表现出富集。特别地,观察到愈伤组织中的3'UTR由于APA而较短。
图6. 直接RNA测序揭示福建柏愈伤组织和分化木质部中全长比、PAL和3'UTR长度的变化
当前人们对福建柏的过度开采已对其遗传变异和分布造成了威胁。本研究收集了来自中国不同地区的14个福建柏种源。这些种源的叶片和茎表现出不同的形态特征,进一步显示了遗传多样性,并为未来的泛基因组和重测序提供了初步资源。基于14个种源单核苷酸多态性(SNPs)的系统发育分析揭示了七个不同的群体(图7)。萜类化合物是异戊二烯的聚合物及其衍生物的总称,常见于福建柏中并发挥重要作用。系统发育进化的结果显示,14个福建柏树种源可以分为不同的群体,如广西、三明和泉州组,与代谢组学结果一致地形成了一个簇(图7)。萜类合成酶(TPSs)是萜类化合物生物合成的关键酶。进化树分析揭示福建柏中的TPS基因家族可以分为七个主要类(TPS-a到TPS-f),其中六个类在被子植物中也存在。TPS-d代表了一个独特的支系存在于裸子植物中,和其他裸子植物比较发现福建柏具有更多的TPS基因。
图7. 14个不同种源福建柏的生理参数和基于代谢组的萜烯分析
本文报道的高质量染色体水平福建柏基因组和表观组,将对福建柏遗传多样性调查、良种选育、材性研究和资源保护起到重要促进作用。福建农林大学林学院荣俊冬和郑郁善教授为论文共同第一作者,郑郁善教授和林学中心顾连峰教授为共同通讯作者,林学院、风景园林与艺术学院凡莉莉、邓智文、潘雁梅、李秉钧、陈礼光、何天友、陈凌艳、叶菁、郑林参与了该项目,林学中心张泽宇、张珺、顾煜莹、华天、赵梦娜和张航晓也参与了该项工作。该研究得到了国家重点研发计划、福建省林业种苗科技攻关和林学高峰学科等项目的资助。
参考文献
Liu, H., Wang, X., Wang, G., Cui, P., Wu, S., Ai, C., Hu, N., Li, A., He, B. and Shao, X. (2021) The nearly complete genome of Ginkgo biloba illuminates gymnosperm evolution. Nature Plants, 7, 748-756.
Liu, Y., Wang, S., Li, L., Yang, T., Dong, S., Wei, T., Wu, S., Liu, Y., Gong, Y. and Feng, X. (2022) The Cycas genome and the early evolution of seed plants. Nature Plants, 8, 389-401.
Nevers, Y., Warwick Vesztrocy, A., Rossier, V., Train, C.-M., Altenhoff, A., Dessimoz, C. and Glover, N.M. (2024) Quality assessment of gene repertoire annotations with OMArk. Nature Biotechnology, 1-10.
Niu, S., Li, J., Bo, W., Yang, W., Zuccolo, A., Giacomello, S., Chen, X., Han, F., Yang, J. and Song, Y. (2022) The Chinese pine genome and methylome unveil key features of conifer evolution. Cell, 185, 204-217. e214.
Ou, S., Chen, J. and Jiang, N. (2018) Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic acids research, 46, e126-e126. Tang, H., Krishnakumar, V., Zeng, X., Xu, Z., Taranto, A., Lomas, J.S., Zhang, Y., Huang, Y., Wang, Y. and Yim, W.C. (2024) JCVI: A versatile toolkit for comparative genomics analysis. iMeta, e211.
Zhang, X., Zhang, S., Zhao, Q., Ming, R. and Tang, H. (2019) Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data. Nat Plants, 5, 833-845.
论文全文链接:
https://onlinelibrary.wiley.com/doi/epdf/10.1002/advs.202402644