同源染色体(同源染色体看图识别)
自从二十年前开启人类基因组计划【1,2】,人类对于基因组的了解已经日趋深入。但是由于染色体的着丝粒内聚集了大量高度相同的重复区域、节段重复区域以及染色体的近端短臂,人类染色体的测序其实一直并未完全完成。但每个人类染色体的完整组装对于理解人类生物学和进化过程是必不可少的。
为了建立对于染色体近着丝粒以及着丝粒区域的认识,近日,华盛顿大学医学院Evan E. Eichler研究组发文题为The structure, function and evolution of a complete human chromosome 8,首次使用互补的长读测序技术完成了对于人类8号染色体的线性组装和解析,填补了对于染色体中着丝粒中重复区域的认识。
先前曾有研究对人类基因组中X染色体的进行高覆盖的解析,使用的是端粒到端粒的组装方式,主要利用的是超长读取的纳米孔测序技术【3】。本工作中与当时解析完整X染色体的技术不完全相同,使用的是利用超长牛津纳米孔科技(Oxford Nanopore Technologies,ONT)和太平洋生物科学公司(PacBio)的高保真度数据组合的方式来解决人类8号染色体的测序数据空白的问题(图1)。测序得到的人类8号染色体端粒到端粒的完整序列有146,259,671个碱基,其中包含了当前参考基因组中缺失的334,256个碱基。此次第8号染色体的组装解决了之前关于染色体中的5个长期存在的序列空缺问题。其中补充的内容主要包括2.08Mb着丝粒α-卫星阵列、对疾病风险至关重要的β-防御素基因簇以及染色体8q21.2位点上863kb可变数目串联重复序列,该序列可以作为新着丝粒(Neocentromere)。
图1 第8号染色体超长读取组装流程
根据对高阶重复 α-卫星阵列的分析,先前的研究表明人类第8号染色体着丝粒长度在1.5-2.2Mb之间【4】。作者们通过对组装的第8号染色体从端粒到端粒的长读序列读深度分析,首先证明了该组装结构的结果的准确性。其次作者们通过荧光原文杂交技术确认了着丝粒区域的重复结构区域特征。另外,作者们还通过微滴式数字PCR技术确认了其中的确包含的是α卫星阵列。进一步地,为了对第8号染色体上的表观遗传特征进行确认,作者们发现胞嘧啶甲基化标记(5mC)沿染色体α-卫星高阶重复阵列分布,但是在着丝粒区域(有CENP-A标记)附近发现了一个73kb左右的低甲基化口袋区域(图2)。CENP-A的ChIP-seq测序的结果也证明其富集的区域是一个低甲基化的区域。
图2 第8号染色体是CENP-A与5mC的免疫染色
在此次组装得到的第8号染色体序列中还包括863kb的可变数目串联重复序列。该区域是一个细胞遗传学上可识别的中性变异区域,它包含了人类基因组中最大的可变数目串联重复序列之一【5】。此可变数目串联重复序列具有重要的生物学意义,可以作为周期新新着丝粒的位置发挥作用。在人类中,串联重复序列的拷贝数从53到326个拷贝不等。该研究发现第8号染色体的可变数目串联重复序列高阶结构由五个不同方向的结构域交替组成。每个结构与包含5-23个完全重复单元组成。因此,该测序结果给出了高精度的可变数目串联重复序列的组成方式。
为了全面重建8号染色体着丝粒在过去2500万年中的进化史,作者们利用同样的测序方式重建了黑猩猩(Chimpanzee)、红毛猩猩(Orangutan)和恒河猴(Macaque)中的同源着丝粒。作者们发现,黑猩猩的第8号染色体的着丝粒组织结构与人类的最为相似。在系统进化上,作者们发现所有类人猿高阶α-卫星序列聚为一个分支,而单体α-卫星序列分裂为两个间隔数千万年的分支(图3)。这些分析提供了灵长类同源染色体着丝粒的完整比较序列分析,为未来研究基因组中这些区域的遗传变异和进化提供了框架。