CNV在植物研究中的案例分析1
英文题目:The impact and origin of copy number variations in the Oryza species
期刊名:BMC Genomics
发表日期: 2016年3月
研究背景:
CNV, 也称为不平衡结构变异,包括大于50 bp 的缺失,插入和复制,它能够改变基因结构和基因剂量。CNV主要是由DNA重组,复制,损伤修复等过程中的错误造成的,关于CNV的形成机制目前主要是基于DNA双链断裂修复的研究。DNA双链断裂修复主要有两种途径:(1)非同源重组(NHR),它包括非同源末端连接(NHEJ)和微同源调节末端连接(MMEJ),它不依赖于序列同源性,只需要1–10 bp的微同源,(2)基于同源的修复,它包括非等位同源重组(NAHR), 它需要数百个碱基的同源序列。通过检测CNV区域和断点的序列,还发现了其它的过程,例如移动元件插入(MEI)和数目可变的串联序列重复(VNTRs)。
CNV对基因有显著的影响,它能够解释很多表型变异,目前哺乳动物,果蝇中的很多研究阐述了CNV和表型变异之间的关系。在植物中,越来越多的证据表明CNV和重要表型相关联,例如大豆Rhg1位点的CNV能够调节对胞囊线虫的抗性;玉米运输蛋白基因MATE1的CNV与耐铝性有关系;大豆硼转运蛋白基因Bot1拷贝数增加可以增强对硼毒害的耐受性;水稻qPE9-1的缺失与穗直立性有关,而qsw5基因缺失能够引起水稻颗粒尺寸的增加,GL7位点复制能够引起水稻颗粒尺寸的多样性。然而对植物CNV功能的探索才刚刚开始,最近几项研究第一次从全基因组水平对植物CNV进行了探索。在玉米中,CNVs广泛存在于自交系中,并且它们富集于与重要农艺性状相关联的位点。大豆,蚕豆,水稻,拟南芥,高粱,小麦,大麦基因组综合分析表明受CNV影响的基因大部分是抗性基因和胁迫响应基因。因为水稻品种的复杂性,明确的进化关系,丰富的基因组资源使得其成为研究基因组进化的一个良好模型。数个研究表明CNV广泛存在于水稻不同品种中,然而关于CNV在水稻品种中的影响和起源还是未知的。
研究材料:已发表的50个水稻品种(40个栽培稻品种,10个野生稻品种)重测序数据
技术平台:PCR;
研究思路:
下载50个水稻品种的重测序数据;
利用不同分析方法鉴定CNV;
鉴定进化背景下的CNV类型;
PCR验证CNV数据集质量;
比较不同研究结果的CNV数据集;
CNV对基因的影响;
GO分析CNV对基因功能的影响;
PCR验证已知功能基因的CNV ;
断点特征推测非共线性CNV 基因的形成机制;
研究结果:
发现CNV
从NCBI上下载50个水稻品种(40个栽培稻品种,10个野生稻品种)的重测序数据,采用3种相互补充的方法((PE, RD, SR)来鉴定水稻品种中的CNV,为了获得可信CNV,综合了不同CNV软件(BreakDancer, CNVnator,Pindel)的结果,方法流程请见Fig. 1。最初关注的是缺失,通过和日本晴参考基因比对总共检测到9196个缺失(62 -654,630 bp)(平均 4,166 bp)。98 %的缺失(9,015 of 9,196)被推断出断点。为了在进化背景下确定这些CNV是缺失还是插入,使用非洲栽培稻作为外群,通过和非洲栽培稻的同源区域进行比较,重新确定了这些CNV的变异类型:在8,929个缺失事件中,7,400个实际上是插入,1,526个是真正的缺失。
Fig. 1 使用NGS数据发现CNV。 a CNV发现和鉴定的流程图。b 通过分析方法PE (红色) 和RD (深灰色高峰)发现一个CNV的示例。淡灰色方框代表pair-end reads。25901_TRJ和11010_TRJ 分别是含有和不含有CNV的两个水稻品种。
CNV验证
为了评估CNV数据集的质量,对5个随机水稻品种的90个候选CNV进行了PCR验证。结果发现76.7 % (69/90) 的 CNV得到验证,并且把这个数据集和最近报道的CNV数据集通过RD方法进行了比较,结果发现这两个数据集有68%(6,210 个事件)重叠。接着通过和粳稻,籼稻的芯片数据以及水稻和其它3个近源物种BAC数据比较来评估这个数据集,结果只有80个事件,3个事件分别和芯片数据,BAC数据重叠,这可能是因为不同方法检测到的大小范围不同最终造成重叠较小,以前报道的CNV主要集中在大片段事件,而这次数据则主要是中等大小的CNV,大约有87%(7,986/9,196)的CNV小于10 kb。
CNV对基因的影响
接着分析了CNV对基因的影响,总计有2,806个基因被2,879个CNV影响,1,675个基因的编码区被CNV打断,造成558个部分基因缺失,1,117个整体基因缺失 (Table 1)。接着对影响1117个整体基因缺失的720个 CNV的群体分布进行了分析。约81.7 %的CNV被栽培稻和野生稻共享, 0.8 %的CNV只在野生稻中存在,17.5 %的CNV只在栽培稻中存在。接着分析了CNV在水稻亚种(粳稻,籼稻)中的分布,结果发现约12.9 %的CNV被粳稻和籼稻共享,0.7 %的CNV只在籼稻中存在,3.9 %的CNV只在粳稻中存在。上述结果发现,大部分CNV被栽培稻和野生稻或者粳稻和籼稻所共享,这说明大部分的CNV来自相同的基因池。
CNV对基因功能的影响
接着分析了CNV对基因功能的影响,对上述1,675 个CNV基因进行了GO功能分析,发现它们富集于与环境的互作,例如胁迫反应,过敏反应等,而受CNV影响的1117个整体基因则富集于细胞凋亡过程。
验证已知功能基因的CNV
接着验证了一些以前描述过的被CNV打断的功能基因。 OsMADS56编码一个MIKC类型MADS-box蛋白,它包含8个外显子,过表达它能够造成开花延迟,而功能缺失突变则不影响开花时间。跨越OsMADS56第一个外显子的一个CNV能够造成MADS-box结构域的部分缺失(Fig. 2a)。
BPH14能造成对水稻褐飞虱产生抗性,它编码一个CC-NB-LRR蛋白。使用PCR能够检测到横跨整个BPH14基因的一个CNV (Fig. 2b)。
OsDCL2b (LOC_Os09g14610)是一个Dicer-like基因, 主要调控转录后水平的基因沉默,一个65 kb包含OsDCL2b的CNV被鉴定到。序列比对发现它存在于O. sativa,但不存在于Oryza nivara, Oryza barthii, Oryza glumaepatula, Oryza meridionalis, Oryza punctata, 暗示着这个CNV实际上是存在于O. sativa的一个插入。进一步分析发现OsDCL2b实际上是OsDCL2a的复制,这个复制是从3号染色体到9号染色体的一个大片段复制的一部分(Fig. 3a)。
OsMADS30 (LOC_Os06g45650)编码一个MIKC类型MADS-box蛋白,它主要参与脱水和盐胁迫反应。一个横跨OsMADS30至少两个外显子的CNV被鉴定到。序列比对分析发现这个CNV只存在于O. sativa,预示它是进化过程中的一个最新插入,这个片段主要从同一个染色体上囊括LOC_Os06g40609的一个基因组区域复制而来(Fig. 3b),因此OsMADS30实际上是O. sativa中由于基因融合而产生的一个新基因。
Fig. 2 使用PCR在18个水稻品种中对基因OsMADS56和BPH14的CNV进行验证。a OsMADS56的基因结构和CNV位置。 b BPH14的基因结构和CNV位置。 蓝色框代表CDS;白框代表UTR;红色三角代表CNV的位置。
Fig. 3 PCR 验证OsDCL2b和OsMADS30中的CNV。 a OsDCL2b(红色)实际上是OsDCL2a(蓝色)的复制,这个复制是从3号染色体到9号染色体的一个大片段复制的一部分。 b这个片段主要从同一个染色体上囊括LOC_Os06g40609的一个基因组区域复制而来。灰色的水平线代表水稻的同源区域;绿线代表CNVs;黄线代表CNV的同源区域;灰色竖线代表基因;灰盒代表外显子。直系同源使用红线连接,同源基因使用蓝线连接。
非共线性CNV 基因的形成机制
许多CNV基因实际上是因为插入进而形成了非共线性基因。通过和O. glaberrima比对在编码区受CNV影响的697个基因中,有287个是非共线性基因,而这287个基因的大部分(260/287)在O. sativa都有同源基因(同源性80 %-100 %),暗示着这些非共线性基因可能是从基因组的其它地方复制而来(Fig. 4)。
Fig. 4 序列分析非共线性CNV基因的起源。包含非共线性CNV基因的区域用来和O. glaberrima 的同源区域进行比对。a 非共线性CNV基因 LOC_Os05g33910 是LOC_Os12g06050的一个复制。 b 一个包含LOC_Os05g03810 的CNV是从一个横跨LOC_Os12g32130的片段复制而来。
把非共线性基因与它们对应的祖先基因进行比对,通过断点特征来推测非共线性基因的形成机制。非共线性基因两端的转座元件预示着这些复制事件可能被转座元件的活性所调控(Fig. 5a)。非共线性基因与它们对应的祖先基因之间断点处的微同源性和无同源性预示NHEJ可能在DNA双链断裂修复过程中起作用(Fig. 5b)。断点处的高同源性支持NAHR在起作用(Fig. 5c)。共计有12个转座元件形成的事件,14个由NHEJ形成的事件,1个NAHR形成的事件。
Fig. 5通过断点特征推断非共线性CNV基因形成机制。a 与祖先基因Os01g10210比较, Mutator-like元件分布在Os12g34770的两侧, 暗示这个复制事件受转座元件调控。b 非共线性基因Os06g40650与祖先基因Os06g40609之间断点处的微同源性暗示在DNA双链断裂修复过程中受NHEJ调节。c High homology at breakpoint between 非共线性基因Os11g17120 和祖先基因Os11g17330之间断点处的高同源性暗示受NAHR调节。黑框代表基因;绿框代表Mutator-like元件;红字代表非共线性基因与祖先基因的同源序列。
接着运用BreakSeq方法来确定整个CNV数据集的形成机制。结果发现52.98 %和44.28 %的CNV分别由NHR和MEI形成;0.48 %和0.29的CNV分别由NAHR和VNTR形成(Fig. 6a-c)。通过把CNV大小和形成机制关联,发现在MEI, NAHR, NHR形成较大的CNV,而VNTR形成相对小的CNV (Fig. 6d)。
Fig. 6 水稻基因组的CNV形成机制分布。a 9015个CNV的不同形成机制分布。外面的环代表每种机制形成的CNV数目。 内环代表这些机制在基因组上的大小累计。 b, c Spatial distribution of 在12条染色体上由不同机制形成的CNV空间分布。d 由不同机制形成的CNV大小比较。