咨询热线:400-065-6886
首页>>技术支持>>科研进展

【Nature Genetics】评述:宿主遗传对肠道微生物群影响的挑战和未来方向



上海天昊生物 

今年2月,在Nature Genetics杂志上刊登多篇研究人类肠道菌群与宿主基因组关系的论文,再次让人们把目光聚焦到宿主遗传变异对肠道菌群的影响上。今天我们就分享同期的一篇评论文章,本文以研究宿主遗传对肠道微生物群影响的挑战和未来方向为题,系统概括了该领域取得的成绩及所面临的几大挑战,并强调了系统遗传学(多组学)在研究人类宿主和微生物复杂生态系统中的重要作用。

                                             

图片
 

英文题目:Challenges and future directions for studying effects of host genetics on the gut microbiome
中文题目:研究宿主遗传对肠道微生物群影响的挑战和未来方向
期刊名:Nature Genetics
发表时间:20222

 

 

摘要
 
人类肠道微生物群是一个复杂的生态系统,涉及其宿主的代谢、免疫和健康。虽然肠道微生物组成的个体间差异主要由环境因素驱动,但一些肠道微生物是可遗传的,因此可以受到宿主遗传的影响。在过去的5年中,已经发表了12项微生物全基因组关联研究(mbGWAS),参与者超过1000人,但只有少数基因座在多项研究中得到一致确认。在这里,我们讨论了mbGWAS的技术水平,重点关注当前的挑战,如微生物组测量的异质性和功效问题,并阐述了微生物组遗传分析的潜在未来方向。
    廉价的大规模基因分型方法和多重测序技术的发展推动了遗传学的最新进展。自2007年以来,全基因组关联研究(GWAS)已成为群体遗传学和遗传流行病学的常规分析,识别了数千种与复杂性状相关的遗传变异。与此同时,新一代测序技术改变了微生物学研究,使我们能够超越对单一微生物层面,转而研究整个微生物群落,包括全生物系统--即微生物组及其宿主。现在可以使用第二代和第三代测序技术有效地量化人类肠道中微生物群落(肠道微生物组)的组成。目前,两种主要方法被广泛用于微生物定量:16S rRNA基因测序(16S)和宏基因组测序(MGS)16S方法是专注于细菌16S rRNA基因的高度多态性的靶向测序,该技术允许在属的水平上对细菌和古细菌进行相当准确的注释。相比之下,MGS是对样本中存在的所有遗传物质进行测序,允许对微生物分类群进行下至物种和菌株水平的注释,从而能够分析包括病毒、真菌和原生动物在内的其他分类群。MGS还能够对单个微生物基因和基因家族的丰度进行估计,这些基因和基因家族可以通过合并后,对其功能途径和聚类加以量化,包括特定异生物质的生物合成途径,以及抗生素抗性和毒力基因的聚类分析。
在过去的5-10年中,人类肠道微生物群(人体中最大和最多样化的微生物群落)一直是微生物群研究的中心,现在已经鉴定出数百种微生物物种。已知肠道微生物组表现出显著的个体间差异;只有少数属或种(少于20)为超过95%的个体所共有,这被称为核心微生物组的共有子集。随着对更大队列的分析,更多新的稀有细菌被识别,共享细菌的数量持续减少。在最近的例子中,对8208名荷兰个体的宏基因组研究确定了733个细菌物种,对5959名芬兰个体的分析确定了1123个细菌物种,对来自不同人群和身体部位(主要来自粪便)9428个宏基因组的分析确定了4930个物种级分类群。
许多研究表明,肠道微生物群的个体间差异主要由环境因素决定,如饮食、药物、吸烟、宠物的存在和其他因素。然而,双生子、家族和群体研究也证明了某些肠道微生物的遗传性,并且潜在的遗传成分对于理解共生宿主/微生物关系和共同进化仍然是有意义的。在这方面,我们总结了宿主遗传对GWAS肠道微生物群(mbGWAS)影响,评估了遗传分析对不同丰度微生物的检测能力,并讨论了微生物群遗传研究的未来前景。
2014年到2015年,通过几项小型研究(< 100),研究者开始分析宿主遗传对人类微生物组的影响。2016年,对来自TwinsUK队列的1126对双胞胎进行了遗传度和mbGWAS分析。这些分析确定了一部分肠道微生物显示出显著的遗传性:945个报道的分类群中有90(9.5%)显示出大于0.20的遗传性(h2)。这些遗传率估计值后来在加拿大和荷兰家庭研究中得到证实,并且在许多其他人类复杂特征的遗传率范围内,如空腹血糖水平(h2 = 0.31)、胰岛素水平(h2 = 0.25)和血压(h2 = 0.15)。在TwinsUK研究中,观察到Christensenellaceae家族和相关分类群的最强遗传性,并与个体的代谢参数有关。其他可遗传细菌包括双歧杆菌,其丰度与乳糖酶基因(LCT)附近的功能性遗传变异有关,这一发现最近也得到了其他研究的证实。2016年,荷兰、加拿大和德国人群中的三个mbGWAS报告了数十个基因座与各种细菌和其他微生物组特征(β多样性、微生物途径和细菌存在)的丰度的关联。这些研究的发现包括几个相关基因,如编码C型凝集素的基因,已知C型凝集素调节虾和蚊子的微生物群组成,以及维生素D受体基因。然而,除了LCT位点,这些结果没有一个在mbGWAS中被复制。在过去几年中,其他几项研究探索了遗传对微生物组组成的影响。迄今为止,已发布了12mbGWAS,其中包括接近或超过1000名参与者(1和图1)。所有这12项研究都在全基因组显著性水平(P < 5×10-8)报告了几十个结果,但只有两个基因座(LCTABO)的结果在至少三项研究中得到了一致的重复。

1、已发表的mbQTL研究总结


图片

 

图片
 

1、在12项微生物组GWAS中报道的全基因组重要的基因组位点。该图显示了用彩色六边形标注的在染色体分布情况。每个六边形代表一个基因组区域,该区域被本文讨论的12项研究中的至少两项研究发现在全基因组显著水平上相关。六边形根据相同基因组区域中报告的研究数量进行着色,并标明位于这些基因座中的基因。FUT2基因的位置也被突出显示。染色体长度和条带根据国家生物技术信息中心基因组绘制,并参考GRCh37/hg19基因组构建。值得注意的是,n = 2研究报告的基因座没有一个在报告它们的两个研究中与来自相同家族的细菌相关,它们相应的最高命中率在弱LD(1000个基因组中欧洲人的r2 < 0.1,除了NMNAT3基因座,其中r20.34) 

 

 

LCT基因座
 
据研究报道,LCT基因或附近的遗传变异与放线菌、双歧杆菌属及其相关物种相关。在英国、荷兰、加拿大和芬兰人群以及MiBioGen联盟的荟萃分析中,这种关联在全基因组范围内具有显著性。其他队列在较低的显著性水平上显示了这种相关性,使得该位点成为迄今为止微生物数量性状位点(mbQTL)研究中最有效的发现。事实上,双歧杆菌是英国和荷兰人群中报道的最具遗传性的分类群。观察到与双歧杆菌最强相关的是位于LCT基因附近的功能变体rs4988235 (NC_000002.12:g.135,851,076G > A)或其替代物。LCT编码将乳糖分解成葡萄糖和半乳糖的乳糖酶。rs4988235*G/G基因型对应于乳糖酶非持久性表型,即断奶后代谢乳糖的能力下降。由于动物驯化和断奶后牛奶的消耗,这些等位基因受到选择压力,这导致乳糖酶持久性等位基因的频率增加。有趣的是,乳糖酶非持久性基因型与肠道中双歧杆菌含量较高相关,双歧杆菌具有降解乳糖的能力,这种相关性依赖于牛奶消费量。

 

 

ABO位点及其与FUT2的相互作用
 
据报道,德国、荷兰和芬兰的人群中存在与ABO基因座相关的微生物群。有趣的是,潜在的关联和报道的分类群在不同的研究中并不相同。在德国队列中,ABO基因座的两个独立SNPs与粪大肠杆菌和拟杆菌的丰度相关。在芬兰队列中,ABO附近的部分连锁不平衡(LD)变异与粪大肠杆菌和大肠杆菌的丰度相关。在荷兰人群中,相同和其他LD的变异与双歧杆菌丰度、乳糖降解途径和柯林斯菌丰度相关。在猪中也报道了ABO基因座与肠道微生物组的关联,其中使ABO基因失活的常见缺失与丹毒杆菌家族的丰度相关。
尽管相关分类群存在差异,但所有三项人类研究都确定了ABOFUT2变异体与细菌丰度之间的相互作用:FUT2基因中的无义突变(rs601338NC_000019.10:g.48,703,417G > A)决定了粘膜细胞上ABO抗原的表达。具体来说,G等位基因纯合的个体(rs601338*G/G基因型)在其粘膜(包括其肠粘膜)上不表达或暴露ABOAB抗原。这些个体被称为非分泌者。在所有的研究中,ABO对相关细菌的作用依赖于宿主的分泌状态。FUT2基因的分泌状态与肠道微生物群之间的关联是可以预期的,但仅在一项研究中的全基因组显著水平上观察到,尽管大型德国队列也报告了该位点的关联,如早期对克罗恩病患者的结肠微生物群、原发性硬化性胆管炎患者的胆汁微生物群等的较小研究。这些观察和ABOFUT2基因座的基因/基因相互作用分析的一致结果表明,随着样本量的增加,该基因座将在未来的研究中继续被发现。
 
 
其他潜在的有趣位点
 

除了LCTABO基因座,在12项研究中的至少一项中,P < 5×10-8处还报告了另外546个基因座(1)。其中,11个位点被两项研究报道,并指向潜在的有趣的候选基因。例子包括CD5,它在T细胞增殖和存活以及其他免疫功能中起作用,以及RBP1,其蛋白产物参与视黄醇(维生素A)从肝脏到外周组织的运输。然而,尚不清楚这11个基因座是否代表了真正重复的信号。事实上,在报告它们的两项研究中,没有一个位点被报告与来自同一家族的细菌相关联。

我们期望这些和其他分类群存在遗传信号。MiBioGen联盟和一项荷兰人群研究都确定了显著和提示性命中数与微生物遗传率之间的正相关关系,这表明需要更大的样本量(从而更高的功效)来识别额外的遗传位点。

 
 
功效仍然是mbGWAS的一个主要问题

mbGWAS检测到的大多数全基因组关联的可复制性差是生物现实和正在进行的方法学问题的结果。微生物群落由数百个物种组成,但只有少数存在于几乎所有样本中,许多只存在于一个子集。根据群体群组的估计,大多数分类群将出现在不到50%的样本中,导致遗传分析的有效样本量减半。

群体异质性也可以干扰复制并诱导假阳性或假阴性关联,这是在经典GWAS中首次发现的。例如,FTO基因座与二型糖尿病(T2D)的关联显示出人意料的低重复率。后来发现,FTO变体实际上对体重指数产生影响,而不是直接对T2D产生影响;因此,在体重指数匹配的病例对照队列中,未检测到FTOT2D的影响。考虑到微生物组受饮食和环境的严重影响,群体异质性也可能在mbGWAS中发挥重要作用,不匹配的队列可能显示较低的复制率。除了这些生物学方面,与样品处理和宏基因组数据处理相关的多种方法问题可能会导致低重复率。

此外,当分析数百或数千个微生物组特征时,经典的全基因组显著性阈值P < 5×10-8可能过于宽松,应考虑考虑多个测试的阈值。事实上,在较大的mbGWAS中,LCTABO这两个在队列中不断被重复的基因座是唯一通过这一更严格阈值的基因座,唯一的例外是在芬兰人群中发现的MED13L基因附近的信号。然而,这种变异在非芬兰人群中非常罕见(在非芬兰欧洲人的基因组聚合数据库中,次要等位基因频率为0.0003),因此没有在非芬兰人群中进行测试。

对更严格阈值的要求强调了需要更大的样本量来检测强关联和额外的基因座。这一概念似乎是显而易见的,因为这是我们在GWAS 15年后所学到的。在最初仅在几百个样本中发现具有较大影响的相关基因座后,GWAS迅速转向使用几千个样本的数据集,一些GWAS现在包括超过一百万个个体。与人类数量表型相比,在mbGWAS中,对非常大的样本的需求甚至更迫切,因为大多数分类群存在于< 10%的样本中。然而,对于检测新的mbGWAS基因座所需的最小样本数没有绝对的估计,因为事先不知道它们的效应大小。在这种情况下,一个好的指导方针是在给定的样本量下估计最小可检测效应,这将取决于性状的遗传结构,而不是严格地取决于其遗传率。例如,即使对于高度可遗传的性状,如身高(h20.8-0.9),个体常见变异(如位于HMGA2GDF5位点的变异)仍然只占总方差的0.3-0.7%,而对于其他具有较低遗传率估计值的性状,如胎儿血红蛋白(h2 0.6),已经发现非常大的效应大小(BCL11A基因中的常见变异解释了8-14%)

以前和最近的mbGWAS的结果可用于估计微生物组性状的最大效应的上限,从而使我们能够推测检测额外基因座所需的样本量。例如,在LCT基因座与青春双歧杆菌的关联解释了0.8%的方差,这意味着至少需要20000个样本来检测解释一半效应(0.4%)基因座的关联。青春双歧杆菌是一个常见的分类单元(存在于> 80%的样本中)。对于不太常见的分类群(患病率为10-50%),需要约30000-135000个样本的数据集来检测类似的遗传效应(2)。然而,对于其他微生物分类群,可能存在具有更大影响大小的相关遗传变异。例如,对于双歧杆菌科的另一种细菌物种 两歧双歧杆菌,仅在26.3%的样品中存在,发现ABO基因座的遗传变异解释了2.7%的变异。虽然这一估计可能被夸大,或者由于未解释的基因-环境相互作用而被高估,但它确实表明微生物性状背后的多基因结构是复杂的,并且可能在微生物分类群之间有很大差异。


图片
 

2、不同分类群流行度的功效分析。

 

根据荷兰微生物组项目的观察,a) 饼图显示了在一个研究队列中可检测到的具有不同流行率的分类群的比例。b) 检测一个遗传效应所需的总样本量(y)(方差(var)解释(x))80%的功效和P< 1×10-10,用于不同的分类群流行率。分类群遵循a)中的色键图例。对于一个具有流行率q的分类单元,待研究组群所需的总样本量(ntot)计算如下:ntot = neff+neff×(1-q)×q-1,其中neff是检测遗传效应所需的估计有效样本量。遗传效应在这里用方差来表示,方差解释了加性效应大小和次要等位基因频率的变化。阴影区域(使用a中所示的颜色和流行率)代表给定流行率范围的估计值。垂直虚线表示0.4%的效果,即Lopera等人对青春双歧杆菌3LCT基因座的变体观察到的效果的一半。如Lopera等人所述,功率估计值是在RStudio(版本1.03.136)中得出的。

 

 

mbQTL研究中的其他挑战
 
除了需要更大的样本量之外,其他几个方面对未来mbGWAS的成功也很重要。技术变化,如使用不同的DNA分离方法、选择16S结构域或使用不同的16S扩增子数据管线和参考数据库,可以极大地影响微生物鉴定和丰度的结果。例如,在MiBioGen联盟中,来自可变区V3V4测序的不同组群的25-35%的个体中存在古细菌,但是在使用可变区V1V2的组群中根本没有检测到古细菌。原则上,MGS方法应该提供非常高的分辨率,能够在菌株水平上识别微生物分类群;然而,广泛使用的基于参考文献的方法(即,MetaPhlAnKraken)目前并不提供完整和准确的分类学注释。这些技术差异可以部分解释遗传率分析的低重复率。例如,Christensenellaceae在双胞胎研究中被确定为最具遗传性的细菌,但它不存在于MetaPhlAn2中,因此在许多MGS研究中没有被研究。从头宏基因组组装管线在理论上应该允许识别许多新物种,但是它们需要每样本非常高的读取覆盖率来组装低丰度的微生物基因组。还可以通过使用更好的测量方法获得微生物组表征的更高精度,如DNA提取试剂盒,可减少获得的微生物组成的偏差、样品中微生物细胞的定量、更长的测序读数以及其他方法。

 

 

该领域将走向何方?
 
结合研究和性状来提升功效

正如我们已经讨论过的,成千上万个微生物样本的样本大小对于识别足够的遗传位置和超越当前建立的基因座是必要的。目前可用的和即将可用的中等规模的MGS队列可以进行荟萃分析,以分析大约20000-30000个样本,前提是分类分类在各研究中协调一致。此外,利用性状间相关性减少表型变异性的多性状GWAS方法也可用于获得功效。

 

作为替代表型的微生物遗传变异(SNPs和结构变异)

迄今为止,mbGWAS主要关注微生物组成,即微生物分类群的丰度或微生物功能的丰度,例如微生物途径。然而,我们还需要认识到,肠道微生物组的功能不仅可以通过某些物种或代谢途径的丰度来反映,还可以通过微生物基因组中的遗传变异来反映。肠道微生物组包含的基因比人类基因组多100-1000倍,其基因景观可以通过动态适应环境暴露和变化。有证据表明,在全球人口扩张的过程中,肠道微生物群已经与人类基因组共同适应了环境。细菌基因组中可以发生突变,但宿主可能会通过选择压力将细菌的遗传变异保持并传递给下一代。此外,由于通过相同的环境暴露进行的选择,也可以预期人类基因组和肠道微生物组中遗传变异的共现性。

微生物组中遗传变异的关联分析面临几个挑战。首先,肠道微生物组本身的遗传景观在很大程度上仍未被探索,即使这在MGS数据下在技术上是可行的(3)。主要尝试包括Schloissnig等人的研究,该研究揭示了252份粪便样本中的1030万个SNPs和许多其他类型的遗传变异,以及谢等人的研究,该研究揭示了超过800万个细菌SNPs的分布图,并显示了双胞胎之间较高的相似性,这种相似性在生活了几十年后缓慢降低。最近,Zeevi等人开发了SVfinder管线,并报告了肠道微生物组中超过7000种结构变异。这些研究为探索细菌SNP和结构变异谱奠定了基础。此外,已经开发了几种生物信息学工具来调用来自MGS读序的SNPs,例如metaSNVinStrain。此外,一般基于概率的SNP鉴定工具,如单倍型鉴定工具,也可用于鉴定细菌SNP,具有极佳的准确性和灵敏性。在未来,长读序测序、单细胞微生物测序和微生物分离物的深度测序将为微生物遗传变异的鉴定提供更高的准确性和分辨率。第二,细菌基因组的突变率通常约为每代0.001,但不同物种之间差异很大。因此,对宿主遗传与细菌遗传变异的相互作用的分析应该集中在暂时稳定的遗传变异上。最近的一项研究评估了338名个体4年来肠道微生物群的遗传稳定性,并确定了几个物种,这些物种在其遗传组成中显示出个体特异性和时间稳定性。微生物遗传组成的个体特异性不仅可以归因于个体的环境暴露,也可以归因于宿主遗传。有趣的是,在生命早期通过母婴传播定居在肠道中的细菌物种随着时间的推移在遗传上是稳定的,并且具有高遗传性,例如双歧杆菌属物种。第三,微生物遗传变异的关联分析,而不是丰度或存在或不存在,带来了优势和挑战。其优势在于以更高的分辨率定义更具体的微生物“表型”,类似于疾病的内表型分析,这可以增强较小样本的功效。缺点是需要进行的统计检验数量增加,这将对检测能力产生负面影响,而检测功效已经是mbGWAS的最大问题。遗传变异体的数量可能在数百万甚至数万亿的规模,远远大于已识别的共同类群和途径的数量。我们设想,随着样本量在短期内可以实现,对微生物基因组使用降维方法(例如,关注单倍型或编码SNP)将是一种新的途径,可以获得对人类遗传-微生物遗传关联的早期见解。

 

图片
 

3:表征MGS的微生物组成和遗传景观。可从MGS数据中获得的关于微生物组组成、功能途径和细菌基因组遗传变异的信息示意图。

 

细菌代谢物和其他原子层面

值得注意的是,组学方法也已经扩展到微生物领域。例如,宏转录组和宏蛋白质组数据提供了与炎症性肠病和结肠癌相关的细菌途径活性的信息。粪便代谢组学可被视为肠道微生物组的功能读数,主要由肠道微生物组而非宿主基因决定。相比之下,血浆代谢组通常被视为宿主-微生物相互作用的结果。因此,微生物组的组学读数可被视为细菌内表型,以评估宿主遗传对微生物活性和功能的影响。当使用代谢组学数据作为微生物读数时,重要的是要认识到不同的场景面临不同的挑战。首先,将仅由微生物组产生的代谢物与那些受宿主遗传和微生物组控制的代谢物区分开来将是重要的。例如,短链脂肪酸、一些维生素家族和必需氨基酸只能从饮食中获得或由微生物产生。然而,一些代谢物的合成,如次级胆汁酸(BA)和三甲胺N-氧化物,是需要酶参与的,其产生受人类基因组和肠道微生物群的控制。对于这些代谢物,理清遗传学和微生物组的影响是很重要的。例如,在我们最近评估遗传和微生物对BA代谢的影响的研究中,我们使用次级BA与初级BA的比率来校正人类酶的活性。其次,即使对于微生物组驱动的代谢物,它们在粪便或血液中的丰度水平仍然是人类基因组和肠道微生物组的结果,并取决于微生物活性、宿主吸收、运输和消除。例如,95%的短链脂肪酸被结肠细胞吸收并用作能量来源,而只有5%被分泌到粪便中。与这些代谢物的遗传关联可能不仅指向参与微生物活动的基因,而且指向参与代谢物的吸收、使用、运输和消除的基因。第三,当我们将代谢视为微生物读数时,饮食是一个重要的混杂因素。三甲胺N-氧化物和短链脂肪酸的产生在很大程度上取决于肉类和纤维的摄入,但在mbGWAS分析中校正饮食通常很困难,因为在大规模队列中精确测量饮食成分仍然不可行。

 

肠道中的非细菌成员

除了上述途径,即增加研究样本量、对分类群进行定量分析和关注微生物遗传学,还可以通过研究肠道生态系统中大量未开发的非细菌群落(包括病毒、真菌和原生动物)获得更多见解。尽管肠道中病毒的数量与细菌的数量相似,但病毒体测序的低覆盖率和缺乏用于病毒体分析的通用标记使病毒的研究具有挑战性。可以应用特定病毒体的隔离方案,但是它们很耗时。此外,由于病毒比细菌更具个体特异性,这些分析需要比mbGWAS更大的样本量。

 

 

结论
 

肠道微生物组的遗传学仍然是一个处于起步阶段的领域,在复杂的人类特征上与早期GWAS有许多相似之处。我们预见过去15年从GWAS学到的经验教训,如需要更大的样本量和使用内表型,将帮助我们快速走向新的发现。在荟萃分析中,数据共享和结合GWAS的合作是人类复杂性状遗传研究取得进展的主要因素。因此,我们鼓励在微生物遗传学领域工作的研究人员接受这些科学实践。

即使样本量非常大,可以想象的是,可以用GWAS解释的宿主遗传对肠道微生物群的总体影响将保持适度,在1-10%的方差范围内。然而,我们相信,确定影响肠道微生物组的其他宿主遗传因素,即使是那些影响很小的因素,也将为复杂的宿主-微生物组相互作用提供重要的见解,并可以为疗法和个性化治疗提供信息。例如,LCT基因座中功能性变异的影响相当小,约为双歧杆菌物种丰度变化的0.8%,然而双歧杆菌物种与许多疾病有关,包括对抗癌治疗的反应。因此,结合基因和微生物组筛选有助于改善个性化治疗和预测药物反应。我们期望更大规模的研究将提供足够的力量来调查罕见变体的作用,从而识别其他功能性变异体,这可能为揭示药物反应异质性或开发旨在调节特定微生物的药物提供线索。

最后,我们期望将系统遗传学(多组学)方法应用于人类基因组和肠道微生物组,包括表达、蛋白质组学、代谢组学和其他组学层的整合,这将是未来更好地理解这一复杂的分类学跨界生态系统的必要过程。

 

 

天昊生物微生物测序相关链接:

 

 

询沟通请联系

18964693703(微信同号)

图片

创新基因科技,成就科学梦想





上海昊为泰生物科技有限公司 版权所有 沪ICP备18028200号-1
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886