重磅!噬菌体配型有望直接通过AI预测实现,实验员要失业了吗?

中文题目:仅用基因组信息预测整个大肠杆菌属中噬菌体-宿主菌株水平的相互作用

https://doi.org/10.1038/s41564-024-01832-5

通讯作者:Baptiste Gaborieau(巴普蒂斯特·加布里埃尔),任职于法国巴黎的AP-HP路易·穆里埃医院ESPRIT单位的重症医学科,同时也是巴黎巴斯德研究所、巴黎城市大学和法国国家科学研究中心(CNRS)UMR6047的整合与分子微生物学、噬菌体-细菌宿主相互作用研究领域的研究员。Aude Bernheim(奥德·伯恩海姆),在巴黎巴斯德研究所、巴黎城市大学和法国国家健康与医学研究院(INSERM)U1284的种子(SEED)项目中,领导微生物分子多样性实验室,专注于微生物的分子多样性研究。

摘要:预测噬菌体感染特定细菌菌株的能力,有望在噬菌体治疗和微生物生态学领域取得进展。目前尚不清楚,那些已经建立的噬菌体-宿主模型系统的动态是否能推广到微生物的广泛多样性中。在这里,我们展示了仅使用基因组数据,就能准确预测自然分离的大肠杆菌属菌株与噬菌体之间的相互作用结果(操作特征曲线下面积(AUROC)为86%)。我们实验性地建立了一个包含403种不同大肠杆菌菌株和96种噬菌体之间相互作用的数据集。大多数相互作用可以通过吸附因子来解释,而抗噬菌体系统的作用较小。我们训练了预测算法,并指出了预测不准确的相互作用,以指导未来的研究工作。最后,我们建立了一个流程,推荐定制的噬菌体混合物,在100个致病性大肠杆菌分离株上展示了效率。这项工作为噬菌体-宿主特异性提供了定量见解,并支持在噬菌体治疗中使用预测算法。主要内容

在临床环境中使用噬菌体(感染细菌的病毒)来对抗细菌感染(噬菌体治疗),是解决对多种抗生素有抗性的细菌病原体的潜在解决方案。预测哪些噬菌体能精确靶向并感染细菌,有可能通过噬菌体加速治疗的可用性和有效性。

成功的噬菌体感染细菌细胞是一个多步骤的过程,涉及不同的细菌和噬菌体特征,包括细菌宿主的噬菌体受体(例如,表面多糖、膜蛋白)及其抗病毒武器库,以及它们的病毒对应物:噬菌体受体结合蛋白(RBP,例如尾蛋白)和抗防御机制(例如,抗CRISPR或抗限制修饰系统)。这些特征在自然群体中可能高度多样,即使是密切相关的细菌和噬菌体也是如此。因此,大多数噬菌体只能感染单一细菌物种内的宿主,甚至通常是菌株特异性的。由于大多数关于噬菌体-细菌相互作用的研究都集中在少数模型配上(例如,大肠杆菌K-12菌株和/或lambda或T噬菌体),目前尚不清楚在这些模型生物上获得的知识在多大程度上足以捕捉到在野外遇到的广泛的噬菌体-细菌相互作用。

最近开发的生物信息学工具可以从它们的基因组中表征细菌和噬菌体特征,现在可以更精细地表征涉及噬菌体-细菌特异性的多样化特征。当前的算法通常可以确定给定噬菌体能感染哪个细菌属,但不能在更深的分类水平上进行预测。最近的研究已经使用基因组特征来解码不同细菌物种内的噬菌体-细菌相互作用,为从它们的基因组预测噬菌体-细菌特异性铺平了道路。在这项工作中,我们旨在预测大肠杆菌属内大量和多样化的细菌菌株和噬菌体之间的噬菌体-宿主特异性。构建多样化的大肠杆菌菌株和噬菌体集合

为了构建能够预测任何大肠杆菌菌株与任何噬菌体之间相互作用的算法,我们首先需要一个实验数据集,记录了大肠杆菌菌株集合和噬菌体集合之间的相互作用。我们还需要这两个集合,细菌和噬菌体,足够大且多样化,完全测序和基因组特征化。据我们所知,这样的数据集尚不可用。因此,我们决定从头开始构建一个。Bertrand Picard收集的403个细菌菌株代表了大肠杆菌属的多样性

首先,我们汇集了一个包含403个自然分离株的集合,我们以法国医学细菌学家Bertrand Picard的名字命名,他在20世纪80年代初开始收集这个集合(见补充文本1)。这个集合由369个自然分离株组成,这些分离株在以前的研究中已经得到了很好的表型特征化,以及34个在这个研究中用于分离噬菌体的菌株。在建立这个集合时,重点是包含大肠杆菌的多样性(见图1a-e和补充文本2及表1)。

图1:生成两个大型和多样化的大肠杆菌细菌菌株(Picard集合)和噬菌体(Guelin集合)。a-j,Picard细菌菌株集合(n=403)涵盖了大肠杆菌属的系统发育多样性,并具有广泛的潜在噬菌体受体和反噬菌体系统。a,细菌分离株的系统发育树。大肠杆菌属的每个物种以及大肠杆菌物种的八个系统发育群(A至G)和Clade I都用从棕色到橙色的温暖颜色表示。三个环分别代表不同的163个ST、93个O抗原类型和41个不同的H抗原类型。b,细菌序列类型的频率。c,细菌O抗原的频率。d,按病理类型划分的分离株数量。ExPEC,体外致病性大肠杆菌;InPEC,体内致病性大肠杆菌。e,按生态来源划分的分离株数量。人类来源包括粪便、尿液或血液样本。f,根据LPS外核心类型划分的分离株数量。有些菌株无法对此特征进行分型(n=36)。g,细菌胶囊血清型的频率(ABC胶囊类型)。在171个具有ABC依赖性胶囊的分离株中,我们鉴定出101个具有K抗原,检索到最描述的大肠杆菌胶囊血清型。h,外膜蛋白变体的数量,称为候选噬菌体受体。在12个先前被识别为大肠杆菌噬菌体潜在受体的外膜蛋白中,鉴定出了大量的变体(基因簇具有>99%的基因组身份)。i,每个细菌基因组中防御系统亚科的数量。j,细菌防御系统亚科的频率。k,1122个大肠杆菌噬菌体基因组的网络表示。Guelin噬菌体集合(n=96,彩色点)涵盖了针对大肠杆菌属的Caudoviricetes噬菌体的多样性。它们的分类分布是在1,026个完整的大肠杆菌噬菌体基因组(灰色,Genbank数据库)的背景下分析的。每个基因组由一个节点(点)表示;边缘(线)是根据共享的蛋白质组数量计算的。Guelin集合中的噬菌体按其属分类,这些属按形态型分组。

我们试图表征可能影响噬菌体敏感性的细菌基因组特征。我们鉴定了已知的细菌表面结构,这些结构可能是噬菌体的潜在受体,揭示了这些结构的广泛多样性:O抗原、脂多糖(LPS)的外核心类型、来自ATP结合盒(ABC)依赖性胶囊的胶囊血清型和Klebsiella胶囊血清型,以及膜蛋白。我们接下来关注细胞内防御,鉴定了已知的反噬菌体系统。平均来说,一个分离株编码8个防御系统亚科,菌株间存在相当大的异质性(即,从1到16个防御系统)。有些系统很普遍(例如,MazEF或RM类型I),而许多系统只存在于少数分离株中。因此,我们对Picard集合的基因组分析提供了与噬菌体-细菌相互作用研究相关的大量基因组特征。Antonina Guelin收集的96种噬菌体涵盖了大肠杆菌噬菌体的大类群多样性

然后,我们构建了一个包含96种感染大肠杆菌的裂解性噬菌体的集合,我们以法国医生和生物学家Antonina Guelin的名字命名,她曾在巴斯德研究所的噬菌体实验室工作了25年(见补充文本3)。我们从巴黎地区(法国)的不同地点收集的污水中分离出这94种噬菌体。两个典型的裂解性大肠杆菌噬菌体T4和T7被添加到其他94种噬菌体中。重要的是,这96种噬菌体是在34个细菌菌株上分离的,这些菌株都包含在Picard集合中。用于分离和传播噬菌体的菌株覆盖了66%的大肠杆菌系统发育群。Guelin集合中的所有噬菌体都属于三种Caudoviricetes形态型(肌尾病毒、长尾病毒和短尾病毒)。这个集合涵盖了8个亚科和19个噬菌体属。

总的来说,我们构建了两个参考集合,分别针对大肠杆菌属的细菌分离株和噬菌体,并进行了基因组特征化。我们假设这两个集合足够大且多样化,可以推断出在大肠杆菌属菌株水平上调控噬菌体-细菌相互作用的一般规则。

噬菌体-细菌相互作用的实验数据集

在建立了Picard和Guelin集合之后,我们评估了每个菌株对每个噬菌体的敏感性。为此,我们测试了每种可能的噬菌体-细菌组合。通过噬菌斑实验评估了菌株对噬菌体的敏感性(见方法),使用三种不同的噬菌体浓度,对应于噬菌体与细菌数量之间的近似比例为10、1和0.1(见图2a)。对于每对噬菌体-细菌,将相互作用数据点汇总成一个单一的相互作用评分:“最小裂解浓度”(MLC)评分,这对应于观察到裂解相互作用的最低噬菌体浓度(方法)。这种编码允许以半定量的方式评分每次相互作用(见图2b)。得到的噬菌体-细菌相互作用矩阵包括38,688个噬菌体-细菌相互作用(见图2c)。我们提供了所有噬菌斑实验的图片,以便在未来的研究中探索这个数据集(见“数据可用性”)

图2:在大肠杆菌属中38,688个噬菌体-细菌相互作用的矩阵揭示了复杂模式。a,b,噬菌体-细菌相互作用结果确定的示意图。a,实验设置。我们通过噬菌斑实验调查了每种噬菌体-细菌相互作用组合,噬菌体浓度不同(即,噬菌体:细菌比例大约为10、1和0.1)。每个实验都进行了三次重复。b,MLC评分分配的示意图。每列对应于如何确定MLC评分的一个例子。噬菌体-细菌相互作用使用MLC编码,MLC对应于观察到细菌草坪溶解的最低噬菌体浓度。0,未观察到裂解相互作用;1,在最高的噬菌体滴度(5×10^8 p.f.u. ml−1)观察到裂解相互作用;2,在中等噬菌体浓度(5×10^7 p.f.u. ml−1)观察到裂解相互作用;在最低噬菌体浓度(5×10^6 p.f.u. ml−1)观察到的相互作用分为3(单个化裂解斑点)和4(整个细菌草坪溶解)(方法)。c,噬菌体-细菌相互作用矩阵。每列是一个噬菌体。每行是一个细菌分离株。颜色对应于噬菌体病毒属和细菌系统发育群。噬菌体和细菌根据它们在图1中确定的系统发育接近程度分布。矩阵中蓝色的强度对应于MLC评分。d,每个细菌被噬菌体感染的百分比。图表表示按能够感染它们的96种噬菌体的百分比分层的细菌分离株数量(每5%噬菌体敏感性)。e,每个噬菌体感染的分离株百分比。图表表示按它们能够感染的403个分离株的百分比分层的噬菌体数量。f,根据噬菌体形态型的噬菌体-宿主范围的广度。每个数据点对应于Guelin集合中的一个噬菌体(n=96)。噬菌体按形态型(肌尾病毒、长尾病毒、短尾病毒)分组。在每个箱线图中,箱体以中位数为中心,从第一到第三四分位数。须延伸到四分位范围内1.5倍最远的数据点(单向方差分析,F=114.7,****P=1.44×10^-26;NS,不显著)。

每个噬菌体平均能感染83(±70)个细菌菌株(占Picard集合的20.6%),而一个细菌分离株平均可以被20(±15)个噬菌体裂解(占Guelin集合的20.8%)。只有12(3.0%)个分离株没有被任何噬菌体感染。我们在噬菌体组和细菌组之间观察到了重要的差异。虽然我们对大肠杆菌噬菌体-细菌相互作用的了解基本上基于模型细菌菌株(K-12, 大肠杆菌B),但不到一半的噬菌体能感染大肠杆菌B菌株,35.4%的大肠杆菌K-12。肌尾病毒的宿主范围明显比短尾病毒和长尾病毒广(平均41.3%的裂解相互作用对比11.1%和9.1%;单因素方差分析(ANOVA):F=114.7, P<10−3;见图2f和补充文本4)。整个矩阵显示出整体嵌套模式(补充文本5和扩展数据图2)。

总的来说,对相互作用矩阵的全球分析表明,我们广泛的噬菌体集合,以其多样性为特征,导致20.3%的噬菌体-细菌对在大肠杆菌属菌株水平上发生裂解相互作用。

噬菌体RBP与噬菌体-宿主范围高度相关

然后,我们想利用这个实验数据集来预测噬菌体-细菌相互作用。一个直接的方法是使用我们数据集中的38,688个噬菌体-细菌相互作用来训练一个机器学习算法。这样的算法所接受的输入特征可能是任何可能影响细菌对噬菌体敏感性的因素,包括吸附因子或反噬菌体防御系统。然而,集合中吸附因子(例如,O抗原的90多个血清型)和防御系统家族(100多个家族)的多样性使得作为输入特征提供的候选特征数量相当可观。这可能导致机器学习过度拟合其训练数据集,失去泛化能力。因此,我们试图通过更好地理解哪些基因组特征在我们数据集中调控噬菌体-细菌相互作用,并量化它们的解释能力,来减少输入到我们模型的特征数量。

首先,我们检查了矩阵中的噬菌体感染模式。我们发现,同一病毒属(全基因组长的核苷酸身份超过70%)的噬菌体在感染模式上比随机抽取的两个噬菌体更相似(置换方差分析(PERMANOVA),调整后的R2=0.13, P<10−5)。我们进一步观察到,噬菌体-宿主范围的主要解释变量是其分离株。这两个变量之间的相互作用解释了距离矩阵方差的>60%(PERMANOVA,调整后的R2=0.65, P<10−5)(见图3a)。然后我们研究了哪些特定的基因组特征可以解释噬菌体感染。在同一属噬菌体之间的比较基因组学表明,大多数核心基因在每个属内氨基酸身份方面高度保守,而编码尾刺或尾纤维蛋白的基因是系统变异的热点。此外,我们观察到,这些尾刺和尾纤维编码基因在相同菌株上分离的噬菌体之间比在不同分离株上分离的噬菌体之间更保守(见图3b和扩展数据图3)。尾纤维和尾刺基因已知编码RBP。因此,我们假设RBP可能是解释相互作用矩阵中观察到的感染模式的主要噬菌体特征,这得到了我们数据集中一些例子的证实(见补充文本6和扩展数据图4)。在96种噬菌体中系统鉴定RBP表明,噬菌体执行的裂解相互作用数量与其编码的RBP数量无关,而更可能受到其RBP的靶向特异性的影响(见补充文本7)。

图3:噬菌体分离株和受体结合蛋白是噬菌体-宿主范围的主要决定因素。a,噬菌体属和分离株与噬菌体-宿主范围相关。左:使用均匀流形近似和投影(UMAP)算法降低噬菌体-宿主范围的维度。403维向量编码了每个噬菌体与所有细菌的二元相互作用,减少到2维向量。每个噬菌体的颜色表示其属,字母表示它被分离和传播的细菌菌株。右:UMAP图上两个放大框中的噬菌体的宿主范围。噬菌体根据其宿主范围相似性进行聚类。蓝色阴影表示分配给每个噬菌体与每个细菌之间相互作用的MLC评分(Ø,无感染)。b,噬菌体RBP是基因组变异的热点,并且在相同宿主上分离的噬菌体中更保守。左上:使用Clinker生成的六个代表性Vectrevirus属噬菌体的基因组图。这六个噬菌体被分离在四个不同的菌株上,用字母表示。基因根据其功能注释着色:RBP(蓝色)或其他(灰色)。每对在同一位点的基因之间的笔画表示氨基酸序列相似性的百分比。左下:基因组比对的位置熵。包括这六个噬菌体基因组的多重整个基因组比对,并在比对的每个位置上基于核苷酸分布计算香农熵。熵越低,表明在多重序列比对中给定位置上核苷酸的保守性越强。右:在基因组图中展示的六个噬菌体的宿主范围。

吸附因子驱动细菌对噬菌体的敏感性

我们研究了哪些细菌特征与细菌感染模式最强相关,特别是试图评估吸附和细胞内防御的相对重要性。为此,我们评估了细菌吸附因子和防御系统与被每个噬菌体感染的概率之间的关联。我们为每个噬菌体拟合了一个广义线性混合模型(GLMM),旨在解释其相应噬菌体基于吸附因子和防御系统亚科的裂解相互作用。总共有30个细菌吸附因子与噬菌体裂解相互作用显著相关,而只有2个防御系统也是如此(见图4a)。我们还采用了一种补充的统计方法,得到了类似的结果(见补充文本8)。这表明细菌吸附因子是解释总体感染模式的最佳变量,反映了噬菌体的情况。

图4:细菌吸附因子是噬菌体-细菌相互作用的主要决定因素,与防御系统相比,后者在降低感染噬菌体的毒力方面作用较小。a,与噬菌体裂解相互作用显著相关的细菌吸附因子和防御系统的数量。为每个噬菌体拟合了一个二项式GLMM,以解释其相应噬菌体基于吸附因子和防御系统亚科的裂解相互作用。然后我们计算每个细菌特征(吸附因子或防御系统)与裂解相互作用显著相关的次数。如果pMCMC<10^-3,我们认为关联是显著的。b,每个单个细菌吸附因子与噬菌体裂解相互作用显著相关的次数。如a,每个噬菌体的相互作用拟合了一个二项式GLMM,并将细菌系统发育作为随机效应。每个模型只考虑细菌吸附因子作为协变量。K型,ABC依赖的K抗原血清型。LPS OC,LPS外核心。O型,O抗原血清型。c,每个细菌分离株经历的感染次数与检测到的抗病毒防御系统数量的函数关系。每个数据点对应于Picard集合中的一个细菌菌株(n=403)。显示的最佳回归线是通过拟合一个LMM获得的,该模型以防御系统数量为协变量,并将核心细菌系统发育作为随机效应。d,每个菌株观察到的平均MLC与检测到的抗病毒防御系统数量的函数关系。如c,每个数据点对应于Picard集合中的一个细菌菌株(n=403),并且表示通过拟合一个LMM获得的最佳拟合线,该模型将防御系统数量作为协变量,并考虑核心细菌系统发育作为随机效应。只有在拟合LMM时才包括裂解(MLC>0)相互作用。

然后我们试图更精确地表征哪些吸附因子与矩阵中的噬菌体感染最相关。为此,我们为每种噬菌体感染模式拟合了一个不同的GLMM,只考虑细菌吸附因子作为协变量。在这里,我们确定了总共有27个吸附因子与Guelin集合中24种噬菌体的裂解相互作用显著相关。线性模型得出的最频繁的吸附因子大多是与表面多糖相关的特征(K血清型、LPS外核心或O抗原血清型)。在几项研究中常被识别为噬菌体受体的外膜蛋白,在我们的数据集中与噬菌体感染无显著关联。重要的是,特定的吸附因子,如Klebsiella胶囊血清型,在矩阵中的感染模式中显示出显著但微弱的定量关联(PERMANOVA,调整后的R2=0.02, P<10−3)。尽管这些特征与感染模式的定量关联较弱,但值得研究,因为它们突出了矩阵中的局部非平凡模式(例如,扩展数据图5)。

反噬菌体系统在预测相互作用中的作用较小

由于我们对反噬菌体系统在宿主范围上的有限解释能力感到惊讶,我们进一步研究了它们对噬菌体-细菌相互作用的影响。首先,我们评估了编码更多防御系统的细菌是否会受到更多噬菌体的保护。我们没有发现这种关联的证据(线性混合模型(LMM),βNum DS=−0.22, 95%可信区间=[−0.74, 0.34],后验分布下零的概率(pMCMC)=0.41)(见图4c)。我们进一步假设细菌反噬菌体系统在噬菌体被吸附并开始复制周期后起作用。这意味着,一个菌株编码的防御系统数量的增加不会影响感染噬菌体的数量,但会使感染噬菌体的毒力降低(即,MLC评分降低)。我们观察到,菌株中编码的防御系统数量与其在噬菌体感染后的平均MLC之间存在低但显著的相关性(只考虑裂解相互作用)(LMM,βNum DS=−0.04, 95%可信区间=[−0.05, −0.01], pMCMC=4×10−3)(见图4d, 补充文本9和扩展数据图6)。这些结果强烈表明,细菌菌株的防御系统数量不影响我们相互作用数据集中的噬菌体感染概率,但可能会轻微影响对已经感染的噬菌体的敏感性水平。总的来说,这些结果表明,细菌防御系统不是预测大肠杆菌属噬菌体-细菌相互作用所必需的,可以从作为输入特征提供给我们模型的候选特征集中移除。

吸附因子足以预测相互作用

确定了细菌和噬菌体基因组特征后,我们大大缩小了作为输入特征提供给模型的特征数量,该模型旨在预测大肠杆菌属菌株水平上的噬菌体-细菌相互作用。鉴于统计推断的结果,我们假设吸附因子单独足以预测噬菌体-细菌相互作用。为了测试这个假设,我们训练了机器学习模型来预测噬菌体-细菌相互作用作为一个二元分类任务(即,裂解与非裂解相互作用)(方法)。针对每个噬菌体的模型评估了其泛化到以前未见过的细菌菌株的能力,并在接收者操作特征曲线(AUROC)上平均达到了85%(见图5a)。当考虑到所有38,688个噬菌体-细菌相互作用作为一个整体时,在组10折交叉验证上获得了86%的整体AUROC(平均精度=60%, F1分数=60%)(见图5b,d)。这对于只有10%或更少裂解相互作用的细菌来说也是如此,这表明即使在强类别不平衡的情况下也具有良好的泛化能力(见图5c)。我们实现的预测性能表明,吸附因子足以准确预测我们数据集中的噬菌体-细菌相互作用。我们对哪些噬菌体-细菌相互作用被正确预测的详细了解为进一步研究提供了路线图,因为它将使我们能够专注于当前基于基因组的预测模型未能捕获的3,379个假阴性和2,922个假阳性,总共38,688个相互作用(见图5d)。

图5:吸附因子足以准确预测噬菌体-细菌相互作用,即使是对于很少有裂解相互作用的噬菌体也是如此。a,噬菌体特异性模型的预测性能分布。为每个噬菌体拟合了一个分类模型,并在组10折交叉验证上进行评估。每个噬菌体特异性模型在验证集上的性能是通过AUROC指标测量的,并在所有交叉验证折叠中平均。每个细菌菌株的一个AUROC分数被计算出来,以测量每个模型泛化到以前未见过的细菌的能力。b,预测算法在96个噬菌体中的总体预测性能。每个噬菌体特异性模型在每个交叉验证折叠的验证集上的预测结果被汇总到一个38,688个预测相互作用的集合中。使用ROC曲线(蓝色)和精确度-召回曲线(绿色)评估获得的模型的预测性能。c,噬菌体特异性模型的预测性能分布,作为噬菌体裂解相互作用数量的函数。每个噬菌体特异性模型(n=96)在每个交叉验证折叠的验证集上的性能被平均,并针对其相应噬菌体执行的裂解相互作用数量进行绘制,这给出了分类问题中的类别不平衡程度。d,仅使用吸附因子和核心系统发育获得的预测矩阵。为每个细菌噬菌体训练了一个分类模型,以预测相互作用矩阵中的噬菌体-细菌相互作用。每个模型都以相同的细菌吸附因子以及细菌的核心系统发育作为输入。它们在组10折交叉验证上进行训练和评估。在交叉验证过程的每轮中,将验证集上获得的预测结果与真实情况相比较,并报告在这个预测矩阵中。蓝色,真阳性。红色,假阳性。灰色,假阴性。白色,真阴性。

我们接下来评估了我们的预测模型是否可以用于噬菌体治疗框架,在这个框架中,将几种裂解性噬菌体组合成一个噬菌体混合物,以针对特定的致病细菌菌株(以下简称“查询”菌株)。我们的目标是基于细菌基因组特征,仅此而已,设计一个基于机器学习的噬菌体混合物推荐系统,以针对致病性大肠杆菌菌株。然后我们想在体外评估这个算法在一组以前未见过的大肠杆菌致病分离株上的表现(见图6a)。

图6:一个推荐系统允许基于它们的基因组特征为以前未见过的致病细菌设计噬菌体混合物。a,实验方案。在原始相互作用矩阵上训练的推荐算法用于预测“测试”集合中的100个未见过的大肠杆菌致病分离株与Guelin集合中的任何噬菌体之间的相互作用,仅基于其基因组特征。向查询菌株推荐三个噬菌体的混合物。然后通过挑战测试集合中的每个菌株与其推荐的混合物以及基线混合物(三个最覆盖的噬菌体三元组)在六个不同的噬菌体浓度(从5×10^3至5×10^8 p.f.u. ml-1)来评估推荐的混合物。b,菌株的系统发育树。与Picard集合的403株菌株一起计算100个测试菌株(黑色三角形)的核心系统发育。c,测试集合中每个18种不同混合物推荐的大肠杆菌菌株数量。根据它们在管道步骤中推荐噬菌体的步骤,将推荐的混合物(从A到R命名;n=18个不同的混合物)分为通用或定制两类。d,在测试集合上推荐的混合物的体外成功率。成功率是每种类别的混合物执行的裂解相互作用的百分比除以推荐该类别混合物的总次数。根据其类别(基线、通用、定制)对混合物进行分组。每个混合物(n=100)在3个生物学重复上进行测试。e,在测试集合上获得的分箱MLC。将MLC分数(范围从0到6)分箱为四个有序类别:Ø(无感染,MLC=0)、L(低,1≤MLC≤2)、M(中等,3≤MLC≤4)和H(高,5≤MLC≤6)。每个混合物(n=100)在3个生物学重复上进行测试。星号表示混合物组之间的统计学显著差异(双侧Mann–Whitney测试,*P(定制与基线)=0.019,*P(定制与通用)=0.034和NSP(通用与基线)=1.0)。

我们决定使用三个噬菌体的混合物,这在效率和简洁性之间提供了一个很好的折衷(见补充文本10和扩展数据图7)。然后我们设计了一个推荐系统,该系统依次经历四个步骤,并在推荐了三个噬菌体后停止(见图6a和扩展数据图8)。这四个步骤在方法中详细说明。这种推荐算法的组织理念是优先考虑经验上测量精度更高但通常不够全面的步骤,而不是更全面但精度较低的步骤。

然后我们评估了我们的推荐系统对100个以前未见过的新的大肠杆菌分离株的泛化能力,这些分离株负责呼吸机相关肺炎(VAP)(见图6a,b和补充表6)。噬菌体混合物仅基于这100株的基因组特征进行推荐。总共为整个测试集合推荐了18种不同的噬菌体混合物(见补充表7)。我们观察到,根据管道步骤推荐噬菌体的步骤,可以将推荐的混合物分为两类。首先,一些混合物(n=15, 推荐给24个测试细菌)包含在管道的早期阶段推荐的噬菌体(在文中其余部分称为“定制”),而其余的混合物(n=3, 推荐给76个细菌)在管道的后期阶段被推荐(在文中其余部分称为“通用”)(见图6c)。这种行为是我们推荐算法的管道组织的直接结果,反映了一些细菌——那些推荐定制混合物的——容易被管道处理,而其他细菌处理起来更困难,倾向于推荐通用混合物。因此,定制混合物有时包含非常特定的噬菌体(例如,T145_P2,感染原始集合的13.1%)通常在管道的早期被推荐,相比之下,通用混合物只包含通常在管道后期推荐的广谱噬菌体(扩展数据图9)。为了评估我们算法的性能,我们将定制和通用混合物与一个不了解情况的基线混合物进行了比较。后者对应于最覆盖的三重噬菌体混合物,即在原始相互作用矩阵中裂解最多细菌的三个噬菌体的混合物。这个基线混合物在原始Picard集合的63%上产生了有效的裂解。

然后我们通过噬菌斑实验评估了定制、通用和基线混合物。在这个实验设置中没有观察到噬菌体之间的拮抗或协同作用(见补充文本11)。为了评估混合物的性能,我们首先比较了每种方法裂解细菌的总体百分比。基线和通用推荐有类似的成功率(81%和78%的细菌被裂解),而定制混合物在被推荐的细菌上有更高的成功率(91.67%的细菌被裂解)(见图6d)。其次,我们评估了每个混合物在其推荐菌株上的MLC。定制混合物显著优于基线(双侧Mann-Whitney测试:U=399.5, P=0.02)和通用混合物(双侧Mann-Whitney测试:U=1171.5, P=0.02;见图6e)。总的来说,我们的算法成功地仅基于基因组数据推荐了定制的噬菌体混合物。推荐的混合物可以补充典型的临床使用的广泛基线方法。

讨论

我们的工作表明,从基因组中以较高的准确性预测噬菌体-宿主特异性是可行的。在403个大肠杆菌分离株和96个噬菌体之间的38,688个相互作用中,我们基于识别的噬菌体基因组特征解释了噬菌体-宿主范围方差的65%。我们从细菌基因组特征预测噬菌体-细菌裂解相互作用,AUROC为86%。我们进一步表明,这些预测可以被用来设计定制和高效的噬菌体混合物。

尽管有局限性,我们的发现提供了一个清晰的图景,即在我们的自然大肠杆菌分离株集合中,吸附因子起着主要作用,而反噬菌体系统的影响较小。与以前对Vibrio crassostreae的研究不同,我们的数据没有显示出反噬菌体系统塑造了噬菌体-宿主范围。这可能源于我们集合的更广泛的进化范围。更广泛的进化范围允许更高的吸附因子多样性,而防御转换在较小的系统发育距离上已经很高。我们表明,更多的防御系统与感染的毒力降低有关,但效应大小很小。这可以用“泛免疫系统”假说来解释(自然细菌群落是异质的,单个菌株只编码了社区所有防御潜力的一小部分)。这也可能表明反噬菌体系统的替代生态角色,例如参与移动遗传元素之间的竞争。这是否适用于其他细菌属还有待确定。

我们的发现不仅量化了噬菌体-细菌相互作用的关键驱动因素,还为进一步的理解提供了路线图。矩阵的深度和广度以及基因组和表型特征使我们能够高效地映射现有知识,从而可以指导未来的研究到当前模型未解释的相互作用。这种系统方法可以应用于不同的细菌物种,包括其他ESKAPE病原体,以推进我们的理解。

最后,我们使用预测来通知噬菌体治疗应用,通过演示需要在多样化的菌株上分离噬菌体,并训练噬菌体混合物推荐系统。我们的流程,连同其他最近的工作,允许临床医生输入一个致病菌株的基因组,并接收定制的混合物推荐,以提高成功率和更强的裂解。这个算法利用基因组数据,简化了噬菌体选择,增强了个性化医疗框架内的治疗效果。

夫妻同心其利断金的由来,夫妻同心其利断金什么意思
女人小肚子大的原因是什么