新冠病毒的溯源研究是一个重要的科学问题。新冠病毒对全球健康和安全稳定了构成巨大的威胁,截至2021年11月10日,已经导致超过2.5亿人感染,505万人死亡(https://covid19.who.int)。现有研究认为SARS-CoV-2可能来源于蝙蝠和穿山甲,但仍有争议,这种不确定性为各种误传和信息滥用留下了空间。确定易受SARS-CoV-2感染的宿主物种,包括SARS-CoV-2的来源和中间物种,仍然是COVID-19研究的核心科学目标之一。
SARS-CoV-2进入宿主细胞需要其刺突(S)蛋白和宿主血管紧张素转换酶2(ACE2)的结合。SARS-CoV-2刺突(S)蛋白与来自非人类物种的ACE2之间的结合能力表明这些物种对SARS-CoV-2的易感性;结合生态学数据和进化证据,可辅助确定相关物种为SARS-CoV-2的可能起源和/或中间宿主。因此,筛选出多物种ACE2与SARS-CoV-2的S蛋白之间的结合是非常必要的。目前可用的生物信息学方法具有极高的假阴性率,仍然无法精确预测SARS-CoV-2刺突(S)蛋白和不同物种ACE2的结合。
图注:预测模型构建流程
王军团队因此提出利用机用多种器学习方法构建预测模型,判定不同ACE2与新冠病毒spike结合能力,并且选择了12个来源于蝙蝠的ACE2进行实验验证用以确认其结合能力。在预测能结合的6个ACE2中,有4个被验证能结合;同时,在预测的6个ACE2中,有5个被证实为不能结合,精确度到达了80%。该研究还通过两个独立的测试集进验证了预测结果,涉及>50种蝙蝠物种,并达到>78%的准确率。最后,利用该方法对204种哺乳动物的大规模筛选显示,有144种(或61%)对SARS-CoV-2是易感的,突出了对哺乳动物进行密集监测和研究的重要性。
该研究以“Machine Learning Approach Effectively Predicts Binding BetweenSARS-CoV-2 Spike and ACE2 Across Mammalian Species— Worldwide, 2021”为题在《中国疾病预防控制中心周报》(CCDC Weekly)的COVID-19专刊上发表。中国科学院微生物研究所病原微生物与免疫学重点实验室博士生马越,博士生胡钰为并列第一作者,中国科学院微生物研究所王军研究员和王奇慧研究员为通讯作者,中国科学院微生物研究所高福院士为共同作者。该研究得到了中国科学院战略性先导科技专项,国家自然科学基金新冠专项和山东省重大科研项目的经费支持。