我们最近与 Chan Zuckerberg Biohub (CZB) 的数据科学家 Lucy Li 博士坐下来进行了对话,讨论了她估计未报告的 COVID-19 病例的最新研究。该研究得到了 AWS 诊断开发计划的支持,该计划是一项全球计划,旨在支持致力于将更好、更准确的诊断解决方案更快地推向市场的组织。Lucy Li 博士,Chan Zuckerberg Biohub 的数据科学家告诉我们更多关于 Chan Zuckerberg Biohub 的使命和您的角色。我是 Chan Zuckerberg Biohub (CZB) 的数据科学家,我的背景是传染病流行病学。CZB 是一家非营利性研究组织,旨在为协作科学制定标准——科学技术领导者齐聚一堂,推动发现并支持在下个世纪治愈、预防和管理疾病的大胆愿景。我们的目标是了解疾病的基本机制,并开发新技术,以带来可作的诊断和有效的治疗。这是一项具有国际影响力的区域研究工作,湾区的领先机构——加州大学旧金山分校 (UCSF)、斯坦福大学和伯克利分校——与 CZB 联手,以促进影响,使世界各地的人们和合作伙伴受益。您能告诉我们您的新 COVID-19 研究吗?使 COVID-19 难以追踪的一件事是,并非所有感染者都会出现症状——我对估计真实感染人数非常感兴趣。病毒基因组在人群中传播时以相当恒定的速度发生变异,即使它在无症状个体中传播也是如此。这意味着每次有新感染的人,病毒都会发生一点变化,并且突变在传播过程中以相当恒定的速度发生。因此,即使我们无法对人群中的每个人进行检测,只要我们知道病毒变异的速度有多快,我们就可以推断出接受检测的人之间可能未检测到的传播事件数量。在这项研究中,我创建了一个数学模型来估计大流行期间亚洲、欧洲和美国 12 个地点未检测到的感染数量。研究结果是什么?我发现这些地方有非常广泛的感染未被发现。上海未被发现的感染率高达90%以上。我们还发现,随着时间的推移,发现病例的概率发生了显着变化。当病毒首次传播到这 12 个地点时,超过 98% 的感染在最初的几周内未被发现,这表明当开始进行密集检测时,流行病已经开始蔓延。这项研究的实际意义是什么——它现在对我们有什么帮助?了解有多少人被感染对于了解大流行的范围具有重要意义。虽然确诊感染人数非常多,但了解在确诊病例之外发生的额外感染人数可以帮助我们了解有多少人口已经受到该病毒的影响。这些数字也有助于评估公共卫生监测系统的有效性。要了解检测策略的效果如何,您可以查看未检测到的感染比例随时间的变化。与向医疗保健系统报告的感染相比,进行的检测和接触者追踪越多,未检测到的感染数量就越少。这些信息对于设计有效的公共卫生应对措施和干预措施也很有用,因为它突出显示了您所在国家或您所在州内可能需要更多检测资产的地点。AWS 云服务在帮助您的团队推进研究方面发挥什么作用?并行化在计算中,许多计算或过程同时进行。这允许将大问题分成多个较小的问题,可以同时解决。Amazon Web Services (AWS) 通过积分提供计算支持,还提供了 AWS 专业服务团队的专业知识,他们使用 Amazon Elastic Compute Cloud (Amazon EC2) 和 AWS Batch 帮助扩展了此分析。这些资源提供了一个框架,CZB 可以使用该框架在未来继续其他数据集的这项工作。从本质上讲,我们进行的每项分析都需要很长时间才能完成,并且需要大量计算。对于我使用的 12 个数据集中的每一个,我都必须测试数千个不同的参数集,并使用这些参数来模拟使用这些参数的流行病应该是什么样子,同时还要将其与我手头的数据进行比较。这个过程可能需要数小时甚至数天的时间。在 AWS 专业服务团队的支持下,我能够更好地并行化流程,以便我可以在合理的时间范围内开展工作,并且可以在几天而不是几个月内报告数据。具体来说,您是如何使用机器学习的?为了推断未被发现的感染数量,我使用了一个数学模型来描述冠状病毒如何从一个人传播到另一个人。我根据可用数据(来自 12 个地点中每个地点的病毒基因组)以及每个地点确诊病例的时间序列训练了模型。该模型的输出是感染总数——包括确诊病例和未发现的感染。该模型还帮助我们了解一些有趣的流行病学参数,例如繁殖数量和“超级传播”在导致这种大流行中所起的作用。早在 COVID-19 之前,CZB 就制定了一项重大的传染病倡议。COVID-19 对组织的整体工作产生了什么影响?在过去的几个月里,大多数在 CZB 从事传染病项目的人都将注意力转向了冠状病毒检测和研究。此外,Biohub 一直与加州大学旧金山分校和我们的姊妹组织 Chan Zuckerberg Initiative 合作,进行抗体检测和聚合链反应 (PCR) 检测,用于直接检测抗原的存在。Biohub 为应对这次冠状病毒爆发而开发的实验室和计算方法不仅将在短期内提高我们对 COVID-19 的了解,而且还将在更广泛的传染病基础上发挥作用。您有什么计划在这项研究的基础上再接再厉吗?我绝对有兴趣继续对美国不同的州和县进行此类分析,并定期重复。自从我第一次开始分析以来,网上已经存入了更多的病毒基因组。因此,我认为我本月将进行的分析将比我最近在论文中报告的更精确的感染人数估计。Biohub 正在不断努力,以便在未来几周和几个月内在加利福尼亚进行更多病毒测序。最终目标是向当地公共卫生部门提供这些结果,以便他们有另一个指标来跟踪感染数量,即使无法进行全人群检测。关于你的研究,你还有什么想强调的吗?一个有趣的结果——我们能够量化传播性的变化有多大。您可能听说过“生殖数”的概念,它描述了每个感染者造成多少次额外感染。但这个数字只是平均值——它并没有真正全面反映人们的个体生育数量的可变性。但通过这种基于基因组学的方法,我能够量化这种变异性。在这项研究中,我估计大约 80% 的感染是由前 30% 最具传染性的人群引起的。这个数字之前曾被估计为其他传染病,与大流行性流感等疾病相当,但不像 2003 年 SARS 爆发那么极端。2003年,很多SARS疫情都是由这些极端的“超级传播”事件引起的,单个个体导致数百人感染。在这次冠状病毒爆发中,仍然存在超级传播事件,但它们似乎在推动这场大流行向前发展方面发挥了那么大的作用。因此,虽然仍然存在个别超级传播者,但对于当前的冠状病毒大流行来说,也许更重要的是大量人群聚集在附近的地方的超级传播事件的贡献。





 与 CNBC 的吉姆·克莱默 (Jim Cramer) 的对话.jpg)




