数十年来,计算生物学一直处于一种还原论妥协之下。为了将复杂的生物系统适配到单张GPU的有限内存中,研究人员不得不牺牲模型的规模和保真度。NVIDIA BioNeMo引入了上下文并行技术,使生物分子模型的训练和推理能够跨多张GPU扩展。上下文并行将序列维度上的计算分布到多个GPU上,每个GPU处理序列的不同片段,通过高效的通信机制在需要时交换边界信息。
在蛋白质语言模型(如ESM2)和基因组学模型(如Evo 2)的训练中,上下文并行使模型能够处理更长的序列——从数千个氨基酸扩展到数百万个碱基对。这对于理解基因调控、剪接模式和染色质结构等依赖于长程相互作用的问题至关重要。通过NVIDIA NVLink和InfiniBand的高速通信,上下文并行在扩展到数百GPU时仍保持接近线性的加速效率。BioNeMo上下文并行使计算生物学家能够在保持训练效率的同时,将模型规模和序列长度提升一到两个数量级,为基因组学和蛋白质工程领域的研究开辟了新的可能性。
WeChat
Profile