NVIDIA DynoSim 开源发布：1500 倍速仿真 LLM 服务部署的 Pareto 最优解 | 新闻中心

现代 LLM 服务部署的调优极其复杂，每个部署都涉及模型后端、张量并行度、prefill/decode 分离、工作线程数、调度策略、路由策略、KV 缓存行为、自动扩缩容阈值和拓扑结构等一系列相互影响的参数选择。这些选择在不同层级间交互影响，局部优化可能只是将瓶颈转移到其他环节。对于大型模型，一个实验就可能需要占用大量 GPU 资源。

NVIDIA 最新开源的 DynoSim 正是为解决这一难题而设计。它是 NVIDIA Dynamo 服务栈的离散事件仿真"孪生体"，结合了实测引擎前向传播时间、Mocker 调度器核心、Router 和 Planner 行为、KV 缓存效应以及工作负载轨迹，在同一个虚拟时间线上进行仿真。目标不是纯分析估算，也不是精确硬件模拟器，而是在前向传播的原子层级上忠实地再现完整服务栈行为。

DynoSim 用 Rust 实现，性能惊人。在一台 Apple M4 MacBook Air 上，单线程 Rust 离线回放仅用 2.41 秒即可模拟完整的 23,608 请求 Mooncake 轨迹，模拟的服务窗口为 60.1 分钟，相当于真实时间的约 1,500 倍速。

DynoSim 采用离散事件仿真架构，包含虚拟时钟和事件队列。组件无需等待实时时间，而是调度具有模拟持续时间的未来事件：请求到达、调度步骤、前向传播、KV 传输、工作线程启动或 Planner 动作。运行时直接跳转到下一个时间戳，更新系统状态。从负载生成器到路由决策、引擎调度、前向传播时间估计、KV 缓存处理，直到最终输出 token，每个组件决策都会改变未来事件。

有了 DynoSim，运维团队可以在现有硬件上绘制工作负载的 Pareto 前沿曲线，在花费 GPU 时间之前筛选数千个候选配置。同时，auto-research 风格的工作流还可以提出 Router 成本函数、Planner 启发式策略或缓存策略的算法改进建议，并快速验证其效果。

对于规模化部署 LLM 服务的企业来说，DynoSim 意味着可以在几分钟内完成以前需要数天和大量 GPU 资源的部署优化探索，显著降低 LLM 服务调优的时间和经济成本。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA DynoSim 开源发布：1500 倍速仿真 LLM 服务部署的 Pareto 最优解 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询