NVIDIA 用 NeMo Agent Toolkit 强化代码生成：把测试驱动修复流程做成可迭代智能体 | 新闻中心

大模型已经能写代码，但在真实开发场景里，“能生成一段代码”与“能持续把问题修好”之间还有明显差距。NVIDIA 这篇文章关注的，正是如何利用 NeMo Agent Toolkit 把代码生成从一次性回答，升级为可反复执行、能跑测试、会根据报错继续修正的智能体工作流。

文章采用的是典型的测试驱动思路：先给定问题描述、待修复代码和对应单元测试，再让 agent 生成补丁并在沙箱环境中运行测试；如果测试失败，系统不会直接结束，而是把错误输出重新交给推理模型，让它分析失败原因并指导下一轮代码修改。这样，代码生成过程就从单次补全变成了一个包含“生成—执行—验证—调试”闭环的迭代系统。

在实现层面，NVIDIA 选择用 LangGraph 构建状态机，把 `code_generation`、`run_unit_test` 和 `debug` 等节点串起来，并借助 NeMo Agent Toolkit 统一管理 function、workflow、LLM 配置与调用方式。文章中还展示了一个实用的模型分工模式：由 Qwen 这类更适合代码生成的模型负责产出补丁，再由 DeepSeek-R1 这类擅长推理的模型分析错误与调试方向。这样的角色分配，比让一个模型独自完成所有工作更贴合复杂工程任务的特点。

文章特别强调 Agent Toolkit 的工程价值并不止于“让 agent 能跑起来”，而在于它提供了评估、部署、优化和可观测的统一框架。开发者可以通过修改配置快速替换工具、模型和工作流结构，再借助评估 harness、profiler 与部署能力，持续比较不同方案在代码正确率、执行效率和稳定性上的差异。这使得代码生成 agent 不再只是一个 demo，而是可以真正纳入工程迭代流程的系统组件。

更重要的是，这个代码生成 agent 并非只能单独存在。文章指出，它可以被包装成一个 callable function，交给更高层的 supervisor agent 调用，从而与研究 agent、测试生成 agent 或错误定位 agent 组成更复杂的软件研发自动化系统。换句话说，这篇文章展示的不只是“如何写一个修代码的小 agent”，而是如何把它设计成能被更大智能体体系复用的积木模块。

对于想把 AI 引入开发流程的团队来说，这篇文章的参考价值很高。它说明，提升代码生成质量的关键并不只是换更强模型，而是给模型一个能执行、能验证、能反馈的闭环环境。真正有用的 coding agent，应该像开发者一样经历提交、测试、报错和修复，而 NeMo Agent Toolkit 则为这种可迭代的工程式智能体提供了更完整的基础设施。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA 用 NeMo Agent Toolkit 强化代码生成：把测试驱动修复流程做成可迭代智能体 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询