2026 年 3 月,三个 LLM 智能体生成了超过 60 万行代码,运行了 850 次实验,最终帮助一名数据科学家在 Kaggle Playground 竞赛中夺得第一名。这一案例展示了生成式 AI 辅助编码如何从根本上加速机器学习竞赛中的迭代周期。
在传统的机器学习竞赛中,两个瓶颈限制了实验效率:编写新实验代码的速度和执行实验的速度。GPU 和 cuDF、cuML、XGBoost、PyTorch 等库已经解决了第二个问题,而 LLM 智能体现在正在解决第一个问题——解锁全新的快速迭代实验规模。
本次竞赛的任务是基于表格数据预测电信客户流失率,评估指标为 AUC。最终的冠军方案是一个四层堆叠的 150 个模型组合,从 850 次实验中精选而出。整个工作流程遵循 Kaggle 高手手册,分为四个阶段:
第一阶段:探索性数据分析(EDA)。LLM 智能体首先理解数据结构——训练集和测试集的行列数、目标列格式、任务类型(分类/回归)、特征类型以及缺失数据情况。通过反复编写和运行 EDA 代码,智能体逐步摸清数据特征。
第二阶段:建立基线模型。在理解数据后,LLM 智能体为 XGBoost、神经网络、GBDT 等多种模型编写完整的训练流水线,包括 K 折交叉验证、保存袋外预测和测试集预测结果。每个实验报告交叉验证分数,并将预测结果保存为 NumPy 文件供后续使用。
第三阶段:特征工程与模型调优。基于基线模型,LLM 智能体通过特征工程和数据变换提取更多信号,同时进行模型调优。每次实验无论好坏都保存预测结果。为了加速迭代循环,所有实验都使用 GPU 加速库(cuDF、cuML、GBDT GPU 版、PyTorch GPU 版)执行。新的思路来源包括:让 LLM 查找相关研究论文、阅读论坛公开代码、基于 EDA 发现特征关系、人机协作头脑风暴等。
第四阶段:模型融合。通过 LLM 智能体汇总所有实验结果,将不同模型的思路融合到更强大的单模型中,使用知识蒸馏技术将多个模型的知识迁移到单一模型,最后通过爬山算法和堆叠(Stacking)等元模型方法组合所有预测结果,形成最终的冠军方案。
这一案例证明,GPU 加速的模型执行与 LLM 智能体的代码生成能力相结合,可以让数据科学家在更短时间内探索更多思路。无论是 Kaggle 竞赛还是企业级表格数据预测任务,这套方法都同样适用。
WeChat
Profile