赖耶超级 AI 工厂:三层架构驱动大模型应用落地
赖耶超级 AI 工厂基于 NVIDIA AI Enterprise 构建,从构成上分为基础架构、大模型生产框架和智能体应用三部分:
基础架构层:由万卡大规模集群管理系统 KAA 和赖耶集群堆叠全栈优化方案 MONA 组成。基于 NVIDIA AI Enterprise 的 BCME(Base Command Manager Essentials)组件对万卡集群进行部署和管理,实现了 IO 通讯优化、资源虚拟化、云原生管理和编排、高性能多租户隔离、计费计量、动态部署扩展、GPU 驱动适配等功能。
大模型生产框架:中间层的 MANAS 大模型生产框架基于 NVIDIA AI Enterprise 的 NeMo Framework 提供核心组件,涵盖从数据处理到模型训练、模型对齐、模型微调和企业部署过程中对安全审查的安全护栏等全套功能。
智能体应用层:最上层的 LIM(Laiye Inference Microservice)智能体服务与生产工厂,基于 NVIDIA NIM 提供的核心能力,能够在短时间内完成系统集成。面向企业 IT 团队,提供易用无代码化的多模态知识库、多模态微调数据集、大模型微调定制和版本管理、多模态智能对话和企业搜索、行业智能体参考设计等一站式企业大模型定制化平台。
赖耶超级 AI 工厂提供企业大模型生产和场景应用两大核心功能。大模型生产功能包含大规模 GPU 集群的组网调优、模型的稳定性训练和企业垂类大模型定制;企业场景应用功能提供开箱即用的 OpenAI 兼容的大模型 API 微服务,以及屏蔽 GPU 底层复杂技术细节的加速推理镜像服务。
最佳实践:已落地多家千P级算力中心
赖耶 AI 超级工厂是基于 NVIDIA AI Enterprise 的最佳实践,目前已在多家千P级算力中心完成落地应用,在大模型训练效率和推理性能上达到了同类型最佳水平,帮助各行各业的企业以更低成本、更快速度将大模型应用到实际场景中。
北京赖耶信息科技有限公司 CEO Lucas Dai 表示:“赖耶科技通过与 NVIDIA 团队合作,基于 NVIDIA AI Enterprise 打造的超级 AI 工厂,帮助企业快速定制专属的大模型。我们的平台将企业从模型开发到应用落地的周期从几个月缩短至几天或几周,大幅提高了业务响应速度,降低了运营成本。”
大模型场景应用落地实例
案例一:多模块混合架构提升天气预测能力
该气象大模型采用多模块混合架构,结合深度学习、图神经网络与传统物理模型,显著提升长期天气模式预测能力。在国际测试中预报精度超越传统数值模型,特别在 7-15 天的中期预报中提高近 20%,15-30 天的超长期预报达到传统模型 7 天水平。赖耶科技基于 NVIDIA AI Enterprise 提供的加速组件,让计算效率提升近万倍,实现全球尺度和百米局地尺度间无缝切换,预报期延长至 30 天。
案例二:优化数据处理与分析效率
赖耶大模型的 API 服务基于 NVIDIA NIM 提供快速和稳定模型部署和发布,成功实现了大模型在大数据企业应用中的落地。平台赋能企业内部各部门,提升了数据处理和分析的效率,优化了企业的内部沟通和客户服务流程,亦可快速生成复杂的商业报告,帮助管理层做出更明智的决策。
案例三:提升集群管理与算力利用率
某算力中心部署了赖耶超级 AI 工厂,对万卡规模的集群进行管理和性能优化,提供了高可靠的模型训练服务,对整体集群的模型算力利用率(MFU)提升了 2 倍。同时提供的大模型 API 微服务,面向区域内客户提供大模型服务,实现了从算力运营到 Token 运营的转变,达到了算力增值运营的目的。
未来展望
赖耶科技将继续与 NVIDIA 技术团队合作,为企业实现大模型 Token 赋能,加速大模型场景应用落地。期望在不久的将来,大模型能在更多领域得到广泛应用,不仅惠及更多企业,还将为社会的发展带来更多价值。
WeChat
Profile