2 月 3 日,百度智能云千帆平台宣布上架 DeepSeek-R1 和 DeepSeek-V3 模型,上线首日超 1.5 万家客户通过千帆平台进行模型调用123。具体情况如下:
技术优化
推理引擎性能优化:百度智能云针对 DeepSeek 模型 MLA 结构的计算进行极致性能优化,通过计算、通信、内存不同资源类型算子的有效重叠及高效的 Prefill/Decode 分离式推理架构等,在核心延迟指标满足 SLA 的条件下,实现模型吞吐的大幅度提升,进而显著降低模型推理成本。
推理服务架构创新:在推理服务层面,进行了深入的优化与创新。针对推理架构,做了严格的推 / 拉模式的性能对比,经验证拉模式在请求处理的成功率、响应延时以及吞吐量等关键指标上均展现出更为卓越的性能。还设计了请求失败的续推机制,增强了系统的容错能力和服务 SLA 达标率,同时实现了 KV-Cache 复用技术,并辅以全局 Cache 感知的流量调度策略,大幅降低推理延迟,提高了推理吞吐。
推理服务安全保障:千帆平台基于百度自身长期的大模型安全技术积累,集成独家内容安全算子,实现模型安全增强与企业级高可用保障,基于大模型全生命周期数据安全与模型保护机制,确保 DeepSeek-R1 和 DeepSeek-V3 模型企业用户在使用过程中的安全性。
价格优势:百度智能云提供行业领先的超低推理价格,DeepSeek-V3 为官方刊例价 3 折,DeepSeek-R1 为官方刊例价 5 折,且当前还可享受限时免费服务,限免截止时间为 2 月 18 日 24:00,限免配额是 1000RPM&10000TPM,调用 Tokens 无上限。
平台支持:百度智能云千帆 ModelBuilder 为用户提供全流程、一站式的 AI 服务,有完善的一站式模型效果调优工具链,包含数据加工、模型精调、模型评估、模型量化等关键环节。还具备卓越的模型推理托管能力,支持 vLLM、LMDeploy、TensorRT-LLM、SGLang 等各类主流推理框架,支持模型的自定义导入与部署。