在DeepSeek为期五天的“开源周”中,其连续开源的五大核心技术(FlashMLA、DeepEP、DeepGEMM、DualPipe&EPLB、3FS文件系统),惊艳全球。
京东云率先宣布完成对这五项技术的全栈适配,在模型推理效率、算力资源利用率及数据管理等领域实现突破性优化,综合Flash MLA、DeepEP、FP8 GEMM、DualPipe四方面的调优,在DeepSeek推理场景下性能提升50%。
全面适配五大技术,DeepSeek推理场景性能提升50%
作为DeepSeek开源首日的重磅技术,Flash MLA通过动态调度GPU的显存与算力资源,解决了传统方法处理变长序列时的资源浪费问题。
京东vGPU AI算力平台通过支持Flash MLA的FP8格式来提升推理性能,使单Token的 KV Cache显存占用相比Multi-head Attention降低57倍,配合最新的投机推理技术,以极低的显存需求,在高并发请求场景下保证了推理的吞吐量和延迟表现。
此外,针对用于DeepSeek开源的通信库DeepEP,京东云vGPU AI算力平台已全面支持EP模式下的分布式推理,显著提高推理吞吐。通过整合DeepEP作为通信后端,针对机内通信使用NVLink传输数据,机间通信使用NVSHMEM接口走RDMA网络,同时通过灵活的GPU SM数量利用控制,增大GPU算力资源利用率以及减少对计算算子的性能串。
更低成本更高效率,让大模型真正用起来
针对客户大模型的使用需求,京东云vGPU AI算力平台,为用户提供更高推理性能、更多国产芯片适配、更多高数据安全的大模型服务,让大模型真正用起来。
在推理性能方面,针对DeepSeek大模型技术特点,京东云通过推理加速与内核驱动级优化,提升单台服务器推理性能50%。
在国产芯片适配方面,京东云已完成从底层算力到大模型和业务应用的全面国产化适配,包括十余家国产化AI算力,确保自主可控。
在数据安全方面,通过机密容器AI全场景密态计算和先进的容器隔离技术,确保模型数据的机密性与完整性,为用户提供金融级安全防护。
目前,在河南鹤壁、江苏宿迁、山东滨州、广西北海、山西大同,京东云已经助力多地政府基于现有基础设施本地化部署DeepSeek,既满足本地政务业务,又让当地企业不用投入资源,即可通过政务云调用DeepSeek。
京东集团发布2024年第二季度财报8月15日,京东集团发布2024年第二季度财报,财报显示,二季度京东集团实现营收2914亿元,上半年营收5514亿元;经营利润105亿元
截至11月11日23:59,2024年京东11.11购物用户数同比增长超20%,京东采销直播订单量同比增长3.8倍。超17000个品牌成交额同比增长超5倍,超30000个中小商家成交额同比增长超2倍。
随着手机等3C产品“国补”政策落地,叠加春节假期,手机、平板、智能手表等“电子年货”成为今年春节的消费新趋势,点燃了居民的消费热情。
年还没过完,各大市场的战火就已经燃烧起来了。比亚迪全面智驾,挑战全行业;阿里截胡百度,成为苹果AI的合作方;京东也要开始做外卖了。