财经
当前位置:首页 > TMT > 正文

Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源

Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源

文|罗曾

日前,全球科技公司Yandex推出了YaFSDP,这是一种用于训练大型语言模型(LLM)的开源方法。

据介绍,YaFSDP是目前在大型语言模型训练中增强图形处理器(GPU)通信并减少内存使用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间,可以节省高达20%的图形处理器资源。

Yandex公司高级开发人员、YaFSDP开发团队成员米哈伊尔·赫鲁晓夫(Mikhail Khruschev)表示:“目前,我们正在积极试验各种模型架构和参数大小,以扩展YaFSDP的多功能性。我们很高兴能与全球机器学习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献。”

事实上,大型语言模型训练是一个耗时且资源密集的过程。在大型语言模型训练期间,开发人员必须有效管理三种主要资源:计算能力、处理器内存和处理器通信。自行开发大型语言模型的机器学习工程师和企业会投入大量时间和图形处理器资源来训练这些模型。模型越大,与其训练相关的时间和费用就越多。

需要说明的是,大型语言模型训练依赖于组织成集群的众多图形处理器,这些集群是互连的图形处理器阵列,可以执行训练具有数十亿参数的模型所需的大量计算。在集群内的处理器之间分配计算需要持续的通信,这往往会成为“瓶颈”,减缓训练过程并导致计算能力的低效利用。

为了克服这一瓶颈,Yandex开发人员创建YaFSDP,优化了学习速度和性能,通过消除图形处理器通信效率低下的问题,确保了训练时仅需要关注必要的处理器内存,并使图形处理器交互不受干扰。这也使全球人工智能开发人员在训练模型时能够使用更少的计算能力和图形处理器资源。例如,在涉及一个具有700亿参数的模型的预训练场景中,使用YaFSDP可以节省大约150个图形处理器的资源,这相当于每月节省大约360万至1080万元人民币(取决于虚拟图形处理器提供商或平台)。

而YaFSDP是FSDP的增强版本,在大型语言模型训练中通信最密集的阶段,如预培训、对齐和微调,均优于FSDP方法。YaFSDP在Llama 2 和 Llama 3 上显示的最终加速结果表明,其训练速度有了显著提高,在 Llama 2 70B和Llama3 70B上分别达到21%和26%。当与Yandex的其他性能增强解决方案结合使用时,该方法可将某些模型的训练过程加速高达45%。

“YaFSDP在13至700亿个参数的模型上显示了令人印象深刻的结果,在30至700亿个参数范围内的表现尤为强劲,”米哈伊尔·赫鲁晓夫表示,“目前,YaFSDP最适合基于LLaMA架构的广泛使用的开源模型。”

(责任编辑:zx0600)

推荐阅读

这个618,“老板们”开始接管京东直播间

这个618,“老板们”开始接管京东直播间

4月16日,刘强东的数字人分身“采销东哥”出现在京东采销直播间,让人们再次刷新对数字人的认知。

光子星球 2024-06-18 15:40:57
AI从来不是少数人的无限游戏

AI从来不是少数人的无限游戏

力大飞砖卷研发,到向下竞低卷价格,全球视野下的大模型与生成式AI已然走过创新扩散的兴趣阶段,行至社会评估其创新可行性的卡点。

光子星球 2024-06-18 13:48:22
快手出海,巴西成老铁

快手出海,巴西成老铁

老外变老铁。在出海这事上,快手还是很花心思的。

锌财经 2024-06-18 11:20:43
落入新消费主义陷阱:我被阉割版家电收割

落入新消费主义陷阱:我被阉割版家电收割

套路并未消失,只是更加隐蔽。

华尔街科技眼 2024-06-18 11:11:43
股息率飙升至81.3%,华晨中国为何“清仓式”分红?

股息率飙升至81.3%,华晨中国为何“清仓式”分红?

一纸公告,华晨中国宣布派发向股东宣派特别股息,每股公司普通股将获得4.3港元。

环球老虎财经app 2024-06-18 10:12:29
AI助力苹果市值登顶,最大受益者竟是鹏鼎控股?

AI助力苹果市值登顶,最大受益者竟是鹏鼎控股?

苹果“入局”AI,推动其市值突破三万亿,一度超过微软重回全球市值第一。

环球老虎财经app 2024-06-18 10:07:16
一次挖走几十个技术骨干!某新势力窃取吉利技术,被判赔6.4亿

一次挖走几十个技术骨干!某新势力窃取吉利技术,被判赔6.4亿

最高人民法院知识产权法庭近日审结一起国内两家知名车企之间因大量员工“跳槽”引发的新能源汽车底盘技术秘密侵权纠纷上诉案。

明镜pro 2024-06-17 16:49:39
独家:“向董明珠学习”,TCL启动最大规模“6.18全员销售”

独家:“向董明珠学习”,TCL启动最大规模“6.18全员销售”

全员销售:格力叫停,TCL启动。

华尔街科技眼 2024-06-17 16:44:53
欧盟举起“关税大棒”,车企出海路怎么走?

欧盟举起“关税大棒”,车企出海路怎么走?

6月12日,欧盟委员会宣布,如果与中方的讨论不能得出有效的解决方案,将从7月4日起对从中国进口的电动汽车征收临时反补贴税。

和讯 2024-06-17 16:38:46
彻底出圈!布局掼蛋,1900亿元金融巨头出手

彻底出圈!布局掼蛋,1900亿元金融巨头出手

6月15日消息,东方财富(300059.SZ)新注册了“东方掼蛋”的软件著作权,登记日期为6月11日。

中国网财经 2024-06-17 16:27:21
小米通报:贪腐,辞退!

小米通报:贪腐,辞退!

小米近日内部通报的违规违纪案件显示,两名国际业务部地区总经理涉嫌贪腐被辞退,已对其中一名启动刑事及民事维权。

中国网财经 2024-06-17 16:18:12
圆通为阿里巴巴提供14亿港元反担保

圆通为阿里巴巴提供14亿港元反担保

近日,圆通有限与 Alibaba Group Services Limited 签署《偿付协议》。

物流指闻 2024-06-17 16:15:17
上升到人类存亡,OpenAI内部互撕

上升到人类存亡,OpenAI内部互撕

OpenAI的丑闻事件,居然已经上升到了人类存亡的历史高度。

锌财经 2024-06-17 15:50:52
Vision Pro国行发售在即,买美版的人却更多了

Vision Pro国行发售在即,买美版的人却更多了

美版便宜出了一部iPhone 15 Pro Max的价格。

盒饭财经 2024-06-17 14:29:40
热搜!炫迈联名乙游“翻车”

热搜!炫迈联名乙游“翻车”

最近刚与国产乙游《光与夜之恋》联名合作的炫迈口香糖却因涉嫌性别歧视遭到玩家抵制,被停止合作。

快消八谈 2024-06-17 10:35:47
从超级碗到欧洲杯,中国公司想登上全球舞台

从超级碗到欧洲杯,中国公司想登上全球舞台

持续的营销投入背后,是强烈的全球化野心和决心。

晚点LatePost 2024-06-17 09:08:34
滴滴为司机发放6亿高温补贴 助力打车“清凉一夏”

滴滴为司机发放6亿高温补贴 助力打车“清凉一夏”

夏季出车不易 滴滴发放6亿司机高温补贴 举办清凉福利站。

中华网财经 2024-06-16 12:47:47
快手布局万亿外卖市场:创新赛道的机遇与挑战

快手布局万亿外卖市场:创新赛道的机遇与挑战

万亿级的外卖市场,吸引了诸多互联网巨头的目光。

中华网财经 2024-06-14 18:04:06

友情链接

联系方式

中华网新媒体 财经频道
互动/投稿邮箱:
finance@zhixun.china.com
网上不良信息举报电话:010-56177181
财经频道联系电话:(010)56176102