原标题:谷歌T5预训练模型单次运行成本超130万美元?算力和金钱才是模型训练的王道
选自arXiv
作者:Or Sharir、Barak Peleg、Yoav Shoham
机器之心编译
参与:杜伟、小舟
近年来,在自然语言处理领域,各种各样、各种规模的语言模型层出不穷,为该领域的进步提供了充足的动力。但欣喜之余,训练成本过于高昂的问题也随之出现。比如,BERT 训练成本 1.2 万美元、GPT-2 训练成本 4.3 万美元、XLNet 训练成本 6.1 万美元,等等。这就使得个人研究者和一些刚起步的初创公司难以负担。因此,在训练模型时了解成本的多少就变得很重要了,本文会为你提供一份参考性指南。
在本研究中,来自以色列人工智能研究公司 AI21 Labs 的研究者回顾了训练大型语言模型的成本,以及这些成本都用在了哪些方面。如果你是正在为自己的模型训练实验做预算的工程师和科学家,亦或是想要了解现代自然语言处理(NLP)成本的非从业人员,这篇文章都值得一读。
论文链接:https://arxiv.org/pdf/2004.08900.pdf
硬件改进可以降低 FLOPs 成本,但总成本却一直上升
首先需要指出的是,基本的神经网络(NN)运算,即浮点运算(FLOPs)的成本一直都在下降。举例而言,谷歌关于 ResNet-50 训练成本比较的研究表明,ResNet-50 的训练成本下降了 38%。这得益于硬件(从 GPU 转向了 TPU)以及框架级的优化,充分利用了并行性的优势。
谷歌关于 ResNet-50 训练成本比较的研究显示,8 块 V100 GPU 训练 90 epoch 需要 216 分钟,成本是 75 美元以上;而 1 块 full Cloud TPU v2 Pod 训练 90 epoch 只需要 7.9 分钟,成本是 50 美元。由此得出,使用 TPU 训练时成本下降了 38%,训练速度快了 27 倍。
ResNet-50 训练成本的下降并不是孤立的事件,大型模型的训练成本也正随着硬件的创新和训练方法的改进而出现相应的下降。尽管如此,总成本却一直在增加,甚至需要投入数百万资金。所以,研究者接下来解释了为什么会出现这种情况以及哪些因素在 NLP 模型训练成本中起决定作用。
如果有人问训练一个模型的成本究竟是多少?那么正确答案一般有两种:视情况而定(depends)或非常多(a lot)。下面从更定量化的角度展示在维基百科和图书语料库(15GB)上训练不同大小 BERT 模型的大约成本。
对于不同参数的 BERT 模型,研究者给出了两种训练配置下的训练成本:单次训练的成本;超参调优和每个设置下多次运行包含在内的典型全负荷训练成本(这里展示两种训练配置的适度成本上限以及每种配置运行 10 次的成本):
这些数字能让我们更清醒地看到训练大型模型的成本,并可以根据这些数字对其他训练成本做出合理的猜测。例如,根据谷歌发布的信息,研究者估计在训练 110 亿参数的 T5(谷歌 2019 年推出的预训练模型)变体时,单次运行成本就远远超出了 130 万美元。因此,假设 T5 大模型和数百个小模型运行 2-3 次,则整个项目的成本可能就达到了 1000 万美元。
很多公司,当然也包括很多初创公司的确无力承担这些巨额费用。有些人则认为费用不是大问题,就让谷歌这样的巨擘公司预训练和发布大型语言模型,其他公司针对特定任务进行微调就可以了。不过也有人对此并不乐观。
钱花在什么地方:Size 决定一切
并没有一个固定的公式告诉我们一个给定的 NLP 设置需要多少 FLOPs 才能实现目标性能。但是,一些变量会对数量造成影响,并且过去几年这些变量急剧增加,远远超出了以前所认为的「大规模」(massive)vision-focused 机器学习模型。
下图展示了一些相关变量,分为三类:(a)数据集大小;(b)模型大小(以参数量表示);(c)训练量(以预训练过程中处理的 token 总数量表示)。图上用于所有模型,图下适用于基于 transformer 的模型。
研究者认为,在 NLP 领域,数据集、模型和训练量正变得越来越大。
这些增加的具体方法对 FLOPs 的数量的影响是非常微妙的,取决于具体的训练计划和架构。比如,与具有类似模型、数据大小以及训练步骤的 GPT-2 模型相比,训练 BERT 样式模型需要的 FLOPs 更少。
其他训练计划可能会引入影响成本的其他因素,比如 ELECTRA 的对抗训练方案在训练过程中使用了额外的生成器模型。这些增加了每个步骤的相对成本,但是需要的步骤变少了,因此降低了总成本。尽管有这些微妙之处,但很明显,所有这些增长的数字都与决定底线的 FLOPs 数量更相关。
除此之外,还存在一些经常被忽略的额外的隐性成本。每个模型都必须经过多次训练,这是为了最大程度地减少随机影响(每次运行本质上都是随机的),也是为了在组合的大型超参数搜索空间进行搜索。这意味着单次训练的成本可能会高出很多倍(在优化配置中,训练大型模型之前首先会在较小的模型上执行大多数实验,这样能够显著降低成本)。
未来展望
社区采用大规模强力统计方法是因为它有效,并且能实现比其它任何方法更好的性能。而且,由于 NLP 具有可观的经济价值,因此追求良好性能的成本不会太高。我们看不到在大规模语料库上使用大型神经网络模型的终结,并可以想象,随着社区开发更复杂的架构来追求更宏大的任务,成本还会进一步增加。当你从句子到整个文档以及其他内容时,你可以想到每一个 token 的更多维度、更长的上下文以及更多的层次。
尽管增加更多的外部知识源可能减少对网络的唯一依赖,但也可能有助于扩大网络规模,以便于将外部知识映射在嵌入空间中。实际上,已经有关于 1000 亿参数模型的讨论。也就是说,我们看到了一些因素可能有助于抑制这种爆发,并且防止事情失控。以下是研究者对于当前 NLP 领域的一些看法展望:
本 文为机器之心编译, 转载请联系本公众号获得授权 。游戏网
相关下载 |
跑跑卡丁车手游红旗模型什么时候调整,作为许多老跑跑玩家来说,红旗赛车是许多玩家心目中最为关心的赛车之一了,虽然本次的宾果主题赛车黑骑士也出来了,但是许多人都选择放弃而详情>>
跑跑卡丁车手游红旗模型调整什么时候出?跑跑卡丁车手游玩家最近关心的重点虽然是在宾果车黑骑士上,但是也有不少玩家关注烈焰红旗的消息,因为之前有玩家反映烈焰红旗模详情>>
原标题:数据ETL:反作弊的应用与基础模型 文章对数据ETL中的反作弊应用进行了简单的梳理分析,希望通过此文能够加深你对数据ETL的认识。 一、反作详情>>
原标题:4个步骤,用模型确定数据指标 如何用OSM和AARRR模型确定数据指标?本文作者结合案例,梳理分析了核心指标选择的路线图:找准定位,以点到面,层层剖详情>>
迷你世界怎么做人物模型?迷你世界人物模型制作方法。迷你世界人物模型制作方法在迷你世界手游中,玩家点击开始游戏,然后点击右上角的插件库。然后选择生物-新建。 详情>>
原标题:GeoAI-空间显式模型 转载本文需经【慧天地】许可 GeoAI-空间显式模型 理想情况下,从人工智能和数据科学到地球科学和社会科学中空间数据的详情>>
原标题:【欣赏】HG-GEO扎古2旧化方案 原创声明 高达模型制作技巧 微信公众号《高达模型制作技巧》自创办以来深受各个方面大力支持,众多作者编辑译详情>>
图片转自高达 小编点评:好厉害,以后交件照片就学这个了 详情>>
原标题:反欺诈策略与反欺诈模型比较分析 消费金融风控联盟知识星球资料汇总(更新中)-20191020 消费金融风控联盟介绍&商务合作 一、定义 这里说的反详情>>
大家好,这里是小番茄游戏,每天给大家更新最新的吃鸡资讯与吃鸡套路,在手游和平精英与“蓝洞”的绝地求生之中,大家对G港以及N港应该都非常熟悉,尤其是那详情>>
【导读】优衣库UT x 高达模型40周年合作T恤,3月下旬发售,售价为1500日元(约合人民币96元)。以各大高达机型为主题,其中独角兽、强袭自由高达、扎古等经典模型纷纷登场。--> 详情>>
原标题:实例解析:实体零售的单店模型和连锁模型 本文结合作者的从业经历,和近几年对新零售企业的观察和研究,详细拆解和分析了实体零售的单店模型和详情>>
原标题:实体零售的单店模型和连锁模型 经营线下实体店和电商的最大不同,需要先算清楚“单店模型”,在这个基础上才能将人、财、物及管理模型匹配后测详情>>
原标题:新时模型《合金弹头X》载具免胶拼装模型/俘虏搪胶人偶 新时模型推出20世纪90年代热门街机游戏《合金弹头X》中6种不同款式的载具免胶拼装模详情>>
近期的Switch销量之王《宝可梦:剑/盾》证实了真香定律,一开始再怎么抵制,该买还是会买。但是这次的3D模型偷懒直接使用上一作3D模型这件事,似乎引起了开详情>>
原标题:CSGO新人物模型遇冷:ECS S8将采用默认角色模型 导读:CSGO新人物模型遇冷。 尽管普通CSer对于CSGO新推出的人物模型爱不释手,不过已经有不少业详情>>
导读:CSGO新人物模型遇冷。 尽管普通CSer对于CSGO新推出的人物模型爱不释手,不过已经有不少业界大咖对新人物模型提出了批评。比如FMPONE,作为de_cache的地图创详情>>
原标题:模玩资讯:万代BEST HIT CHRONICLE 游戏主机 2/5比例组装模型 先前在2019年全日本模型 HOBBY SHOW,万代 BANDAI 旗下的 BANDAI SPIRITS 摊位就详情>>
原标题:模玩资讯:万代新模型发售信息 SDCS系列 勇者王GaoGaiGar 本月发售,卖1980日元 1/12 星球大战9 天行者崛起 暴风兵 本月发售,卖2970详情>>
原标题:游戏《宝可梦 剑盾》炎上!网友质疑并未重新制作模型 根据VGC报道,预计于15日发售的《宝可梦》系列的最新作《宝可梦 剑盾》,在美国因模型疑似详情>>
据外媒VG247报道,近日4Chan网友对《宝可梦:剑/盾》的数据挖掘结果又引发了新一轮推特网友的反GameFreak声浪。一起来了解一下。 VG247报道称,带有“#GameFreak欺诈详情>>
原标题:模玩秀:民用模型作品 TAMIYA 1/24 GT-R R34 作者: 囧面超人 文章转自小T 应该算田宫的老板子了~但是素质还是依然的高~ 一些进度~ 详情>>
由BANDAI推出的PS与SS主机2/5尺寸模型于今天开始接受预约,商品预定于2020年3月发售,价格各2750日元。该模型再现了当年PS和SS主机的内部结构,并可由用户自行组装。对于老玩家来详情>>
《LOL》符合被盗模型介绍。很多小伙伴都经历过盗号的问题,但是很多小伙伴在处理盗号的问题上遇到了不少的麻烦,比如想申请追回自己的账号遇到不符合被盗无法申请等等的问题,详情>>
帝国时代2决定版单位模型都一样吗?相信不少玩家对于这款游戏十分期待,今天我们带来了帝国时代2决定版兵种高清模型对比一览,感兴趣的玩家一起来看看吧。推荐阅读帝国时代2详情>>
原标题:7 Papers | 2019安卓手机AI性能评测;谷歌T5预训练模型刷榜GLUE;自动驾驶论文综述 机器之心整理 参与:杜伟 在本周的论文中,读者可以了解到 20详情>>
原标题:AARRR模型拆解(二):Activation 用户激活 随着互联网行业的发展,许多产品都实现了从0到1的过程,渐渐地,很多产品的重心,都转移至如何实现从1到100详情>>
原标题:千值练《风之谷》竹谷隆之 究极王虫 可动模型 千值练推出宫崎骏经典动画片《风之谷》中的巨大生物“究极王虫”可动模型,由竹谷隆之进行可动详情>>
原标题:千值练《风之谷》竹谷隆之 究极王虫 可动模型 千值练推出宫崎骏经典动画片《风之谷》中的巨大生物“究极王虫”可动模型,由竹谷隆之进行可动详情>>
【导读】《机动战士高达SEED》“PG 1/60 完美强袭高达”预计将于2020年2月发售,除了能组出完美强袭高达外,也能单独换装成各个型态。一起来看看吧! 详情>>
今天小编教大家使用powerdesigner来将已经创建好的概念模型和物理模型之间进行转换。攻略对象电脑一台powerdesigner软件概念模型转物理模型1首先使用powerdesigner打开一个详情>>
原标题:模型转代码:XGBoost等模型也能快速转纯C或Java代码 机器之心编辑 参与:思源 你是否常训练炫酷的机器学习模型,用来分析数据或执行某些新奇的任务?你是否详情>>
《我的世界》是一款众多玩家非常喜欢的沙盒游戏,下面小编为大家介绍的是玩家“明月庄主”分享的3D模型资源包视频教程,一起来看看吧。 详情>>
大家好,我是风游,今天来教大家迷你世界怎么自定义生物模型,使用这个功能,用微缩模型替换原有的模型,让生物的样子更加丰富多样,一起来看看吧。功能介绍在版本0.35.0版本更新之前,我详情>>
Game234问答中心有网友提出了一个比较有代表性的问题【CSOL怎么取消掉人物模型统一】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为您搜罗的答案1......咳咳详情>>
Game234问答中心有网友提出了一个比较有代表性的问题【求魔兽世界WLK3.35版本模型修改器。注意:不是模型...】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为详情>>
Game234问答中心有网友提出了一个比较有代表性的问题【DOTA2人物模型出问题了】,【DOTA2人物模型出问题了】具体问题如下:这是人机,匹配还不清楚展开小编觉得可详情>>
一款全新的《血源》桌游即将在4月23日在kickstarter网站上进行众筹。 尽管《血源》自2015年发售已经有4年时间,但这款伟大的游戏仍然被不少玩家追捧详情>>
《自走棋》手游官方公布了新的角色模型第六弹,各位棋王们还能认出他们分别是哪一位吗?可以看到,新发布的角色模型依然保持了可爱的画风,角色设计也比较符合各自的特点。近日也有玩家泄详情>>
下载>>>>小7手游APP,搜索想玩的游戏,充值折扣低至4折!今日折扣游戏:点击下载>>>>少年西游记<<<详情>>