第二,它能並行处理。
传统模型必须一个字一个字按顺序处理。
transformer可以同时处理所有字,效率高出几十倍。
这两个特性,让transformer成为未来所有大语言模型的基石。
陈阳要提前把它“发明“出来。
最后基於新的框架和transformer架构,做出一个参数量在30亿(3b)的小模型。
“30亿参数。。。“
陈阳很清楚这个数字意味著什么。
在fp32精度训练中,光是模型权重就需要12gb显存。
但训练时,还要存储梯度、优化器状態。。。
总共需要超过100gb的显存。
“2013年11月,k40显卡发布。“
陈阳在心里盘算著时间节点。
k40是英伟达即將推出的新一代旗舰计算卡,12gb显存,性能强悍。
“要容纳100gb的训练显存,用12gb的k40来算。。。“
陈阳在脑海中快速计算。
“至少需要9张卡,才能勉强装下这个模型。“
但他的眉头很快皱了起来。
“只有9张卡,训练速度太慢了。到14年年中?恐怕到15年都训不完!“
他的目標是4个月內完成训练。
怎么办?
陈阳的眼中闪过一道精光。
“唯一的办法——数据並行。“
把这个9卡组合的最小单元,再复製4套。
让4个模型同时开工。
9张卡x4套=36张卡。
“这样才能4个月內完成训练。“
陈阳在心里默念。
“必须提前订购,等11月硬体到位,立刻开始训练。“
“趁著14年初谷歌6亿美金收购deepmind(一个人工智慧公司)的热度,年中发布模型。“
到时候,当所有人还在为识別猫狗而欢呼时,他要拿出一个30亿参数的语言模型。
那不是领先一步,而是领先一个时代。
届时,全世界的目光,无论是学术界还是投资界,都將被迫匯聚到他身上。
他將有足够的资本和话语权,去迎接即將到来的、波澜壮阔的人工智慧大时代。
窗外传来几声犬吠,打破了深夜的寂静。
陈阳长长地吐出一口气,接下来有的忙了。