书迷网

书迷网>重生2012全球科技财阀百度 > 第3章 计划(第4页)

第3章 计划(第4页)

第二,它能並行处理。

传统模型必须一个字一个字按顺序处理。

transformer可以同时处理所有字,效率高出几十倍。

这两个特性,让transformer成为未来所有大语言模型的基石。

陈阳要提前把它“发明“出来。

最后基於新的框架和transformer架构,做出一个参数量在30亿(3b)的小模型。

“30亿参数。。。“

陈阳很清楚这个数字意味著什么。

在fp32精度训练中,光是模型权重就需要12gb显存。

但训练时,还要存储梯度、优化器状態。。。

总共需要超过100gb的显存。

“2013年11月,k40显卡发布。“

陈阳在心里盘算著时间节点。

k40是英伟达即將推出的新一代旗舰计算卡,12gb显存,性能强悍。

“要容纳100gb的训练显存,用12gb的k40来算。。。“

陈阳在脑海中快速计算。

“至少需要9张卡,才能勉强装下这个模型。“

但他的眉头很快皱了起来。

“只有9张卡,训练速度太慢了。到14年年中?恐怕到15年都训不完!“

他的目標是4个月內完成训练。

怎么办?

陈阳的眼中闪过一道精光。

“唯一的办法——数据並行。“

把这个9卡组合的最小单元,再复製4套。

让4个模型同时开工。

9张卡x4套=36张卡。

“这样才能4个月內完成训练。“

陈阳在心里默念。

“必须提前订购,等11月硬体到位,立刻开始训练。“

“趁著14年初谷歌6亿美金收购deepmind(一个人工智慧公司)的热度,年中发布模型。“

到时候,当所有人还在为识別猫狗而欢呼时,他要拿出一个30亿参数的语言模型。

那不是领先一步,而是领先一个时代。

届时,全世界的目光,无论是学术界还是投资界,都將被迫匯聚到他身上。

他將有足够的资本和话语权,去迎接即將到来的、波澜壮阔的人工智慧大时代。

窗外传来几声犬吠,打破了深夜的寂静。

陈阳长长地吐出一口气,接下来有的忙了。

已完结热门小说推荐

最新标签