书迷网

书迷网>重生2012全球科技财阀百度 > 第3章 计划(第3页)

第3章 计划(第3页)

第二,transformer架构。

这是他最大的底牌。

他要提前“发明“这个基於“注意力机制“的划时代模型。

它將是未来所有大语言模型的基石。

第三,小模型。

基於新框架和transformer架构,做出一个参数量在20亿到30亿的“小“模型。

“这个方案已经是极限了。“

陈阳在心里默念:

“必须在13年底完成训练。2014年1月,准时发布。“

“第三阶段:发布模型”

有了钱和名气,他的最终目的才真正开始。

“13年,必须完成三件事。”

大模型基础框架:搭建一套属於自己的深度学习框架。

陈阳在心里默念著这个计划的核心。

深度学习框架,说白了就是ai的“作业系统“。

它要解决两个最核心的问题:模型並行和模型通信。

2012年,单块显卡的显存只有几个g,根本装不下一个大模型。

唯一的办法,就是把模型“切开“——一部分放在这块显卡,一部分放在那块显卡,让它们协同工作。

就像一本太厚的书,一个人拿不动,只能撕成几本,分给几个人同时看。

这是模型並行。

但问题来了——这几个人需要频繁交流,才能把內容串起来。

显卡之间也一样,它们要不断传递数据,互相配合。

这就是模型通信。

如果通信效率低,几块显卡互相等待,再多显卡也没用。

这两个技术,將是未来做大模型的核心基础。

谁掌握了高效的模型並行和通信,谁就能训练更大的模型。

陈阳很清楚,现在市面上,这两块几乎还是一片空白。

他要做的,就是一套支持大规模模型並行和高效通信的框架。

等这套框架成熟了,別人想做大模型,就得用他的“作业系统“。

那时候,他就掌握了整个行业的底层规则。

transformer架构:

这是他最大的底牌。

为什么transformer是跨时代的?

两个原因。

第一,它能理解前后关係。

传统技术一个字一个字往后看,看到后面,前面就忘了。

transformer基於“注意力机制“,能看懂一句话里,哪些词和哪些词有关係。

比如“他拿起苹果,咬了一口“——它知道“咬“和“苹果“有关联。

这让ai第一次能真正“读懂“一段话。

已完结热门小说推荐

最新标签