第二,transformer架构。
这是他最大的底牌。
他要提前“发明“这个基於“注意力机制“的划时代模型。
它將是未来所有大语言模型的基石。
第三,小模型。
基於新框架和transformer架构,做出一个参数量在20亿到30亿的“小“模型。
“这个方案已经是极限了。“
陈阳在心里默念:
“必须在13年底完成训练。2014年1月,准时发布。“
“第三阶段:发布模型”
有了钱和名气,他的最终目的才真正开始。
“13年,必须完成三件事。”
大模型基础框架:搭建一套属於自己的深度学习框架。
陈阳在心里默念著这个计划的核心。
深度学习框架,说白了就是ai的“作业系统“。
它要解决两个最核心的问题:模型並行和模型通信。
2012年,单块显卡的显存只有几个g,根本装不下一个大模型。
唯一的办法,就是把模型“切开“——一部分放在这块显卡,一部分放在那块显卡,让它们协同工作。
就像一本太厚的书,一个人拿不动,只能撕成几本,分给几个人同时看。
这是模型並行。
但问题来了——这几个人需要频繁交流,才能把內容串起来。
显卡之间也一样,它们要不断传递数据,互相配合。
这就是模型通信。
如果通信效率低,几块显卡互相等待,再多显卡也没用。
这两个技术,將是未来做大模型的核心基础。
谁掌握了高效的模型並行和通信,谁就能训练更大的模型。
陈阳很清楚,现在市面上,这两块几乎还是一片空白。
他要做的,就是一套支持大规模模型並行和高效通信的框架。
等这套框架成熟了,別人想做大模型,就得用他的“作业系统“。
那时候,他就掌握了整个行业的底层规则。
transformer架构:
这是他最大的底牌。
为什么transformer是跨时代的?
两个原因。
第一,它能理解前后关係。
传统技术一个字一个字往后看,看到后面,前面就忘了。
transformer基於“注意力机制“,能看懂一句话里,哪些词和哪些词有关係。
比如“他拿起苹果,咬了一口“——它知道“咬“和“苹果“有关联。
这让ai第一次能真正“读懂“一段话。