重生2012全球科技财阀百度在线阅读_第3章计划第3页

书迷网>重生2012全球科技财阀百度 > 第3章计划（第3页）

第3章计划（第3页）

第二，transformer架构。

这是他最大的底牌。

他要提前“发明“这个基於“注意力机制“的划时代模型。

它將是未来所有大语言模型的基石。

第三，小模型。

基於新框架和transformer架构，做出一个参数量在20亿到30亿的“小“模型。

“这个方案已经是极限了。“

陈阳在心里默念：

“必须在13年底完成训练。2014年1月，准时发布。“

“第三阶段：发布模型”

有了钱和名气，他的最终目的才真正开始。

“13年，必须完成三件事。”

大模型基础框架：搭建一套属於自己的深度学习框架。

陈阳在心里默念著这个计划的核心。

深度学习框架，说白了就是ai的“作业系统“。

它要解决两个最核心的问题：模型並行和模型通信。

2012年，单块显卡的显存只有几个g，根本装不下一个大模型。

唯一的办法，就是把模型“切开“——一部分放在这块显卡，一部分放在那块显卡，让它们协同工作。

就像一本太厚的书，一个人拿不动，只能撕成几本，分给几个人同时看。

这是模型並行。

但问题来了——这几个人需要频繁交流，才能把內容串起来。

显卡之间也一样，它们要不断传递数据，互相配合。

这就是模型通信。

如果通信效率低，几块显卡互相等待，再多显卡也没用。

这两个技术，將是未来做大模型的核心基础。

谁掌握了高效的模型並行和通信，谁就能训练更大的模型。

陈阳很清楚，现在市面上，这两块几乎还是一片空白。

他要做的，就是一套支持大规模模型並行和高效通信的框架。

等这套框架成熟了，別人想做大模型，就得用他的“作业系统“。

那时候，他就掌握了整个行业的底层规则。

transformer架构：

这是他最大的底牌。

为什么transformer是跨时代的？

两个原因。

第一，它能理解前后关係。

传统技术一个字一个字往后看，看到后面，前面就忘了。

transformer基於“注意力机制“，能看懂一句话里，哪些词和哪些词有关係。

比如“他拿起苹果，咬了一口“——它知道“咬“和“苹果“有关联。

这让ai第一次能真正“读懂“一段话。

书迷网

书迷网>重生2012全球科技财阀百度 > 第3章计划（第3页）

第3章计划（第3页）

已完结热门小说推荐

最新标签

书迷网

书迷网>重生2012全球科技财阀百度 > 第3章 计划（第3页）

第3章 计划（第3页）

已完结热门小说推荐

最新标签

书迷网>重生2012全球科技财阀百度 > 第3章计划（第3页）

第3章计划（第3页）