书阅网

手机浏览器扫描二维码访问

437 傲慢的代价(第2页)

在FP8问题上,孟繁岐与DS是一致的。

在稀疏这一方向上,孟繁岐选择了细粒度,矩阵层面的稀疏。

DS则选择了通道层面的MoE,混合专家模型。

简单来说,DS选择把模型拆分为1632个专家,就像是把一块蛋糕均分切成1632块。

每一块都是不同的味道,每一个专家更加专注于不同的知识。

根据具体的情况,会有一个门控系统,来决定哪些专家参与计算。

而孟繁岐的野心更甚,他想要从根本上将整个模型在原子级别拆分,细粒度地对所有权重进行大刀阔斧地裁减,直到原本大小的1632分之一。

从理论上说,这种方式的上限更高,MoE的稀疏更显得粗糙。

另一方面,孟繁岐也有愿景,想要增强国内硬件的竞争力。

因为英伟达的设备,是无法支持这种细粒度稀疏计算的。

倘若能够先发展国内计算设备,适配这种技术,就能够在制程等诸多硬件技术落后的情况下,达到更快的推理效果。

换言之,孟繁岐又一次将希望寄予了发展周期更长的硬件厂商,那么在这方面被其他人赶上,倒也不是什么奇怪的事情了。

虽然具体实现上稍显不同,但总体来说,DS完成了孟繁岐在技术上的两点宏观展望。

从其余的许多技术细节当中,孟繁岐可以很强烈地读到,他们的开发之路走得也并不顺利。

比如说混合专家MoE,很容易让一两个专家变成懂王,什么都要参与,很多其他的专家渐渐变成了挂件,貌似在参与,其实完全就是围观的观众。

如果增加额外的损失函数去调整它们,既增加了大量计算量,又极有可能影响到训练的主要目标本身。

专家们的调度问题这个小问题影响到模型的能力这个主要问题。

DS最终完美地解决了这个问题,既没有额外增添损失计算优化,又使得各专家实现了负载均衡。

孟繁岐相信,这个最终简洁优雅的技术方案背后一定存在许多努力与艰辛。

而现在的cloea对这种付出是越来越排斥的。

比起花费许多的努力在某一个算子上优化20-30%的速度,他们更愿意多用一些显卡,多花一些时间。

既然英伟达暂时不直接支持FP8做这样的操作,那就先等等吧。

诸如此类的事情持续累积,使得后来者已经实质上实现了相当数量的技术超越,甚至是在孟繁岐较为关注的技术方向上。

而DeepSeek的坦率开源,也让孟繁岐动摇了cloea是否继续闭源的想法。

“若是我适当裁减一些已经沉迷安乐的技术人员,逐渐走向开源,对比海对面的OpeA倒也算是奇景了。”

孟繁岐想到这里也是笑出了声。

自从两国关系逐渐微妙,CloeA的在美使用就收到了限制。

原本标榜开源的OpeA逐渐走向闭源,而最初就闭源盈利的CloeA反而在考虑拥抱开源盛世。

这倒也称得上是另一种双向奔赴了。

同一时刻,比起一直在关注技术细节的孟繁岐,普通人更为在意的,则是R1这个模型,首次揭露了前沿高性能智能思考问题的逻辑脉络。

本月排行榜
本周收藏榜
热门小说推荐
婚宠蜜恋,顾少哪里逃

婚宠蜜恋,顾少哪里逃

被背叛之后,南悠悠发愤图强,事业爱情两双收,心里美滋滋的,上辈子是猪油蒙了心,居然会看上这样的渣男。...

摸金秘录之河木集

摸金秘录之河木集

简介老九门的家族古辛,守护着长白山中的青铜巨门,巨门之后乃是终极,这终极又是何物?然河木集的再现,张起灵吴邪王胖子与他们后一辈再度古墓,找寻千年谜团,盗墓续章惊世风云再起。...

龙娘

龙娘

十八年前,我娘顺着黄河流浪到了九星湾,村民都把她当做傻女,将她糊里糊涂的许配给了村里的老光棍。结婚没多久我娘就生下了我,生我当天因难产而死。没有人知道我娘的名字,也没有人知道她怀的到底是谁的孩子。十八年后,我为我娘开坟,在她的棺材里找到一片龙鳞龙娘最新章节地址...

抗日之暴力军团

抗日之暴力军团

简介华夏闪电特种部队总教官雷战,重生抗日时期!他的到来,让小鬼子闻风丧胆!他的存在,让小鬼子寝食难安!他的名字,让小鬼子夜不能寐!他的队伍,杀小鬼子屠鸡宰狗!他,就是雷战,小鬼子眼中的恶魔!他,就是雷战,小鬼子眼中的杀神!逆鳞龙之逆鳞,触之必死!犯我中华者,虽远必诛!...

每日热搜小说推荐