书阅网

手机浏览器扫描二维码访问

437 傲慢的代价(第2页)

在FP8问题上,孟繁岐与DS是一致的。

在稀疏这一方向上,孟繁岐选择了细粒度,矩阵层面的稀疏。

DS则选择了通道层面的MoE,混合专家模型。

简单来说,DS选择把模型拆分为1632个专家,就像是把一块蛋糕均分切成1632块。

每一块都是不同的味道,每一个专家更加专注于不同的知识。

根据具体的情况,会有一个门控系统,来决定哪些专家参与计算。

而孟繁岐的野心更甚,他想要从根本上将整个模型在原子级别拆分,细粒度地对所有权重进行大刀阔斧地裁减,直到原本大小的1632分之一。

从理论上说,这种方式的上限更高,MoE的稀疏更显得粗糙。

另一方面,孟繁岐也有愿景,想要增强国内硬件的竞争力。

因为英伟达的设备,是无法支持这种细粒度稀疏计算的。

倘若能够先发展国内计算设备,适配这种技术,就能够在制程等诸多硬件技术落后的情况下,达到更快的推理效果。

换言之,孟繁岐又一次将希望寄予了发展周期更长的硬件厂商,那么在这方面被其他人赶上,倒也不是什么奇怪的事情了。

虽然具体实现上稍显不同,但总体来说,DS完成了孟繁岐在技术上的两点宏观展望。

从其余的许多技术细节当中,孟繁岐可以很强烈地读到,他们的开发之路走得也并不顺利。

比如说混合专家MoE,很容易让一两个专家变成懂王,什么都要参与,很多其他的专家渐渐变成了挂件,貌似在参与,其实完全就是围观的观众。

如果增加额外的损失函数去调整它们,既增加了大量计算量,又极有可能影响到训练的主要目标本身。

专家们的调度问题这个小问题影响到模型的能力这个主要问题。

DS最终完美地解决了这个问题,既没有额外增添损失计算优化,又使得各专家实现了负载均衡。

孟繁岐相信,这个最终简洁优雅的技术方案背后一定存在许多努力与艰辛。

而现在的cloea对这种付出是越来越排斥的。

比起花费许多的努力在某一个算子上优化20-30%的速度,他们更愿意多用一些显卡,多花一些时间。

既然英伟达暂时不直接支持FP8做这样的操作,那就先等等吧。

诸如此类的事情持续累积,使得后来者已经实质上实现了相当数量的技术超越,甚至是在孟繁岐较为关注的技术方向上。

而DeepSeek的坦率开源,也让孟繁岐动摇了cloea是否继续闭源的想法。

“若是我适当裁减一些已经沉迷安乐的技术人员,逐渐走向开源,对比海对面的OpeA倒也算是奇景了。”

孟繁岐想到这里也是笑出了声。

自从两国关系逐渐微妙,CloeA的在美使用就收到了限制。

原本标榜开源的OpeA逐渐走向闭源,而最初就闭源盈利的CloeA反而在考虑拥抱开源盛世。

这倒也称得上是另一种双向奔赴了。

同一时刻,比起一直在关注技术细节的孟繁岐,普通人更为在意的,则是R1这个模型,首次揭露了前沿高性能智能思考问题的逻辑脉络。

本周收藏榜
热门小说推荐
绯闻之王

绯闻之王

简介他的歌声令人沉迷,他的演技令人迷醉,他的舞技更是令人疯狂,他就是娱乐圈的KING!然而,这个拥有神袛一样完美容颜和身材的家伙给人的第一印象就是他的绯闻,无处不在,无时无刻!娱记你说是绯闻,可我们的人拍到你在艾薇儿的房子里待了一晚?某男我只是在和她谈一下演唱会的事情,又顺便谈了谈人生和理想娱记那么,你和艾玛罗伯茨小姐亲吻呢?某男大家都知道我的演技很棒,我只是在和她沟通怎么演吻戏而已...

嚣张宝宝总裁妈

嚣张宝宝总裁妈

黑暗中,她为救他,成了他的女人,他却隔天清晨匆匆离去。六年后,她进入他的公司,与他擦肩而过,却互不相识,但一切却悄然发生改变,他有了自己爱的人,她有了爱自己的人她带着女儿疲于奔命,他重新进入她的生活,当他决定娶她时,她却淡淡一笑,转身离开...

女主从书里跑出来了怎么办

女主从书里跑出来了怎么办

简介楚戈是个后宫文写手。当他正在写天下最强者之一的女宗主芳心萌动的时候一个女人出现在他的房间里,持剑架在他的脖子上你敢写我爱上那个男人,我就杀了你。...

恶魔总裁坏坏哒

恶魔总裁坏坏哒

抢婚这种戏码早已司空见惯,但是谁来告诉她,为什么这个抢她的男人竟然连她这个新娘子自己都不认识啊!不认识?那就再重新好好认识一下!男人欺压上身,将她逼向床角。他是冷情总裁,却唯独对她宠爱入骨,每天想的问题就是怎么把她骗上床。终于,某女忍无可忍,扶着酸痛的腰,向他抗议你够了!敢再压我一下试试!某男邪魅一笑可以。...

每日热搜小说推荐