手机浏览器扫描二维码访问
孟繁岐的这番话,听起来让人觉得不是那么舒服。
言下之意,给人一种华国A技术就是不如国外的感觉。
这是李彦弘不大喜欢的,毕竟他这么早就关注A技术,就是为了研发最前沿最先进的技术。
孟繁岐大概猜到了他的想法,前世他也曾被早期华国大量发表的A论文所迷惑。
觉得在这个新崛起的技术上,华国已经可以和美国分庭抗礼,不落下风。
虽然AlphaO震惊了世人,但毕竟有些华而不实。
直到上千亿级别的语言大模型出现,这种纯硬核实力的比拼,让孟繁岐不得不甘拜下风。
实际上,并非是技术手段和算法层面上相差太远。
更多的还是因为优质数据的数量不足。
白度的文心一言,出图的时候甚至会将用户的中文输入翻译成英文,再去作图。
很多较真的网友故意测试了中英文差异很大的词汇,比如总线(Bu),鼠标(moue)。
文心一言绘出的图像竟然是大巴车和老鼠,这从中文上是完全说不通的事情。
可见即便不是全部,文心一言这个所谓的专注中文的超级大模型,也在相当程度上借助了英文基础的模型权重和技术。
究竟为何要这么做,说到底还是基础不够扎实牢靠。
整理数据,清洗数据,给数据打上高质量的标签。
这些都是脏活累活,见效慢的工作。
把别人公开的数据拿过来跑一跑训一训,多么方便快捷?
以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在XX榜单上露面,刷榜,又是超过这个,又是超过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”
孟繁岐也曾仔细思索过这方面的问题。
“像thub,arxv这样的大型公开社区,里面都是非常优质的外文代码或者论文。
这些也不只是美国人自己的积累。
而是通过免费公用的形式,收割了全世界的数据。”
“华国人在thub上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。
里面屯点硕博生的论文,还要论页数收费。
就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。
因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
最近一两年内,孟繁岐的重心还是在视觉图像算法这边。
简介听到当年所教的一些学生发生意外,心情不好的李快来老师在校庆晚宴上拼命地喝酒,一觉睡醒,发现自己重回2005年刚毕业到岭水镇中学报到的那一天欢迎加入书友交流群168116511...
简介她招惹了全城最有权势的霸道男人,次日才知道他是她的顶头大BOSS。本以为只是生命的过客,没有想到他逗她上了瘾,还厚颜无耻地找上门来。老婆,你要对我负责!我有了你的孩子!!宫北冥,你能要点脸不?某总裁当真从身后捞出来一个粉团子,煞其有事地说,这可是你亲生的,赖不掉!妈咪,我找到你乐!小粉团子直接扑了过来,抱住了她的腿撒娇卖萌。池小语一脸的懵逼,她婚都没有结过,哪里来的孩...
别人的女儿出嫁欢天喜地,可是为毛她出嫁就成了如丧考妣?好吧,是她福薄,摊上的男人不能人道,不过只要每日有鸡大腿相伴,她倒也是万事足,只是天杀的,那个每晚将她摁在床上无情蹂躏的男人到底是谁?娘子,你不乖哦,来,为夫给你按摩一下。说话间,他再次将她摁倒,温热的唇瓣挡住了她的喋喋不休。据说此文是宠文,好吧,真的是宠文,...
市财政局小科员,穿越成了工作不久的祁同伟。为了逆天改命,他摆脱梁璐,分手陈阳,下乡当驻村干部,凭借出色的政绩进入GDP狂人李达康的视线。官场大门重新打开,权势巅峰指日可待...
我爸入狱了,换来一个比我大三岁的美女来当我监护人...
外来旅游的女大学生被村里流氓侮辱并杀害,自此村里怪事不断,频频死人,到底是冤魂索命,还是有人搞鬼?你可知,风水格局,焉能杀人于无形?煞龙冲天,尸骨成山,白虎探头,砂飞水走这是你从未真正了解过的世界,一切,尽在风水迷局。...