首富从AI浪潮开始 第201节
经历了最初的震惊、迷茫、怀疑世界之后,赵文渊已经适应了这种模式。
可能这个世界就是有天才吧。
有难题,找韩总。
我直接把韩总当我的随身老爷爷用不就完了吗?管他怎么做到的呢。
像现在,卡了全组两天的两个算子迁移,韩路一坐下十分钟,解决了。
第一个是RoPE。
这个东西说白了,是让模型知道一段文本里每个词所在的位置。短文本里问题不明显,可一旦上下文拉长到十六K,显卡那边的三角函数近似误差就开始增多的厉害。之前测试的时候,前八K还算正常,到了后面,生成结果就会出现莫名其妙的错位。
赵文渊他们试了两天,一直在精度和性能之间来回拉扯。精度压下去,速度掉得厉害;速度提上来,误差又爆。
韩路一坐下之后,只看了一遍日志,就让智能体把sin/cos查表的粒度重新切了一档,又把缓存策略改成按block复用。
五分钟后,十六K长上下文测试通过,性能损耗从原来的百分之四十七降到了百分之十八。
第二个是LayerNorm。
这个算子看起来简单,可训练里调用频率极高,慢一点点,整条训练链路都会被拖住。韩路一改了两个访存顺序,又让智能体把向量化读写补上,性能直接从N卡基准的百分之五十二拉到百分之八十一。
赵文渊当时看着那两个绿色 PASS,心情已经很平静了。
平静到有点麻木。
解决完问题,韩路一制止了赵文渊想要接着工作的势头。
“停一下,我有别的事要和你商量。”
赵文渊看向韩路一。
“Nexus那边开始动作了,我预测他们四月开始就不会再给我们提供API接口,所以在那之前我们要把汤圆1.0做出来,确保汤圆能接住Kaiwu海外版迁移过来的流量。”
赵文渊听完之后在电脑上切了一下屏幕,看了看训练进度,然后对韩路一说:“韩总,时间上有点赶,但是应该来得及。只是,我比较担心的是双语适配问题。”
赵文渊调整了一下坐姿,面向韩路一,谨慎的分析起来。
“预训练倒是问题不大,用的互联网上的原始数据,本身就是英文居多。关键是后训练,模型的理解能力主要来源于后训练的提高,你现在提供的那批标注虽然质量极高,但都是中文的,对英文能力的提升恐怕……”
赵文渊的话没说完整,但意思到位了。
然后他用期待的眼神看向韩路一:“韩总,不知道英文的标注,你能不能——”
这就是赵文渊的新策略。
有需求,找韩总。
你别管他是怎么解决的,反正他能给你解决。
直接问就完了。
韩路一看着赵文渊期待的眼神,沉默了一会儿,才缓缓地点了点头:“……你确保训练进度,标注的事,我来想办法。”
说完他起身走了。
赵文渊赶紧投入到工作之中。
刚才卡住的难题韩路一虽然解决了,但是他是简单粗暴的给出了正确答案,至于中间为什么这么做、和其他的替代方案比有什么提升,这些都还是空白。
赵文渊现在要做的事是拿着问题和正确答案,补全中间的答题过程。这些对将来的研究和开发工作来说,都是至关重要的资料。
他知道,韩路一不做这些繁琐的工作不是因为不会,而是因为工作繁忙没有时间。
把这些资料整理好,就是他赵文渊体现价值的地方。
况且,给天才解的题写文档这件事,也不是谁都有机会做的啊。
想到这,赵文渊突然抬头看向韩路一离开的方向。
奇怪,他刚才的脚步,是不是看起来有点儿沉重?
第一百八十八章 汤圆参谋长
韩路一从十三楼走进电梯,电梯门关上之后,轻轻的出了一口气。
赵文渊那边的进展很令人满意,不仅汤圆的训练在正轨上稳定推进,国产显卡的适配也有了方向,剩下的工作慢慢都能做完。
唯一让他苦恼的是赵文渊的新需求。
——高质量的英文标注,用来提升英文语境下的意图理解。
很合理。
也很关键。
可以说是Kaiwu海外版能继续发展的核心了。
而高质量的英文标注,韩路一也知道怎么获得。
只是,臣妾实在是标不动了啊。
韩路一一边走一边摇了摇头。
车到山前必有路,实在不行,肝就完了。
离三月底还有两个多月,会有办法的。
韩路一下到十二楼之后没回办公室,而是直接去了沈丛云的办公室。
敲门进去,沈丛云赶紧从办公桌后面站了起来。
“韩总,您来了,有什么事?”
“我刚才发了一份招聘需求给你,看过了吗?”韩路一一边进门一边说。
沈丛云闻言赶紧打开飞书,才看到韩路一的消息。
他的神情马上严肃起来:“不好意思,韩总,刚开完会回来,我这就看。”
飞书消息很简短,就两个字“加急”。
底下是一个附件,《源智科技模型团队紧急招聘需求》。
沈丛云是源码科技的人力总,但他自觉地没有问关于源码还是源智的事。
两个公司现在看来完全独立,只是有一个共同的创始人和大股东。
但谁知道将来哪天会合并成集团公司呢?
看来韩路一暂时没打算再建一套行政、人力的团队,如果让他兼职管着,那他真是求之不得了。
沈丛云沉下心来认认真真地从头到尾读了一遍所有的岗位需求。
很清楚,模型工程师,数据工程师,算法工程师,基础设施工程师。
这些都是韩路一之前和赵文渊商量之后得出来的内容。
每个岗位后面都有具体要求:必须项、最好项、加分项。
沈丛云看得很快,越看眉头皱的越深。
这些岗位和源码科技现在的模型组有重合,也有扩充。离上一轮招聘不久,沈丛云知道现在市场上的人才有多么抢手。
人们都说现在的市场不好,工作不好找。
这话没错,但得看是什么岗位。
和AI相关,尤其是大模型研发相关的人才,市面上一共也没有几个,各家大公司是争相加价在抢。
别说国内,就是在美国,Meta为了组建大模型团队,给顶尖研究员开出过上亿美元的天价合同,整组整组地从竞争对手那里挖人,搅得整个硅谷鸡飞狗跳。
沈丛云读完,抬起头看向韩路一:“韩总,这些人可不好招啊。”
“我知道。”
沈丛云怕他知道的不够清楚:“普通的AI工程师已经不多了,您看这些需求——做过大规模训练,国产芯片适配经验——这在市场上凤毛麟角,更别说咱们还是创业公司了。”
韩路一没在意沈丛云说的「咱们」,只是点了点头:“所以才找你,我信任你。”
沈丛云的脸色变得好看了一点儿:“韩总,有时间线吗?”
“两周内每个岗位都得到位一人——嗯,模型工程师可以不急,让赵总先顶着。”韩路一说。
“两周……”沈丛云沉吟了一下,“现在快过年了,大家都在等年终奖,不是招人的好时候。”
“是我考虑不周了。”韩路一才意识到快过年了,他还刚批过年终奖的方案。
人一忙起来,什么都会忘。
“那就年后吧,尽快到位。”
沈丛云点了点头。
他不怕事情难办,事情难办才能体现他的价值。
况且老板都知道难办的事情,办砸了是客观问题,办好了是超出预期,没有不做的道理。
“韩总,那我出个方案,主要是以下几个方向:上一轮源码招聘发了Offer但是没来的人;公司里在这个行业能介绍的人;还有猎头。”沈丛云说,“但是急着招人的话,薪资的范围要给的高一些,猎头还有额外的成本。”
韩路一站起身:“可以,你出个报告我看看。”
他走到门口,又回头说了一句。
“对了,我让律师给出一份服务协议,由源码向源智提供人力资源服务,按市场价结算费用,到时候给你签字。”
