首富从AI浪潮开始 第117节
寒暄没超过半分钟。
程远坐下。韩路一在他落座的一瞬间打开了视界。
面板展开:
【程远|43岁|鼎盛集团·战略投资部·副总裁】
【情绪:沉稳】
【隐藏情绪:审视】
【当前状态:郑晓波办公室的接触意向,任务优先级为摸清源码科技对「整体收购」的意向】
【背景信息:王志远去职后鼎盛集团高层对AI应用线的部署重新洗牌】
韩路一收起视界。
“韩总,”程远直接切入正题,“郑总非常认可源码科技在AI应用赛道的方向和执行力,鼎盛希望探讨更深度的合作可能性。”
他顿了一下。
“包括但不限于战略投资,或者整体收购。”
“整体收购”四个字出来的时候,韩路一端着咖啡杯没动,手也没抖。
“鼎盛有这个想法,我能理解。”韩路一说,“你们在AI应用这个方向试过了,知道有多难。”
程远假装没听出韩路一的话外之音,点头附和道:“郑总的原话是「与其自己重新做一遍,不如找已经做对了的人」。”
“这话说得实在。”韩路一放下杯子,“但最近想跟我们合作的大厂不止你们一家。”
“当然。”程远说,“这只是一个初步的意向交流,具体的——”
“合作可以谈,收购就算了。”
程远没有强求,他说理解,会把韩总的意思如实带回去。
韩路一送他到电梯口。两个人握了手,程远进了电梯。
电梯门关上之后,沈丛云从旁边走过来。
“收购?”
“试探。”韩路一说,“意料之中的事。”
送走鼎盛的人之后,韩路一没有马上回办公室。
他站在走廊尽头的落地窗前,外面是黄浦江,天色灰蒙蒙的。
他想起一个画面。
二月底,他离职的那天,天色也是这样灰蒙蒙的,他还了工牌,站在冷风里。
九个月。
九个月后鼎盛派人来问他,愿不愿意被收购。
既然不愿意被收购,那就做好竞争的准备吧。
韩路一拿出手机,给顾司玥发了条信息:“王志远去职了。”
顾司玥回复的很快:“你怎么得到的消息?”
“刚才郑晓波派人来找我谈收购。”
“需要我们审阅收购合同吗?”顾司玥回复。
“不,我不会接受收购的。”韩路一打完这句话,把手机收进口袋,转身回到办公室。
第一百一十七章 平台期
十二月的海城已经开始冷了。
韩路一裹着羽绒服走进前滩中心的写字楼大堂,把工牌在闸机上刷了一下,“滴”的一声,闸门打开。
他走进电梯,十二楼的按钮已经亮了。
电梯里还有两个人,正在聊天,穿着跟他一样的工牌,但他不认识。
看到韩路一和张彪进来,两人停止交谈,其中一个看了他一眼,犹豫了一下,叫了声“韩总”,另一个也跟着打招呼:“韩总早啊”。
韩路一点了下头,打开视界看了看名字:”小牛,小杨,早啊。”
打完招呼,电梯里陷入了一阵尴尬的沉默,两人也不再聊天了。
韩路一确实不认识这两个人。公司已经招满了五十人,中间隔了一轮集中招聘,好几个新面孔他连名字都没对上号。飞书群里有每个员工的名字和头像,但他没来得及一个一个记下来。
十二楼到了,电梯门一开,走廊里已经有人了。
前台换了个人,上个月的实习生离职了,现在坐着一个娃娃脸的姑娘,见他来了站起来说“韩总早”。
茶水间排着三个人在等咖啡机,有人端着杯子在聊天。走廊尽头的大会议室拉着百叶帘,里面影影绰绰坐了一排人,不知道是哪个组在开晨会。
源码科技更像一家正经公司了。
飞书工作台上每天早上十点半会自动弹出一个提醒,“你今天最重要的工作是什么?”,每周五下午还会提醒每个人写”卡点同步”的文档。会议室要在系统上预约,超时十五分钟没到就自动释放。考勤制度是弹性的,上午十点前到就行,下午几点离开公司也会记录,虽然数据暂时没有用来计算绩效,但沈丛云说“先都记着”。
这些都是沈丛云搭起来的。
韩路一在心里对规范化所带来的大公司病有一种难言的抗拒,但他到现在还没有想出什么更好的办法来取代这些规范,于是一条一条的慢慢推进。
走到自己办公室门口的时候,手机震了一下。
是赵文渊的飞书信息:“到了吗?有进度汇报。”
韩路一回了一句”在办公室”,推门进去把羽绒服挂在衣架上,打开百叶帘。窗外是黄浦江,连续几天阴天,今天难得出太阳,江面上有光。
两分钟后赵文渊敲门进来了。
他今天没穿西装,穿了一件皮夹克,看起来像个摩托车骑士,手里抱着笔记本电脑,腋下夹着一个本子。他现在的工位在十三楼,模型团队独占了半层,招了十几个人之后坐不下了,上个月刚扩的。
“关门吗?”赵文渊问。
韩路一点点头。
赵文渊用脚后跟把门带上,在沙发上坐下来,打开笔记本,转过屏幕让韩路一看。
屏幕上是一张曲线图。
横轴是训练轮次,纵轴是准确率。五个点标在曲线上,第五个点的数字是——
84.7%。
“第五轮微调训练跑完了,”赵文渊说,“初次生成准确率八十四点七。”
韩路一看着这个数字。
乾元最新公布的基准是85%。
只差0.3个百分点。
“演示看看。”
赵文渊点开几个测试用例,几个使用不同编程语言在不同应用场景下进行的代码生成,生成完之后再放进BugKiller扫一遍,看错误率。韩路一同时打开视界看了看模型直接生成的代码。
生成质量确实上了一个台阶。
但赵文渊的表情不像是来报喜的。
他翻到下一页,是一张更详细的曲线。五轮训练的提升幅度标得很清楚:第一轮上次会议分享过了,76.8;第二轮到第三轮,提了5个点;第三轮到第四轮,2.8个点;第四轮到第五轮,0.1个点。
曲线在快速变平。
“84.7已经是后训练能做到的极限了,”赵文渊说,“再往上走,就不是加数据加显卡能解决的问题了。”
韩路一看着那条曲线。
他想起上次开会的时候,赵文渊在会议室投屏上放的同一条S形曲线。当时的状况,准确率还处在Scaling Law的前半段。
数据点在曲线的极速上升阶段。
现在数据点走到高原了,大力出奇迹,这招在这不再好使了。
“也就是说,”韩路一的手点在办公桌上,“我们用开源底座做微调这条路,走到头了。”
“不是走到头了,是走到平台了。”赵文渊纠正他,“就像减肥,平台期是可以突破的,但是你得换一种方式才能突破。”
“什么方式?”
赵文渊合上笔记本,从腋下抽出那个本子。韩路一瞄了一眼,牛皮纸封面,上面用黑笔密密麻麻写了一堆英文缩写和箭头,像上学时候的笔记本。
赵文渊翻到其中一页,把本子摊在茶几上。
“三条路。”
他指着第一行。
“第一条,继续走RLHF,强化学习加人类反馈。”
RLHF,Reinforcement Learning from Human Feedback,强化学习加人类反馈。简单说,就是让真实用户来当裁判,用户觉得生成得好,模型记住;用户觉得不行,模型改。久而久之,模型就能学会“用户认为好的内容”。
韩路一没说话,等他往下讲。
“思路很简单,开物上线这几个月,真实用户的操作数据我们全都留着。用户觉得生成得好的,点了采纳;觉得不行的,手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型,然后用强化学习让天工去拟合这个奖励函数。”
“有别于之前我们基于BugKiller数据的反馈训练,这种训练可以让模型更加理解用户输入所对应的意图,这是超越Bug修复的部分,更偏向于语义理解。”
