首富从AI浪潮开始第117节

　　寒暄没超过半分钟。

　　程远坐下。韩路一在他落座的一瞬间打开了视界。

　　面板展开：

　　【程远｜43岁｜鼎盛集团·战略投资部·副总裁】

　　【情绪：沉稳】

　　【隐藏情绪：审视】

　　【当前状态：郑晓波办公室的接触意向，任务优先级为摸清源码科技对「整体收购」的意向】

　　【背景信息：王志远去职后鼎盛集团高层对AI应用线的部署重新洗牌】

　　韩路一收起视界。

　　“韩总，”程远直接切入正题，“郑总非常认可源码科技在AI应用赛道的方向和执行力，鼎盛希望探讨更深度的合作可能性。”

　　他顿了一下。

　　“包括但不限于战略投资，或者整体收购。”

　　“整体收购”四个字出来的时候，韩路一端着咖啡杯没动，手也没抖。

　　“鼎盛有这个想法，我能理解。”韩路一说，“你们在AI应用这个方向试过了，知道有多难。”

　　程远假装没听出韩路一的话外之音，点头附和道：“郑总的原话是「与其自己重新做一遍，不如找已经做对了的人」。”

　　“这话说得实在。”韩路一放下杯子，“但最近想跟我们合作的大厂不止你们一家。”

　　“当然。”程远说，“这只是一个初步的意向交流，具体的——”

　　“合作可以谈，收购就算了。”

　　程远没有强求，他说理解，会把韩总的意思如实带回去。

　　韩路一送他到电梯口。两个人握了手，程远进了电梯。

　　电梯门关上之后，沈丛云从旁边走过来。

　　“收购？”

　　“试探。”韩路一说，“意料之中的事。”

　　送走鼎盛的人之后，韩路一没有马上回办公室。

　　他站在走廊尽头的落地窗前，外面是黄浦江，天色灰蒙蒙的。

　　他想起一个画面。

　　二月底，他离职的那天，天色也是这样灰蒙蒙的，他还了工牌，站在冷风里。

　　九个月。

　　九个月后鼎盛派人来问他，愿不愿意被收购。

　　既然不愿意被收购，那就做好竞争的准备吧。

　　韩路一拿出手机，给顾司玥发了条信息：“王志远去职了。”

　　顾司玥回复的很快：“你怎么得到的消息？”

　　“刚才郑晓波派人来找我谈收购。”

　　“需要我们审阅收购合同吗？”顾司玥回复。

　　“不，我不会接受收购的。”韩路一打完这句话，把手机收进口袋，转身回到办公室。

第一百一十七章平台期

　　十二月的海城已经开始冷了。

　　韩路一裹着羽绒服走进前滩中心的写字楼大堂，把工牌在闸机上刷了一下，“滴”的一声，闸门打开。

　　他走进电梯，十二楼的按钮已经亮了。

　　电梯里还有两个人，正在聊天，穿着跟他一样的工牌，但他不认识。

　　看到韩路一和张彪进来，两人停止交谈，其中一个看了他一眼，犹豫了一下，叫了声“韩总”，另一个也跟着打招呼：“韩总早啊”。

　　韩路一点了下头，打开视界看了看名字：”小牛，小杨，早啊。”

　　打完招呼，电梯里陷入了一阵尴尬的沉默，两人也不再聊天了。

　　韩路一确实不认识这两个人。公司已经招满了五十人，中间隔了一轮集中招聘，好几个新面孔他连名字都没对上号。飞书群里有每个员工的名字和头像，但他没来得及一个一个记下来。

　　十二楼到了，电梯门一开，走廊里已经有人了。

　　前台换了个人，上个月的实习生离职了，现在坐着一个娃娃脸的姑娘，见他来了站起来说“韩总早”。

　　茶水间排着三个人在等咖啡机，有人端着杯子在聊天。走廊尽头的大会议室拉着百叶帘，里面影影绰绰坐了一排人，不知道是哪个组在开晨会。

　　源码科技更像一家正经公司了。

　　飞书工作台上每天早上十点半会自动弹出一个提醒，“你今天最重要的工作是什么？”，每周五下午还会提醒每个人写”卡点同步”的文档。会议室要在系统上预约，超时十五分钟没到就自动释放。考勤制度是弹性的，上午十点前到就行，下午几点离开公司也会记录，虽然数据暂时没有用来计算绩效，但沈丛云说“先都记着”。

　　这些都是沈丛云搭起来的。

　　韩路一在心里对规范化所带来的大公司病有一种难言的抗拒，但他到现在还没有想出什么更好的办法来取代这些规范，于是一条一条的慢慢推进。

　　走到自己办公室门口的时候，手机震了一下。

　　是赵文渊的飞书信息：“到了吗？有进度汇报。”

　　韩路一回了一句”在办公室”，推门进去把羽绒服挂在衣架上，打开百叶帘。窗外是黄浦江，连续几天阴天，今天难得出太阳，江面上有光。

　　两分钟后赵文渊敲门进来了。

　　他今天没穿西装，穿了一件皮夹克，看起来像个摩托车骑士，手里抱着笔记本电脑，腋下夹着一个本子。他现在的工位在十三楼，模型团队独占了半层，招了十几个人之后坐不下了，上个月刚扩的。

　　“关门吗？”赵文渊问。

　　韩路一点点头。

　　赵文渊用脚后跟把门带上，在沙发上坐下来，打开笔记本，转过屏幕让韩路一看。

　　屏幕上是一张曲线图。

　　横轴是训练轮次，纵轴是准确率。五个点标在曲线上，第五个点的数字是——

　　84.7%。

　　“第五轮微调训练跑完了，”赵文渊说，“初次生成准确率八十四点七。”

　　韩路一看着这个数字。

　　乾元最新公布的基准是85%。

　　只差0.3个百分点。

　　“演示看看。”

　　赵文渊点开几个测试用例，几个使用不同编程语言在不同应用场景下进行的代码生成，生成完之后再放进BugKiller扫一遍，看错误率。韩路一同时打开视界看了看模型直接生成的代码。

　　生成质量确实上了一个台阶。

　　但赵文渊的表情不像是来报喜的。

　　他翻到下一页，是一张更详细的曲线。五轮训练的提升幅度标得很清楚：第一轮上次会议分享过了，76.8；第二轮到第三轮，提了5个点；第三轮到第四轮，2.8个点；第四轮到第五轮，0.1个点。

　　曲线在快速变平。

　　“84.7已经是后训练能做到的极限了，”赵文渊说，“再往上走，就不是加数据加显卡能解决的问题了。”

　　韩路一看着那条曲线。

　　他想起上次开会的时候，赵文渊在会议室投屏上放的同一条S形曲线。当时的状况，准确率还处在Scaling Law的前半段。

　　数据点在曲线的极速上升阶段。

　　现在数据点走到高原了，大力出奇迹，这招在这不再好使了。

　　“也就是说，”韩路一的手点在办公桌上，“我们用开源底座做微调这条路，走到头了。”

　　“不是走到头了，是走到平台了。”赵文渊纠正他，“就像减肥，平台期是可以突破的，但是你得换一种方式才能突破。”

　　“什么方式？”

　　赵文渊合上笔记本，从腋下抽出那个本子。韩路一瞄了一眼，牛皮纸封面，上面用黑笔密密麻麻写了一堆英文缩写和箭头，像上学时候的笔记本。

　　赵文渊翻到其中一页，把本子摊在茶几上。

　　“三条路。”

　　他指着第一行。

　　“第一条，继续走RLHF，强化学习加人类反馈。”

　　RLHF，Reinforcement Learning from Human Feedback，强化学习加人类反馈。简单说，就是让真实用户来当裁判，用户觉得生成得好，模型记住；用户觉得不行，模型改。久而久之，模型就能学会“用户认为好的内容”。

　　韩路一没说话，等他往下讲。

　　“思路很简单，开物上线这几个月，真实用户的操作数据我们全都留着。用户觉得生成得好的，点了采纳；觉得不行的，手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型，然后用强化学习让天工去拟合这个奖励函数。”

　　“有别于之前我们基于BugKiller数据的反馈训练，这种训练可以让模型更加理解用户输入所对应的意图，这是超越Bug修复的部分，更偏向于语义理解。”

首节上一节 117/298下一节尾节目录 txt下载

上一篇：这个导演不讲规矩

下一篇：返回列表

首富从AI浪潮开始 第117节

推荐阅读

首富从AI浪潮开始第117节