首富从AI浪潮开始 第89节
上次坐在这儿的时候,赵文渊说“大模型太贵了,这不是我们玩得起的领域”,韩路一说“源码的门随时给你开着”。
那是不到一个月前的事。
赵文渊穿了件灰色运动外套,看起来精神还不错。他抬头看见韩路一,又看见韩路一身后跟着的像终结者一样的张彪,愣了一下。
“你这是……”
“这是彪哥,专业保镖。”韩路一拉开椅子坐下,“投资人安排的。”
赵文渊上下打量了一下张彪,张彪在隔壁桌坐下,面无表情地掏出手机来点单——他点了一杯摩卡。
“你融了多少?”
“两个亿。”
赵文渊端起生椰拿铁喝了一口,没什么特别的表情。
“估值呢?”
“二十亿。”
“那咱们确实可以聊聊了。”赵文渊说,“你准备了多少预算?”
韩路一也不绕弯子:“三千万,模型团队的启动预算,你觉得怎么花?”
赵文渊没直接回答,反问了一句:“你想从头训练?”
“我感觉不够,你觉得呢?”
“确实不够。”赵文渊说,“差得远了。”
他翻过一张纸巾,从兜里掏出笔,开始在上面写字。
“通用大模型,千亿参数级别,预训练要几千张H100跑两到三个月。”他写了个数,“算力成本几千万美金起步,头部大厂一轮预训练烧一两个亿人民币是常态。”
韩路一知道这些数字,但听赵文渊亲口说出来感觉不一样,毕竟赵文渊是上过手的人。
“三千万人民币,”赵文渊在纸巾上画了个约等号,“四百万美金出头,连一轮预训练的零头都不够。”
“那你有什么想法?”
“也有别的路,”赵文渊把笔尖点在纸巾上,“做后训练。”
他在“后训练”三个字下面划了条线。
“开源基座模型已经具备通用代码能力了,羊驼模型、女王模型,都是很好的底子,后训练是在这个基础上做专精。”
“SFT加DPO?”
赵文渊看了他一眼,惊奇的挑了挑眉,又转头看看正一脸茫然看向这边的张彪。
“对,SFT,指令微调,让模型学会特定任务的模式,比如你给它一句自然语言描述,它要生成一个能跑的应用。DPO,直接偏好优化,这是第二步,让模型学会分辨什么是好的输出、什么是差的输出。”
他在纸巾上画了个简单的流程图。
“后训练的算力需求比预训练低一到两个数量级,三千万够启动。”
他把笔放下,先看向张彪。
张彪觉得自己困了,尽力睁大眼睛,眨了眨。
赵文渊放弃让张彪理解这次谈话了,他转向韩路一。
“后训练不拼算力,拼数据,准确的说,拼的是高质量的标注数据。”
韩路一等他继续。
“SFT需要大量的问题、答案配对。输入是用户的自然语言提示词,输出是可运行的应用代码,这种数据的质量直接决定模型的上限。”
赵文渊身体前倾。
“人工标注一条高质量数据,几十到上百块,十万条就是千万级别的成本,而且标注团队水平参差不齐,做出来的数据你还得反复清洗。”
“我在鼎盛的时候见过,CodeSafe吃进去的用户数据量很大,但脏,噪声多,他们花了很多人力清洗,效果始终上不去。”
“垃圾进,垃圾出。”韩路一说。
“就是这个意思,数据质量不行,模型再大也是白搭。”赵文渊说完,看着韩路一的眼神带着试探的意味,他在等韩路一出牌。
“数据我有。”
赵文渊没说话,但身体坐直了。他当时就猜测过,BugKiller为什么这么强,要么有黄金数据,要么有未公开的先进算法,现在看来是前者。
“你的数据哪来的?”他放慢语速,问道,“不会也是偷的吧?”
这话不是玩笑,赵文渊从鼎盛出来的,就是看不惯CodeSafe偷用户代码喂大模型,这是他的底线。
韩路一正色道:“所有的数据都是用户自愿分享的。注册时的相关选项是默认关闭的,用户必须主动选择将检测结果用于产品改进我们才能看到。协议是律师一条一条审过的,我这也有审计报告。”
赵文渊盯着他看。
“我绝不偷数据。”韩路一说。
“好。”赵文渊点了点头,“那数据量够吗?”
韩路一打开背包里的笔记本电脑,接上手机热点,先登录开物后台。
屏幕上跳出一个数据看板。
“开物上线到现在,累计二十三万条提示词-代码配对,”韩路一把屏幕转向赵文渊,“全部来自用户主动分享。”
赵文渊扫了一眼总数:“二十三万条……量是够了。但有个问题,AI生成的代码本身就有Bug,直接拿来训练不还是垃圾进垃圾出?”
“所以有第二步。”
韩路一切换到另一个界面,BugKiller的数据管线看板。
“开物每一条生成的代码,都会自动过一遍BugKiller的检测引擎,有Bug的标出来,能自动修复的直接修复,修不了的丢弃。”
赵文渊凑近屏幕。
数据流很清晰:用户提示词→原始生成代码→ BugKiller自动检测→修复后代码→入库。
每一条数据都带着状态标签,“通过”或“已修复”,没有“未修复”。
“原始代码通过率60%上下,经过BugKiller修复后,最终入库率96%。”
赵文渊没说话,他伸手拿过笔记本,开始自己翻数据。
他先看了几条“已修复”的,原始代码里确实有Bug,修复后的代码干净利落。然后他翻“通过”的那些,原始生成就没问题,代码结构清晰,变量命名规范。
一条、两条、五条、十条。
他逐行看修复逻辑。
二十条、三十条。
瑞幸店里的音乐换了几首,赵文渊都没有抬头。
翻到五十条左右的时候,他停了。
“这个检测引擎就是BugKiller的核心?”
“对,核心算法是我自己写的,”韩路一说,“这是技术壁垒。”
“你这个数据的确不可能是偷来的,客户的代码良莠不齐,偷来的没有这么高的质量。”赵文渊叹了一口气,“怪不得CodeSafe会输给你,我心服口服了。”
“这个准确率,这种用法,”他接着说,“你手里的是一条自动化的数据清洗流水线,别人要花几千万请人标注的事,你用算法跑一遍就完了。”
他又想了想,语速突然变快。
“而且,BugKiller检出来的那些Bug代码和修复后的版本,这不就是现成的DPO训练对吗?有Bug的是坏例子,修复后的是好例子,天然的偏好数据。”
韩路一点了点头。
“SFT用干净的提示词、代码对,DPO用Bug、修复对,两条管线同时跑。”赵文渊的手在桌上敲了两下,越说越兴奋,“数据飞轮,这个别人偷不走。就算把数据偷走,没有这个检测引擎,也做不出同等质量的清洗。”
韩路一没说话,文渊,入吾彀中矣。
赵文渊拿过那张写满数字的纸巾,翻到背面,接着写。
“后训练不需要预训练那种千卡集群,但也不便宜。H100单卡现在市场价二十到二十五万,8卡一台服务器,一台一百六到两百万。”
他给纸巾拍了照,放进手机备忘录里,然后在备忘录里敲了一串数字。
“中等规模模型,几十亿参数,后训练至少需要十六到三十二张卡。”
“先租。”韩路一接过话头。
赵文渊抬头。
“第一版跑通之前不锁定硬件。”韩路一说,“万一方向要调,买的卡可退不了。”
赵文渊笑了,以前在谷歌的时候,训练模型还真没这么抠搜过。
“你挺清醒的。”
“穷过,谢谢。”
赵文渊在备忘录里快速敲着数字:“算力租赁首批八百万,数据清洗和补充标注三百到五百——这个可能可以省下来,团队薪资六个月四百万上下,工具链杂项三百万,再预留一千万。”
他把手机推过来让韩路一看。
“够用了,先跑起来。”
两人越聊越快,瑞幸下午三点多的店里不算吵,但他俩的声音在不自觉地变大。
旁边桌一个戴耳机的女生摘下一只耳机看了他们一眼,两个装逼犯加一个肌肉男,这组合可太奇怪了。
