首页 > 都市言情> 首富从AI浪潮开始

首富从AI浪潮开始 第89节

  上次坐在这儿的时候,赵文渊说“大模型太贵了,这不是我们玩得起的领域”,韩路一说“源码的门随时给你开着”。

  那是不到一个月前的事。

  赵文渊穿了件灰色运动外套,看起来精神还不错。他抬头看见韩路一,又看见韩路一身后跟着的像终结者一样的张彪,愣了一下。

  “你这是……”

  “这是彪哥,专业保镖。”韩路一拉开椅子坐下,“投资人安排的。”

  赵文渊上下打量了一下张彪,张彪在隔壁桌坐下,面无表情地掏出手机来点单——他点了一杯摩卡。

  “你融了多少?”

  “两个亿。”

  赵文渊端起生椰拿铁喝了一口,没什么特别的表情。

  “估值呢?”

  “二十亿。”

  “那咱们确实可以聊聊了。”赵文渊说,“你准备了多少预算?”

  韩路一也不绕弯子:“三千万,模型团队的启动预算,你觉得怎么花?”

  赵文渊没直接回答,反问了一句:“你想从头训练?”

  “我感觉不够,你觉得呢?”

  “确实不够。”赵文渊说,“差得远了。”

  他翻过一张纸巾,从兜里掏出笔,开始在上面写字。

  “通用大模型,千亿参数级别,预训练要几千张H100跑两到三个月。”他写了个数,“算力成本几千万美金起步,头部大厂一轮预训练烧一两个亿人民币是常态。”

  韩路一知道这些数字,但听赵文渊亲口说出来感觉不一样,毕竟赵文渊是上过手的人。

  “三千万人民币,”赵文渊在纸巾上画了个约等号,“四百万美金出头,连一轮预训练的零头都不够。”

  “那你有什么想法?”

  “也有别的路,”赵文渊把笔尖点在纸巾上,“做后训练。”

  他在“后训练”三个字下面划了条线。

  “开源基座模型已经具备通用代码能力了,羊驼模型、女王模型,都是很好的底子,后训练是在这个基础上做专精。”

  “SFT加DPO?”

  赵文渊看了他一眼,惊奇的挑了挑眉,又转头看看正一脸茫然看向这边的张彪。

  “对,SFT,指令微调,让模型学会特定任务的模式,比如你给它一句自然语言描述,它要生成一个能跑的应用。DPO,直接偏好优化,这是第二步,让模型学会分辨什么是好的输出、什么是差的输出。”

  他在纸巾上画了个简单的流程图。

  “后训练的算力需求比预训练低一到两个数量级,三千万够启动。”

  他把笔放下,先看向张彪。

  张彪觉得自己困了,尽力睁大眼睛,眨了眨。

  赵文渊放弃让张彪理解这次谈话了,他转向韩路一。

  “后训练不拼算力,拼数据,准确的说,拼的是高质量的标注数据。”

  韩路一等他继续。

  “SFT需要大量的问题、答案配对。输入是用户的自然语言提示词,输出是可运行的应用代码,这种数据的质量直接决定模型的上限。”

  赵文渊身体前倾。

  “人工标注一条高质量数据,几十到上百块,十万条就是千万级别的成本,而且标注团队水平参差不齐,做出来的数据你还得反复清洗。”

  “我在鼎盛的时候见过,CodeSafe吃进去的用户数据量很大,但脏,噪声多,他们花了很多人力清洗,效果始终上不去。”

  “垃圾进,垃圾出。”韩路一说。

  “就是这个意思,数据质量不行,模型再大也是白搭。”赵文渊说完,看着韩路一的眼神带着试探的意味,他在等韩路一出牌。

  “数据我有。”

  赵文渊没说话,但身体坐直了。他当时就猜测过,BugKiller为什么这么强,要么有黄金数据,要么有未公开的先进算法,现在看来是前者。

  “你的数据哪来的?”他放慢语速,问道,“不会也是偷的吧?”

  这话不是玩笑,赵文渊从鼎盛出来的,就是看不惯CodeSafe偷用户代码喂大模型,这是他的底线。

  韩路一正色道:“所有的数据都是用户自愿分享的。注册时的相关选项是默认关闭的,用户必须主动选择将检测结果用于产品改进我们才能看到。协议是律师一条一条审过的,我这也有审计报告。”

  赵文渊盯着他看。

  “我绝不偷数据。”韩路一说。

  “好。”赵文渊点了点头,“那数据量够吗?”

  韩路一打开背包里的笔记本电脑,接上手机热点,先登录开物后台。

  屏幕上跳出一个数据看板。

  “开物上线到现在,累计二十三万条提示词-代码配对,”韩路一把屏幕转向赵文渊,“全部来自用户主动分享。”

  赵文渊扫了一眼总数:“二十三万条……量是够了。但有个问题,AI生成的代码本身就有Bug,直接拿来训练不还是垃圾进垃圾出?”

  “所以有第二步。”

  韩路一切换到另一个界面,BugKiller的数据管线看板。

  “开物每一条生成的代码,都会自动过一遍BugKiller的检测引擎,有Bug的标出来,能自动修复的直接修复,修不了的丢弃。”

  赵文渊凑近屏幕。

  数据流很清晰:用户提示词→原始生成代码→ BugKiller自动检测→修复后代码→入库。

  每一条数据都带着状态标签,“通过”或“已修复”,没有“未修复”。

  “原始代码通过率60%上下,经过BugKiller修复后,最终入库率96%。”

  赵文渊没说话,他伸手拿过笔记本,开始自己翻数据。

  他先看了几条“已修复”的,原始代码里确实有Bug,修复后的代码干净利落。然后他翻“通过”的那些,原始生成就没问题,代码结构清晰,变量命名规范。

  一条、两条、五条、十条。

  他逐行看修复逻辑。

  二十条、三十条。

  瑞幸店里的音乐换了几首,赵文渊都没有抬头。

  翻到五十条左右的时候,他停了。

  “这个检测引擎就是BugKiller的核心?”

  “对,核心算法是我自己写的,”韩路一说,“这是技术壁垒。”

  “你这个数据的确不可能是偷来的,客户的代码良莠不齐,偷来的没有这么高的质量。”赵文渊叹了一口气,“怪不得CodeSafe会输给你,我心服口服了。”

  “这个准确率,这种用法,”他接着说,“你手里的是一条自动化的数据清洗流水线,别人要花几千万请人标注的事,你用算法跑一遍就完了。”

  他又想了想,语速突然变快。

  “而且,BugKiller检出来的那些Bug代码和修复后的版本,这不就是现成的DPO训练对吗?有Bug的是坏例子,修复后的是好例子,天然的偏好数据。”

  韩路一点了点头。

  “SFT用干净的提示词、代码对,DPO用Bug、修复对,两条管线同时跑。”赵文渊的手在桌上敲了两下,越说越兴奋,“数据飞轮,这个别人偷不走。就算把数据偷走,没有这个检测引擎,也做不出同等质量的清洗。”

  韩路一没说话,文渊,入吾彀中矣。

  赵文渊拿过那张写满数字的纸巾,翻到背面,接着写。

  “后训练不需要预训练那种千卡集群,但也不便宜。H100单卡现在市场价二十到二十五万,8卡一台服务器,一台一百六到两百万。”

  他给纸巾拍了照,放进手机备忘录里,然后在备忘录里敲了一串数字。

  “中等规模模型,几十亿参数,后训练至少需要十六到三十二张卡。”

  “先租。”韩路一接过话头。

  赵文渊抬头。

  “第一版跑通之前不锁定硬件。”韩路一说,“万一方向要调,买的卡可退不了。”

  赵文渊笑了,以前在谷歌的时候,训练模型还真没这么抠搜过。

  “你挺清醒的。”

  “穷过,谢谢。”

  赵文渊在备忘录里快速敲着数字:“算力租赁首批八百万,数据清洗和补充标注三百到五百——这个可能可以省下来,团队薪资六个月四百万上下,工具链杂项三百万,再预留一千万。”

  他把手机推过来让韩路一看。

  “够用了,先跑起来。”

  两人越聊越快,瑞幸下午三点多的店里不算吵,但他俩的声音在不自觉地变大。

  旁边桌一个戴耳机的女生摘下一只耳机看了他们一眼,两个装逼犯加一个肌肉男,这组合可太奇怪了。

首节 上一节 89/298下一节 尾节 目录txt下载

上一篇:这个导演不讲规矩

下一篇:返回列表

推荐阅读