首页 > 都市言情> 首富从AI浪潮开始

首富从AI浪潮开始 第172节

  韩路一在纸上先画了一个大圆,在里面画了一个小圆。

  “最近的数据标注,包括我们第一次训练时的那些,我都统一给它们分成了两类:百分之八十五是必要但不具决定性的条件,剩下百分之十五是那些对模型的能力影响最大的。我们只把那些次重要的标注传给鼎盛,做第一次后训练,最重要的这些,留到最后一轮,在自己的机器上跑。”

  “毕竟,只有物理隔离,才是真的安全。”韩路一说道,“而且,我们也需要给他们看到一些「足够好」的数据,引诱他们来偷。”

  “钓鱼。”赵文渊秒懂。

  赵文渊看着这张图,提出了一个疑问:“等模型训练出来了,可以通过交叉对比检测哪些标注的影响更大;但是现在这个阶段,我们怎么区分呢?还是随便选百分之十五?”

  韩路一想了想说:“我有办法,反正比随便选的好。”

  赵文渊不再追问,点了点头:“这个办法好,反正等到大模型训练出来、发布出去,他们一定会来蒸馏的。蒸馏出来的模型也能复制百分之八十的能力了。你这个办法至少也能让他们降到百分之八十。”

  “嗯,但这不是重点。”韩路一说。“我不只是想防着他们来偷我们的数据。”

  “那还有什么?”赵文渊问道。

  韩路一没有回答这个问题,而是问赵文渊另一个问题:“前两天签的Term Sheet,你仔细看了吗?”

  赵文渊知道接下来的话题,应该跟这个签好的文件有关,他从手机里找出了副本。

  “你说的是哪个条款?”

  “就是关于数据保护的那条,股权条款的附加保护机制。”

  赵文渊翻过去看了看原文的条款:

  ---

  【股权条款-附加保护机制】

  若投资方及其关联方未能证明已对公司提供之数据尽合理保管义务,且发生超出本协议授权范围之使用、转移、备份、采样或衍生使用,视为触发本条款。

  一旦触发,公司有权:

  (一)无偿收回投资方已兑换之全部股份,回购对价为零;

  (二)本协议项下尚未消耗之算力额度自动终止,投资方不得就已投入之算力成本主张补偿;

  (三)保留向投资方及其关联方主张实际损失赔偿之权利。

  本条款不以投资方主观过错为构成要件。

  ---

  看完赵文渊抬头看向韩路一:“你早就预料到他们会偷了?”

  “这条可不是保护条款,这是扳机。”韩路一摇了摇头:“也不是只防着鼎盛一家,只要不是自己的机房,自己的机器,我谁都不信任。只是除了自保,我还有别的目的。”

  赵文渊说:“你希望他们来偷,咱们就可以行使这个附加保护机制,免费用他们的算力,还把股权给收回来了?”

  韩路一缓缓的点了点头。

  赵文渊沉吟道:“这个恐怕不好做到呀。”

  又想了一会儿,赵文渊开口道:“主要是不好举证,数据标注也没有追踪码,你说是他从你这偷的,他还说是他拾的呢,除非——”

  “除非用水印。”韩路一说。

  “嗯,常规的水印就是特殊字符和统计学水印。”赵文渊说完,突然注意到张彪在旁边拿着笔记本正在记录他和韩路一的谈话。

  怎么,张彪对技术话题突然感兴趣了?

  赵文渊讲题的瘾一下就上来了——这种好学的人才不能放过。

  于是他解释道:“数字水印就像是数字资产的追踪码,可以证明一些数字资产的归属。”

  “比如说不可见字符水印,就是在数据里面加入一些人看不见的字符,但是计算机可以读到。这样,如果有人偷走我们的数据,我们用计算机读出来,在特定的位置,含有那些特定的字符,就可以证明,这些数据就是从我们这儿偷走的。”

  赵文渊把刚才韩路一用过的那张纸拉过来,在上面画了个简单的示意图。

  “统计学水印要绕一些。比如说同一个意思有很多个词可以表达,我们提前在数据里把比例定死:'好看'和'漂亮'就按1:2出现。这种统计模式只要整个数据集都符合,那数据就是从我们这儿偷的。”

  “现在不是讲课的时候,回来你和彪哥专门聊。”韩路一说,“文渊,你说的这些加水印的方法都比较常规,破解方法也不是什么秘密,我猜鼎盛既然敢偷,应该会处理好这些。”

  “那怎么办?”

  “我倒是有个想法,逻辑水印。以前应该没人尝试过。”韩路一说道,“他们可以改词,洗数据,但是只要模型一开口,就是铁证。”

  “你是说……”赵文渊思考了一下,觉得自己摸着点头绪,“把标注所体现出的逻辑规则抽象出来,如果对方训练出来的模型,它的逻辑模式和我们的高度相似,就说明对方的标注和我们的标注高度相似。这就像是两个空间——逻辑空间和语义空间——建立了映射一样。”

  韩路一回头看到张彪又陷入了迷茫的神情,给他打了个比方:“这就好像我们有个菜谱,他们偷走之后把菜谱重抄了一遍,甚至里面的一些无关紧要的配料都换了,但是一吃,味道一模一样,我们还是知道他们是抄我们的。”

  张彪脸上露出了然的神色,把笔记记了下来。

  “可是。”赵文渊又想了一下,“你怎么知道他们不会把逻辑也换掉呢?”

  韩路一一笑:“我赌他们不会,他们既然来偷我们的数据,肯定是做的不如我们好。你要去抄学霸的答案,你敢改吗?”

  赵文渊皱了皱眉头:“我可没抄过答案啊。”

  韩路一一愣,连忙说:“我也没抄过。”

  张彪在旁边没说话,倒是也没人问他。

  “总之,这批标注数据我会分好类给你,里面的逻辑水印我来做——”

  “等他们来。”

  正事说完了,韩路一从沙发上站了起来。

  “文渊,你这几天辛苦了,咱们接下来不工作了,一起出去吃个饭,算是源智科技成立以后的第一次聚餐,展望一下2027年。”韩路一提议道。

  听完韩路一的话,赵文渊脸上露出了尴尬的神色来:“韩总,不好意思,我今晚有约啦。”

  这次轮到韩路一睁大眼睛了:“啊?”

  赵文渊解释道:“前两天去酒吧认识的一个妹子,约了一起吃晚饭,然后去新天地倒数跨年。”

  赵文渊,你小子浓眉大眼的,我还以为你晚上不睡觉是在训练模型呢。

  赵文渊好像看出了韩路一内心的吐槽,又解释了一句:“毕竟模型跑一轮时间挺长的,也不用一直在电脑旁边守着啊。”

  怪不得和父母一起住不方便啊……韩路一好像懂了什么。

  既然赵文渊已经有约了,源智科技的第一次聚餐只能延后了。

  韩路一直接回了家,张彪主动提出做两个菜两人一起吃。

  吃完饭,张彪回了隔壁。

  韩路一坐在空荡荡的客厅里,突然有种不知道干什么的感觉,他打开电视,随便换了几个台的跨年晚会,发现都是周深在唱歌,于是随便停在一个台上,看了起来。

  11点55分,电视里主持人开始预热倒数。

  韩路一反而关掉了电视。

  他起身走到落地窗前。

  朝北看,陆家嘴的天际线整片亮着,海城中心整面幕墙变成了一行巨大的“2027“,金茂顶端的激光在天上画圈,东方明珠的彩灯一节一节地变换颜色。

  黄浦江上有游船慢慢驶过,船身的彩灯在水里晃成一片碎金。

  整座城市都在准备同一件事。

  手机震了一下,又震了一下。

  韩路一拿出手机,是两条信息。

  一条来自苏念念:

  “路一,新年快乐【烟花】!希望新的一年我们都能实现我们的愿望!源智和源码都冲冲冲【火箭】!”

  还有一条是顾司玥发来的:

  “韩路一,新年快乐。”

  韩路一的脸上浮现出笑容。

  他先回了苏念念的信息:

  “念念新年快乐,明年一起搞事业!”

  到顾司玥,他犹豫了一下,打了一个:

  “顾司玥,新年快乐。”

  放下手机,看着外面热闹的灯光,韩路一的脑子里像放电影一样闪过一些画面——

  二月,被裁员的那天,蓝色面板第一次出现在他眼前。

  四月,BugKiller上线。

  五月,BugKiller的第一笔订单到账。

  七月,源码科技正式成立。

  十月,在京城,贺云深说“一个亿不够,我给你两个亿”。

  十二月,汤圆的意图理解靠着7B的底座已经是世界第一,大模型的训练正蓄势待发。

  ——还有一些画面没办法用一句话讲完。

  韩路一的胸口涌现出一股别样的激情。

  2026他得到了视界,做了这么多事。

  2027,他来了!

首节 上一节 172/298下一节 尾节 目录txt下载

上一篇:这个导演不讲规矩

下一篇:返回列表

推荐阅读