首富从AI浪潮开始第293节

第二百六十二章世界模型才是最好的

　　周一早晨，六点整。

　　水木大学博士生公寓的一个房间里，手机发出了一阵蜂鸣声。

　　声音不大，但是章闻铎已经睁开了眼睛，伸手关掉了闹钟。

　　他没有赖床或者玩手机，利落地翻身下床、洗漱、换上了一身衬衫牛仔裤，然后坐在了电脑前，这个时候是六点二十分。

　　硕博连读五年，章闻铎就是用这样严苛的作息要求自己的。

　　经过一晚上的睡眠，昨晚那点微醺的酒劲，和因为自己的狂妄所产生的不适都消散的差不多了。

　　现在还有更重要的事去做。

　　昨天晚上，汤圆的API静态测试集测试证明了它不是一个用过拟合作弊的骗子。作为一个即将答辩的顶级计算机博士，章闻铎很清楚这意味着什么。

　　在业界所有人都在卷算力、卷参数、卷更大的模型的时候，汤圆给出了另外一种解答——数据质量能把模型能力提高到什么程度。

　　这对前沿研究者的价值不可估量。

　　章闻铎的博士研究方向不是传统的基于语义关系的大语言模型，因为他认同很多业界先驱的想法，认为纯粹的语义推断已经到达了它的上限。

　　想要让人工智能的研究突破到下一个阶段，必须走出一条新路来。

　　这也是为什么昨天晚上他敢于直接当面质疑韩路一的原因。

　　虽然最后证明，是他的判断错了，但这更有价值。

　　既然现在手里有着世界第一的闭源模型的API，可不能浪费了。

　　章闻铎调出了自己博士论文的核心代码，一个用于探测大模型内部是否具备反事实因果推理的“世界模型（World Model）”状态探针。

　　所谓世界模型，是和现在流行的大语言模型（LLM）完全不同的研究方向。如果说大语言模型要做的是，基于前文，后面会出现的“话”；那世界模型是，基于前面的事件信息，现实世界中会发生的下一件“事”。

　　而状态探针，探测的就是一个模型——不管他的内部实现机制是什么——有没有能够用内部状态表达世界的能力。

　　比如说，在网上流传的一个很经典的笑话，如果你问AI大模型：“五米外有个洗车店，我要洗车，我该走着去还是开车去？”大部分的AI都会回答走着去。

　　为什么？

　　因为“五米外”和“走路”在传统的大语言模型中是注意力强关联，洗车店和开车作为弱信号被忽略了。

　　但是你问任何一个智力正常的成年人，都不太可能会在这道题上翻车。

　　这就是语言模型在理解世界上的天然缺陷，而章闻铎的论文讨论的就是大语言模型和世界模型的关系。

　　在学术界，研究世界模型的学者一直分为两派。

　　一派认为现在的大语言模型这种基于语义的推理方向是个岔路，最终会走到死胡同，也就是说，做大语言模型永远也没办法做成世界模型。

　　而另外一派则认为，语言是人类对世界的抽象，当大语言模型的能力进步到一定程度的时候，它也可以具备世界模型的能力。

　　“死路派”和“殊途同归派”，两派在这个问题上争论不休，至今没有哪一派能说服了另一派。

　　章闻铎自己就是“死路派”的，他对汤圆的质疑甚至都不是针对汤圆的，他对所有的大语言模型都有这抵触，觉得这些都是实现AGI道路上的歧途。

　　他的理论提出了很多，但是理论需要验证。

　　对研究者来说，最痛苦的事就是缺乏顶级模型的验证机会。

　　而对中国的研究者来说，则有更大的一层障碍在。

　　现在，境外最强的闭源模型们对中国大陆研究者几乎断绝，偶尔可以通过一些中转站测试一下，但是模型能力不稳定，不确定中间有没有夹杂多余的提示词，还无法进行大规模反复验证。

　　而国内的顶级模型又还没强到能产生有意义的行为分叉。差一点的模型各种推理能力糊成一团，跑探针等于白跑。

　　章闻铎之前的诸多理论假设，就一直停留在纯数学推导阶段，也只能拿着一个半成品去做论文答辩。

　　而现在，汤圆向他敞开了大门。

　　想到这，章闻铎迫不及待地打开了御风。

　　在让探针调用汤圆的API之前，他先让御风帮他把那段已经写了将近两年的核心代码做几处适配改动。

　　原本的探针是按照GPT规格的模型校准的，输出格式不太一样，他把几个参数调了调，让御风给他写一个格式转换层。

　　这种事以前要花大半天，御风给了三个方案，他扫了一眼，选了最干净的那个，大概十分钟就完成了改动。

　　他开始调用汤圆的API进行第一批实验序列。

　　等待。

　　终端开始输出。

　　章闻铎坐在那，上身微微前倾，眼睛紧紧地盯着屏幕。

　　前面几组结果都在意料之中。

　　章闻铎没什么反应，这本来就是基准，连差一点的模型都能过的题，不算什么。

　　从第十一组开始，是探针的核心序列。

　　他设计了一套“状态追踪“题组：同一个场景，以十七种不同的表述方式喂给模型。措辞不同，信息顺序不同，中间插入大量干扰句，为的就是破坏语义的注意力机制。

　　如果模型只是在做语义匹配，换了表面形式之后答案就会飘移。

　　想要保证答案的一致性，需要模型在它内部维护一个“世界状态”，这样无论表面怎么变化，逻辑答案都应该保持一致。

　　当然，现在的大语言模型都不会去“维护”这个状态，但是章闻铎想要探索的方向是：

　　如果模型在训练过程中形成了稳定的因果结构表征，它就可以表现得“像”是有一个内部状态一样，输出得答案就应该保持一致。

　　之前他在国外的顶级模型上进行过小范围验证，答案如他预料的一样，没有模型能够表现出这种能力来。

　　然而汤圆不一样。

　　终端里，汤圆的答案一条条输出，现在已经进行到了第十五组验证。

　　前面几组验证数据的特征值已经远超章闻铎验证过的国外顶尖模型。

　　而第十五组的最后一个变体，在插入了七条干扰句，汤圆依然输出了正确答案，并且在它的思考过程中还提示了更多的信息：“需要注意的是，尽管文中多次提及初始状态，但根据第三段的描述，该状态在后续已发生变化，正确答案应基于最终状态而非初始状态。”

　　探针还在继续运行。

　　但是章闻铎的心思已经不在屏幕上了。

　　基于现在看到的这冰山一角的结果，他已经预感到了。

　　汤圆作为一个纯语义训练的模型，理解世界状态的能力大幅高于他测试过的其他模型。

　　这说明了什么？

　　章闻铎抬头看了看窗外，时间已经从清晨到了上午，而他完全没有察觉。

　　京城的天空今天是一片澄澈的蓝色，没有一丝云。

　　那条他以为走不通的岔路，其实走得通。

　　高质量的原始数据和语义标注对世界模型的方向也是有意义的。

　　章闻铎的心里说不好是开心还是痛苦。

　　他不再关注还在运行的探针脚本，起身去接了一杯水。

　　妈蛋，论文要重新写了——

　　结论还是一百八十度的大掉头！

第二百六十三章开启时代的演讲

　　中午十二点四十五分，紫荆园食堂。

　　作为水木大学人流量最大的食堂之一，此时正人声鼎沸。空气里弥漫着混杂着肉香、酸、甜和辣的香气，周围全是勾肩搭背、一边走一边热烈讨论着高数题或导师八卦的学生。

　　章闻铎端着一盘西红柿炒鸡蛋、鱼香肉丝和一份米饭，随便找了个角落坐下。

　　他一边机械地把饭送进嘴里，一边心不在焉看着手机上的计院大群通知，脑子里想的却全都是论文要怎么改的事情。

　　通知是上午发的，但他当时的心思全放在研究上，中午吃饭的时候才拿出来再看一遍。

　　【@全体成员今天下午两点三十分，东主楼大报告厅，源智科技创始人兼 CEO韩路一先生将带来学术讲座，主题为《人工智能时代，人与智能的新关系》，请各实验室不值班的同学务必提前十分钟入场，座位有限。】

　　一会赶紧去，虽然这么短的通知时间，来的人应该不会太多，但是章闻铎准备去找个靠前的座位，方便提问。

　　这么想着，他快速地扒拉了两口饭，然后直奔东主楼大报告厅。

　　章闻铎到报告厅的时候是一点十分，没想到这里已经有不少人了。

　　水木计算机学院的学生，对讲座这种事本来不算特别热情。无他，来水木讲座的人实在是太多了，而且都是名人。

　　院士讲，教授讲，企业家讲，名人讲，国外来访问的名人也来讲。

　　这可以算是名校的福利，但是你也不可能场场都去，挑着想听的听一听就得了。

　　章闻铎刚找到一个第一排的空位坐下，突然听到有人叫他：“章师兄！”

　　他回头一看，是一个学弟，和他一样，都是邵教授的博士生。

　　“章师兄，你怎么来了？这个源智科技不是搞大语言模型的吗，和你的研究方向不一致吧？”师弟问道。

　　章闻铎被问的一时不知道怎么回答，他还正打算改论文方向呢，想了一会，憋出来一句话：

　　“……也不是那么不一致。”

　　师弟也不在意，在他旁边坐下，开始八卦：“这个创始人还挺年轻的啊，也没比我大多少，我跟你说，一会儿人肯定多，我早点儿过来占座。”

首节上一节 293/298下一节尾节目录 txt下载

上一篇：这个导演不讲规矩

下一篇：返回列表

首富从AI浪潮开始 第293节

推荐阅读

首富从AI浪潮开始第293节