首富从AI浪潮开始 第165节
发完之后他看着那条消息,总觉得说得太少了,但又想不出更合适的话。
苏念念没有秒回。
韩路一把手机放回桌上,继续吃鱼。又过了几分钟,手机亮了一下,他低头看了一眼。
“好的!”
“你也是啊!”
韩路一盯着这六个字看了一会儿,然后锁了屏,没再回复。
吃完饭,张浩然提前去把单买了,临走之前和韩路一说:“老韩,你还是把我的那个内测账号关了吧。我怕我忍不住。”
韩路一想了想,说:“好,我把服务器关了,回去再调整调整,这样确实不能放出去给普通用户用。”
马小飞赶紧说:“诶,你关他一个人的好了,我这边还没用过呢。”
他看到两人神色不善,赶紧又加了一句:“至少明天再关,明天再关吧,让我今天晚上试试先。”
……
回到家,韩路一打开电脑,从赵文渊分享的资料里拉出一部分原始数据,然后用赵文渊放在同一个文件夹里的数据清洗的脚本,跑了起来。
一边跑,韩路一一边打开了视界。
视哥,看看实力。
第一百六十章 你什么都不知道
视界打开的瞬间,屏幕上正在滚动的日志变得不一样了。
每一条经过清洗管线的数据,在韩路一眼中都浮现出一层薄薄的色彩。
干净的、有信息量的数据泛着淡蓝色的光,像水流一样顺畅地通过管线;被规则正确拦截的垃圾数据是灰色的,在某个节点处被清理出去,不再被下面的环节处理;而那些有问题却没被拦住的数据,发着刺眼的橙红色,混在蓝色的水流中间,格外扎眼。
韩路一还注意到另一种颜色,偶尔有几条数据闪着暗蓝,但在灰色数据中格外显眼,它们被规则误判为垃圾扔了出去,但其实是有价值的内容。
就像站在流水线旁边,别人只能看到传送带上的产品在动,而韩路一的眼睛能给每一个产品,甚至每一条传送带本身做质检。
韩路一盯着屏幕看了大概十分钟,先从最明显的橙红色开始分析,逐渐摸清了规律。
主要是三个问题。
最多的是纯垃圾没有清干净。菠菜广告、瑟瑟引流、关键词堆砌,这些最低级的垃圾,现有的规则只做了关键词匹配,但变体太多了。
用谐音字、用emoji替代、把敏感词拆成两段分别塞进前后文里,简单的正则表达式根本防不住。视界里这类数据发着最亮的橙红色,数量不少。
然后是语义重复。两段话用词完全不同,但表达的意思几乎一样,基于关键词和格式的规则识别不了。
最后一个最隐蔽,是低质量内容的伪装。有些内容的格式、长度、关键词分布都符合优质内容的特征,但实际上是洗稿或者机器生成的填充物,里面的内容好多有事实性错误。
这三个加在一起,占了所有数据的将近七成。
韩路一退出视界,开始改脚本。
用传统的垃圾分类规则,想要全涵盖工程量很大,韩路一直接换了个思路。
汤圆的模型不是还在吗,直接把数据发给汤圆做个检测,意图识别。别管你是怎么变体、怎么拆字、怎么用emoji,只要最后是“引导点击”或者“诱导付费”的内容,一律会被标出来。
同样的,用汤圆给数据做精简化处理,再合并就简单多了。
最后一个识别伪装内容稍微难了一点,但是难不倒视界,在视界的提示下,韩路一加了一层基于困惑度的筛选。
真正有信息量的文本,语言模型预测下一个词的不确定性会更高;而那些洗稿和填充内容,因为套路化严重,困惑度反而很低。
改完之后重新跑了一遍。
再用视界看过去。
橙红色几乎消失了,只剩下零星几个边界条件外的数据在蓝色的水流里若隐若现。那些暗蓝色的误杀数据也大幅减少,偶尔闪过一两条,韩路一记下来,又微调了一轮参数。
第三轮跑完,视界里只剩下干净的蓝色。
关掉视界的时候,已经凌晨两点了。
他靠在椅背上,看着最终的清洗报告。
原始数据的有效留存率从赵文渊之前标注的41%降到了29%——但这29%是真干净的。同时误杀率从12%降到了不到3%,被之前的管线错杀的好数据也救回来了一批。
清洗质量提升的同时,处理速度也快了不少,时间大概只有之前的一半。
韩路一给赵文渊发了消息,把改好的脚本和清洗报告一起传了过去。
“文渊,你明天试试这版,我改了三个地方,垃圾分类器、语义去重和困惑度过滤。”
赵文渊秒回:“你还没睡啊?”
紧接着第二条消息来了:“我看看。”
又过了半小时,赵文渊发了一条长信息:
“你是怎么一晚上搞出来这个的?一般的团队光迭代这个清洗管线就得两三个月,你刚才发我的这个比行业基准的有效率和误杀率都要优秀!按这个效率和精度,全量数据清洗大概一周能跑完!一周后就可以开始预训练了!两个月就能看见第一版模型了!”
难得赵文渊发这么多感叹号,有这么高质量的原始数据和标注数据,他实在是太期待看见训练出来的结果了。
不过这时候韩路一已经睡了。
……
时间往回拨十几个小时,在太平洋的另一边。
美国太平洋时间。
12月27号,周日,下午。
洛斯阿尔托斯山(Los Altos Hills),约翰的独立屋坐落在这。
约翰·斯诺(John Snow)是Nexus AI的CTO。
不同于CEO瑞恩,有人工智能领域的博士学位,还一路在AI研究院工作。
约翰只有本科学历,他从斯坦福还没毕业就开始创业,前后一共创立和联合创立过五家企业,其中两家分别被谷歌和Meta收购,收购后没过几个月他就又离职,继续创业。
约翰在硅谷的风投和技术圈都有很多人脉,自己也做投资人。
像他这样已经财富自由的人,其实已经不再为钱工作了,之所以受瑞恩的邀请加入Nexus AI,是因为他看好这个方向,也看好瑞恩本人。
约翰的家,从大门进去是一段爬坡的车道,停着四五辆车,走到主楼后面才能看到院子。后院很开阔,一棵宽得过分的橡树,阴影覆盖了将近一半的草坪。
这里正在举办一场烧烤派对。
派对从两点就开始了,到下午三点多,客人的酒杯已经空了两三轮。
圣诞的装饰灯还绕着廊柱和几棵树。白天光线强,灯亮着,但看不太出来,风一吹,轻轻动了动。
烤架那边,有专职的厨师还在翻烤肋排,油脂滴进炭火,滋的一声。
加州的十二月,十八度上下,天气晴朗,微微有些风,不冷,但也不值得脱掉外套。
约翰每年都会在圣诞节后举办这样的小聚会,会邀请他比较熟的科技圈里的人,被邀请的人也可以带朋友。
这个场合被视为硅谷科技和创投圈的一个小沙龙。
瑞恩到的时候约翰正在烤架旁边和厨师讨论肋排的火候,看到他来了,举起手里的夹子打了个招呼,然后把夹子还给厨师,走了过来。
瑞恩和约翰是谷歌时候就认识的老朋友了。
“你每次都带这个。”约翰看了一眼瑞恩手里的Opus One。
“你每次的酒都不行。”瑞恩笑了笑,把瓶子递给他,“帮我打开吧。”
约翰接过来,从旁边的桌上找了个开瓶器,熟练地拧开,倒进一个玻璃醒酒器里,放在阴凉处。
“行,这瓶确实比我这的好。”约翰说,“但是至少还得等半小时。”
“我知道。”瑞恩从冰桶里先摸了瓶啤酒,“等着呗。”
两人在院子里走了一圈,和几个认识的人打了招呼。
约翰的社交方式和瑞恩不一样。
瑞恩在人群里很自然,八面玲珑,跟谁都能聊三五分钟,然后体面地抽身,让人不觉得被冷落。
约翰是主人,他更随意,有时候跟一个人聊很久,有时候路过直接点个头就走了,全凭心情,也不在乎对方怎么想。
有人问起Nexus最近的动态,瑞恩一律微笑着说“还不错”,不多也不少。约翰在旁边听着,偶尔补一句无关紧要的话,两个人配合得很默契。
后来瑞恩在靠近烤架的位置找了把椅子坐下来,约翰去招呼别的客人了。
不远处,一个戴眼镜的中年男人正在给旁边两个人讲他最近看的一个物流AI的创业项目:
“我让他们给我看个原型演示,你们猜怎么着,那个CEO打开电脑,放出来一张幻灯片,跟我说「这是我们的愿景。」”
旁边的人哄笑起来。
另一侧,一个金发的女士,身材胖胖的,穿一身深色的长裙,正靠着木栏杆,一脸疲惫,跟旁边的朋友抱怨找不到技术合伙人:“简历我收了几十份,聊下来没有合适的。要么经验不够,要么对薪资不满意。现在这些人要求太高了,只出技术,还想要多少啊?”
约翰从人群里穿过来,把手搭在她肩上。
“别在聚会上聊这个。”
“那聊什么?”
“聊吃的。”他朝烤架方向抬了抬下巴。
她有点儿畏缩地抬头看他一眼,举起酒杯喝了一口,换了话题。
