首富从AI浪潮开始 第163节
韩路一看了一眼苏念念。
她的表情没有任何变化。
苏念念看向姚波石:
“他们可以做。”
然后她停顿了一下,才接着说:
“但千帆的商业模式,靠的就是商家持续花钱买流量。帮商家把留存做好、让商家对流量的依赖降下来,这件事和他们的收入方向是冲突的,即使要做,他们内部的力量会冲突。他们做不过我们的。”
姚波石低下头写了几笔,没再追问。
他的任务完成了。
贺云深的视线从姚波石移回到苏念念身上。
这一次,他自己开口了。
“苏总,你刚才说不铺量,一个细分一个细分打。这个打法我能理解,但我想问的是:这个飞轮什么时候能转起来?你给自己多少时间?”
苏念念没有犹豫:“两个季度。第一个季度跑通一到两个行业模板,第二个季度验证模板的自然裂变率。如果到Q2末尾裂变率还没起来,我们就要重新审视这条路径的效率,及时调整。”
贺云深的眉毛微微动了一下。
韩路一注意到了这个细微的反应。
苏念念最后那半句话很关键,她没有只给承诺,她同时给了止损线。
这是贺云深最看重的东西:战略上乐观,战术上谨慎,未进先思退,未胜先虑败。
“还有一个问题。”贺云深接着说,语气比刚才重了一些,“韩总把精力转到新公司之后,源码的产品方向谁来定?技术团队谁来拍板?遇到战略分歧,谁来做最终决策?”
这才是今天真正的问题。
苏念念看了韩路一一眼,然后转回来。
“产品方向我来定。技术团队的负责人,向我汇报,我会听取他的建议。战略分歧——”她停了一下,“如果是日常经营层面的,我来拍板。如果涉及公司方向性调整,我会和韩总商量,必要时上董事会。”
她说得很平静,没有试图证明什么,只是列出了边界。
贺云深看着苏念念,没有动作,然后点了点头。
韩路一打开视界。
【贺云深|55岁|弘远资本创始合伙人·投委会主席】
【情绪:平静】
【隐藏情绪:欣赏】
后面的议程走得很快。
会议进行到尾声时,贺云深终于做了总结,声音低沉却带着肯定:“韩总,苏总,2027年的增长路径,我看到了诚意。源码科技现在的运营状态,也比我想象的要稳定。”
散场的时候,大家陆续往外走。
贺云深和韩路一走在并排,说了一句话:“小韩,你选合伙人的眼光不错。”
韩路一笑了笑:“还是贺总的眼光更绝。”
一直送到上车,张彪会送两人去机场,贺云深坚持拒绝之下,韩路一这次没有跟去。
目送车拐上主路,韩路一站在原地没动。
苏念念走到他旁边。
两个人都没说话,一起目送车辆消失在视野里。
韩路一转过头:
“苏总,辛苦了。”
苏念念没有笑,她长长的出了一口气,说:“这就是你上次的感觉吗?感觉自己成长了。”
说完她笑了笑:“走吧,我回去还有个产品会。”
韩路一睁大了眼睛:“念念,没必要这么压榨自己吧,开完股东大会还给自己排别的会?”
……
上了车,姚波石本来要问问今天开会的结果,然后意识到张师傅在车上,又停住了。
他从副驾驶回头看向后面,注意到贺云深正在手机上打字。
过了一会,一条信息从姚波石的手机上弹了出来。
是贺云深向投资决策委员会发出的会议邀请。
第一百五十九章 这样下去你就废了!
虽然韩路一刚说了苏念念,可是其实他也给自己安排了视频会议。
和赵文渊。
赵文渊自从请假之后就没来办公室上班了,最近一直在家搭数据管线,在鼎盛那边的程序走完之前做准备工作。
两人先把训练的策略过了一遍,会议结尾,韩路一问了一下时间线。
“文渊,鼎盛那边账户大概这两天就能配好,你这边什么时候能开跑?”
电话那头,赵文渊停顿了一会,似乎在组织语言,然后才开口道:“韩总,就算算力到位了,开跑之前还有一道坎。”
“什么坎?”
“上周五我和你说的,预训练数据的预清洗。”
韩路一坐在办公桌前想了想,是有这么回事。
“咱们现在手里有什么了?坎在哪?”韩路一问道。
“有CommonCrawl里的数据,还有公共版权的书籍资料,我想在清洗这块优化一下,但是搞了几天还没头绪。”赵文渊解释道。
“嗯……我晚上回去看看。”
挂断视频,韩路一在办公室里思索起来。
韩路一想起来赵文渊的属性面板。
【赵文渊】
【技术S(研究SS)|协作C|稳定A】
【特技:大模型训练|大模型后训练】
后训练是他的强项,预训练这边可能就没有那么熟悉了。
当然了,大模型现在也出来几年了,论文发了那么多,大家没吃过猪肉也见过猪跑了。技能是可以迁移过来的,摸索摸索,预训练也没有那么难。
想要从头做大模型,真正的瓶颈还在数据和算力。
数据也分两块,原始数据和标注数据。
标注数据这块,靠着视界,韩路一已经拿到了世界顶尖的标注。
数量还不太够,但是肝一肝总会有的。
但是原始数据还得想办法。
一般的厂商数据来源主要有几个,除了那些出版物或者特定行业的资料,还要去互联网上收集资料。
互联网的资料也有不同的来源:可以自己在互联网上爬——这就是各显神通了,爬到什么算你的本事;也可以用CommonCrawl。
CommonCrawl是开源的语料库,大模型时代的“数字公共图书馆”。
它是一个非营利组织,目标是“爬取和存档整个互联网”,并将这些数据免费提供给所有人。这个愿景很伟大,也确实帮助到了很多人。
现在市面上的大模型,做通用场景的,有一个算一个,训练语料里一定包含CommonCrawl,无非是有的多些有的少些。
但是CommonCrawl的问题是,它基本没有清洗,里面有互联网上各种各样的原始信息。
就拿中文互联网来说吧,上面最多的内容是什么?知识干货?生活小常识?人生感悟?感人的文学作品?
错了,是垃圾,各种各样的垃圾。
菠菜广告,瑟瑟广告,为了优化搜索结果的重复关键词堆砌。
如果把这些东西当原料直接去制作大模型,你可以期待会看到这样的场景。
你问它:“什么是大模型预训练?”
它回答:“近来大家都对大模型预训练很感兴趣,那么大模型预训练到底是什么呢?小编带大家看一看,看完真的惊呆了!到底该如何评价这件事情?欢迎在评论区留下你的看法!”
所以原料在用之前,先要经过复杂的清洗,这个也不是人工进行的,一般会用传统的基于规则的数据管线筛掉完全无用或有害的信息,然后在剩余的信息中进行去掉语意重复的内容。
对于怎么做,韩路一暂时还没头绪,但是没关系。
晚上问问视哥怎么看。
想到这,他拿出手机看了看时间,已经快六点了。
晚上【404寝室】又约了饭,是张浩然组织的。
本来周末就想约,但是韩路一为了和苏念念准备今天的董事会会议,拖到了今天。
张彪去机场还没回来,韩路一没去坐地铁,奢侈了一把,自己叫了个车。
