大国科技，我有天道酬勤系统！第105节

　　高年也曾看过许多科普视频，知道这东西的本质就是‘学习资料’的不足。

　　最终导致人工智能遇到不懂的东西时，只能根据过往的‘经验’去胡编乱造出不合理，让人啼笑皆非的回答。

　　至于华夏的生成式人工智能为什么会落后于美丽国的生成式人工智能？

　　高年通过前世的科普视频也是了解到了真实的原因，知道是国内的应用存在严重的数据孤岛现象。

　　这数据孤岛现象有个专业名词叫做‘应用生态闭环’。

　　也就是各个公司的网站、APP、平台的数据会拒绝其他公司搜索捡取数据信息。

　　这些数据信息有多种多样，是培育人工智能的核心关键，也是让人工智能变得更加聪明的关键。

　　比如某个帖子里有人提问‘为什么不能空腹吃水果。’，随后他们的回答自然是多种多样的。

　　在这一问一答当中，构成了一个‘有用的数据’，专业术语也叫‘优质文本资料’。

　　随后当某个生成式人工智能学习完这个数据资料后，接下来如果有人询问生成式人工智能。

　　那生成式人工智能就可以完美回答这个问题，不会出现胡编乱造的现象。

　　但‘应用生态闭环’后，我这家公司的产品拒绝你爬取我产品的信息，你公司也拒绝爬取我产品的信息。

　　最终就是中文互联网被分割成为了一个个数据孤岛，某个公司如果想要训练一个人工智能。

　　那会发现拥有的资料简直少得可怜，你想要获取资料，要么只能花钱去买‘数据’，要么就只能放弃。

　　而放弃的代价就是你的生成式人工智能，会胡编乱造出一些让人啼笑皆非的回答，让用户失望。

第139章生成式人工智能

　　至于前世的互联网公司为了自己的生成式人工智能，是否会购买数据？

　　答案是既有，但也没有。

　　因为那些数据的价格太贵了，而且数据还在实时产生，长期来看没有谁能烧得起这个钱，支付得起这个钱。

　　所以各个互联网公司依然是选择各自干各自的，最终导致了数据孤岛的产生。

　　这数据孤岛就限制了华夏的生成式人工智能发展上限，限制它的聪明程度与知识广度。

　　这也导致华夏的生成式人工智能在回答问题的时候，会说出一些让人忍俊不禁的无常识回答。

　　反之海外则不同，海外的应用生态闭环没有华夏这边这么严重，至少没有限制信息爬取。

　　最终就是海外的‘优质文本资料’数量远远超过华夏，这也让海外科技公司的人工智能简直聪明得可怕。

　　这就像你只是读了一百本书，又怎么能和别人读了一万本书的人相比呢？

　　这知识广度完全比不了啊。

　　想到这里，高年想了一下后说道：

　　“雷布斯。”

　　“嗯？”

　　雷布斯转头看向了高年，不知道高年为什么突然会眉头深深皱起。

　　“人工智能的本质就是算法，但比算法更重要的是数据！”

　　“数据？”

　　听闻高年的话语，现场的人们纷纷露出了诧异的表情。

　　人工智能的本质是算法他们知道，甚至可以说计算机产业就是建立在算法之上的。

　　但比算法更重要的竟然是数据这个理论他们就第一次听说了，也没有想到数据这东西会这么重要。

　　不过现场的人们知道不知道这并不是很重要，只要他们依照高年的命令去执行就行了。

　　于是高年在人们的诧异视线中接着说道：

　　“接下来我们要做好数据的存储工作，我们要利用贵省的优势，在贵省建立数据存储中心。

　　这数据存储中心，主要就是存储一些用户玩游戏与使用极客聊天软件等产品时，用户实时聊天产生的文字数据与语音数据。”

　　闻言，现场不少人全都深深皱起眉头，财务总监何彤更是当场皱眉说道：

　　“老板，存储这些日常聊天的文字数据与语音数据的成本太大了，用户每时每刻都在产生信息。

　　我们的产品范围是面向全球的，全球的网友那么多，每时每刻产生的聊天数据与语音数据是相当惊人的。

　　我们想要存储下来，而且还是长久存储下来，那需要花费的代价太大了。

　　这些数据真的有用吗？”

　　然而面对何彤的质疑，高年不仅没有退缩，反而微微摇头道：

　　“有用，甚至可以说这些数据是最好的财富。”

　　生活的细节体现在方方面面，生成式人工智能是否聪明就体现在这方方面面。

　　顿了一下，高年接着说道：

　　“除了自身互联网产品的文字数据与语音数据要永久存储外。

　　接下来我们还要成立自己的百科全书，建立一个世界资料最多的极客百科。

　　为了加快‘极客百科’的成长速度，我们可以花钱购买维基或者千度百科已经编撰好的资料文章，填充进自己的百科里。

　　此外未来两年内，我们还要拿出至少2亿美元用作刺激，让国内国外的用户，努力编撰出一篇篇合理合格的百科文章。

　　总之无论是大大小小的事情，还是日常生活里鸡皮蒜皮的事情或新闻时事，再或者常识性问题我们都要编撰文章。

　　我们要建立一个最详细的百科全书，详细到几十或几百年前，国内国外工人工资多少，物价多少等都要编撰记录下来。

　　因此，我的目标是两年内让极客百科拥有至少1亿篇百科文章！”

　　“嘶！”

　　听到高年的话语，现场的人们瞬间倒吸一口凉气，没有想到高年竟然搞得这么大。

　　因为真按照极客科技这样搞，未来两年里砸出个几亿美元都丝毫不夸张啊。

　　两年内烧掉几亿美元就为了搞出一个拥有一亿篇文章的百科全书，这代价是否太大了？

　　然而高年的话语并没有停止，只见高年在人们吃惊愕然的时候接着说道：

　　“此外我们还要收购天涯、猫扑等国内国外的知名论坛。

　　然后将他们统统改版，变成一个类似贴吧一样的互联网产品，然后用户在上面的发帖与回复信息等统统要保存起来。

　　至于不能收购的，我们就直接采取搜索引擎爬虫的形式爬取保存好他们的数据资料。

　　此外国内国外的互联网新闻网站、论文网站，包括数字图书馆的数据我们也要收集保存。

　　总之一切互联网的文字信息，我们都要想办法保存起来，形成一个无比庞大的数字资料库。”

　　想了一下，随后高年接着说道：

　　“光是直接爬取资料可能会引起媒体争议，所以我们要建立一个搜索引擎业务，开发极客搜索引擎。

　　如此不仅可以通过搜索引擎的广告盈利来维持自身运营，也可以减轻存储数据的经济压力。

　　这开发搜索引擎方面的事情就交给李俊与倪光海你们两人负责了，该挖人才就挖人才，该买技术专利就买技术专利。”

　　听闻到高年的话语，现场的人们深深皱起眉头。

　　因为他们并没有理解到花费这么大代价，收集存储这些文字与语音数据有什么用。

　　毕竟千度搜索与骨歌搜索都不会这样疯狂的存储数据啊，他们就算存储数据也是有条件的存储。

　　像极客科技公司这样连游戏里的聊天数据都要保存，简直有些太过夸张了。

　　虽然高年之前已经讲解过这些数据是人工智能强大的关键，但这些数据确定有用，确实投入这么大，未来能收得回本吗？

　　“高年，我们花费这么大代价存储这些数据真的有用？真的能回本？”

　　雷布斯也是忍不住皱眉问起了高年。

　　毕竟他也是公司的大股东，对于这种浪费公司大量钱财的行为，必须过问一下。

　　“自然有用，而且用处还相当之大，因为这些可都是无形的财富啊。

　　我们未来推出的人工智能究竟强大不强大，聪明不聪明，那就得靠这些看起来相当垃圾的数据了。”

　　生成式人工智能的最大特点就是需要大量的数据，这数据量越多他就会越聪明。

　　就比如极客聊天软件的聊天数据，虽然其中肯定会存在大量的垃圾数据。

　　但他们的聊天话题，实际就是生活的方方面面或者新闻时事。

　　在这其中，人工智能看得多了，学习得多了，就会越来越了解这个世界。

　　最终生成式人工智能回答问题的时候，不仅回答会更加精准，不会出现胡编乱造的现象，更可以变得更加聪明。

　　这就是为什么一定要保存这些本该删除掉的‘垃圾数据’的原因。

第140章网文产业布局与极客智能手机系统大更新

　　“既然你坚持，那我就没有意见了。”

　　雷布斯说出了自己的决定。

首节上一节 105/231下一节尾节目录 txt下载

上一篇：大哥别撩了，娱乐圈快没女明星了

下一篇：返回列表

大国科技，我有天道酬勤系统！ 第105节

推荐阅读

大国科技，我有天道酬勤系统！第105节