制裁5纳米芯片?关3纳米什么事 第227节
“多的我就不说了,您或许现在很少上网,但是随便找一个上网多的人应该都能感受到的。”
“您想啊,这种环境下采集的信息我敢用吗?”
听着安歌的不断讲解,许志国脸色愈发的沉重下来。
是啊!
这么一想,似乎的确是这样。
十年前随便一搜索,就能找到有效答案。
可是现在,想要找到有效想信息,却要花费一番功夫。
而且安歌还没有提到一个更关键的东西,那就是,广告,遍地都是各种各样的广告,直白的广告还好,很容易就能筛选出来,可那些隐藏在软文中的广告呢?有几个人能分辨的出?
人尚且如此,让人工智能怎么分辨?而且是学习阶段的人工智能?
这样的信息,怎么能放心使用呢?
不过这东西怎么能避免?
他一时间也找不到答案。
这些年他们一直都是摸着西方过河,可是这一次,似乎没有可以摸着过河的存在了,西方世界的互联网肯定也是存在这种垃圾信息的,可奈何,人家体量大啊!
人家的互联网巨头动不动就是三四十亿用户。
举个不严谨的例子。
如果全世界所有使用互联网的人创造的数据是等同的。
那么,他们便拥有30亿个单位的数据,而国内,顶多能有10个亿单位的数据的。
优质数据比例一样的情况下,他们已经是国内的三倍。
更何况,安歌刚刚说的那些东西,海外并不是全有,即便谷歌每年可以通过广告创造2000亿美刀的收入,但是其他方面的问题却没有那么大,他们那边创造的优质数据比例可能也比国内的要多。
五倍十倍,这都是有可能的。
想到这儿的时候,许志国又意识到了一点,那就是通假字、同音字、错别字、同义字,还有一些复杂的语句,例如‘让审核审核审核审核的审核结果’,这种情况下,如何让人工智能理解呢?
这样的话,是不是优质数据的数据量还要下调?
真就是越想许志国就越头疼。
突然间,他也觉得问题好大。
然而。
他却依旧还是忽略了更重要的一点。
那就是,海外的互联网比国内的互联网要早发育几十年,这几十年存下来的优质数据更加恐怖。
要知道,互联网时代初期,上网是有门槛的。
当时的互联网可比后来和谐多了。
那个时间段创造的信息可都是优质的信息。
还没等许志国彻底反应过来,安歌突然话锋一转道:“更何况,我真的能采集到这些信息吗?”
“什么意思?”
“其实网站少了一大半,还有一个核心的原因,那就是,移动互联网时代的到来,渐渐的,人们发现用手机上网的人比用电脑上网的人多,于是更多的人选择开发APP而不开发网站,这样的事情非常常见。”
安歌道:“这些APP,爬虫自然不可能爬的到信息,于是乎,越来越多的信息只存在与信息孤岛上。”
“我根本就采集不到,垃圾不垃圾又有什么意义?即便是我开发出一款能够筛选垃圾信息的模型来辅助人工智能学习,面对这种情况又能如何呢?又有什么办法呢?”
“咱们国内很多互联网公司融资需要用这些数据讲故事,让他们开放出来,几乎是不可能的事情。”
“现在您能理解,为什么我说数据是制约我们公司人工智能发展最大问题了吧?”
“办公软件之所以能智能到那个地步,主要其实是因为,根本不需要太多的数据,统共就那么一些规则,然后让人工智能理解相关的命令就行,其他方面却不行。”
“如果不能解决这个问题的话,进度只会越来越慢。”
许志国沉默许久之后,方才开口,道:“一般情况下,你觉得,人工智能训练需要哪些方面的数据?”
..... .... ...
“无非就是网上的各种报道啊,博客啊,文章啊,百科啊,问答啊.....然后就是各种书籍出版物、期刊、论文之类的文本数据,当然,如果再有社交媒体平台、论坛、聊天记录之类的互动性的数据就更好了。”
安歌道:“不过这些东西大几率是需要人工进行筛选标记才行,太多太多无用的信息.....”
“反正以后慢慢开发吧,我这边已经打算建立一个开源中心用来收集各种计算机行业相关代码类的信息了。”
“另外就是,回头我打算成立几个非盈利组织,专门用来运营收集相关的数据集,所有人工智能领域的人都可以随便用。”
“比如说免费的百科、文库、问答、垂直领域博客来提供文本数据集,各种类型的免费图片、免费视频、免费音乐来提供图片数据集和视频数据集,还有股票价格、气象数据、交通流量之类组成的时序数据集,遥感数据、天文数据等等组成的科学数据集....哦,还有免费的论文集。”
“反正无版权问题的优质数据,全部都给聚拢在这些非盈利的公益组织旗下,供人们自己选择。”
“可能每年都需要花费个几十亿上百亿甚至更多,但是没办法,总是要去做的。”
开源,并不意味着要放弃盈利。
在安歌看来,来源是互利互惠的好方法。
他提供开源数据,别人在他这边可以拿到数据,同时也会将自己创造的优质数据反哺回来,供他们来使用。
更何况,到了这一步,代码重要吗?数据重要吗?重要,但是又没有那么重要。
代码即便是有些人拿走了,也不可能达到他们的水平。
更何况,也不是所有代码都会开源。
只是开源一部分。
优势永远在他们手中。
还有就是,有人靠着这些开源信息去搞人工智能的,还需要从他们这边采购白泽。
怎么他们鼎芯科技都是赚的。
只是赚一次还是赚两次甚至更多次的区别。
至于数据,公开的优质数据再多也需要数据处理和清洗后才能使用。
没有人比他们更有优势。
靠着这些公开的优质数据,完全可以经营起来一大堆的优质社区。
到时候便会有无穷无尽的优质数据被送过来。
绝对血赚。
当然,做这样的社区,即便是现在的安歌,还是差点意思,特别是在学术论文还有一些重要资料方面,没有信息部门的支持,很难完成。
这,也就是安歌引导到这个话题的主要原因二.
第145章 事情明朗了起来(求订阅)
开源!?
非盈利组织?
百科?文库?问答?垂直领域博客?
无版权问题的图片、视频、音乐!?
股票交个?气象数据?交通流量?天文数据?遥感数据?
还有论文.....
听着安歌的话,许志国和许韵父女二人脑子飞快运转,开始思索起这件事情来。
正如安歌所言,现在国内互联网可谓是乱象丛生。
想要找到优质数据,非常困难。
既然如此,那么,就主动将优质数据给聚集在一起,似乎就是最佳的操作手段。
如果能够创建一系列共享社区,并且将其完美管理起来,那么,优质数据将会源源不断的产生。
毫无疑问,安歌的想法是没有问题的。
但是,鼎芯科技真的能在短时间内组建出这么多社区吗?
在计算机领域或许可以。
毕竟,鼎芯科技现在拥有绝对的威望,在很多领域都有着非常强悍的能力,完全可以以自身为饵,吸引大量专业人才过来这边开源。
更何况,几乎所有大型互联网公司都要依仗他们公司开发出来的各种芯片设备,这种情况下,自然就有很多人会给个面子,开源部分自己公司掌握的代码、模型、文本等信息。
但是其他领域,鼎芯科技不过只是一个外行。
即便组建的是非盈利组织,恐怕也很难吸引到专业人士过来投稿。
除此之外,管理也是一个老大难的问题。
“五四七” 一个不小心,说不定又会落入与其他公司一样的境地。
最直白的例子就是千度。
他们公司的百科、文库、贴吧当年也都可以算是比较好的优质信息来源地,可是现在呢?
里面掺杂着多少虚假信息先不说,就说那闭环生态,那付费制度会员制度广告制度,简直就和吃屎了一样。
上一篇:重生:从港岛开始当世界首富
下一篇:返回列表