‎‎第三‎‌章 ‌Web ‎3‍.‎0‍ ‎谷歌‌式‍‎‌科‌学‌‍_‌‎技‎‍术‌‍元‌‍素‌ ‎- ‍点‎点‍‍小说‌

〔加入书签〕

一个巨大的以PB级计数的信息数据库曙光般的出现，足以改变我们学习的方式。科研工作的传统方式需要构造一个符合已有数据的假说，或者依靠这个假说来寻找新数据。现在这个数据库里有大量观测数据，为了让我们能够展开下阶段的观测，什么理论能充分地解释它们呢？

可被证实的是，数量惊人的数据足以跳过理论部分进行预测观察。谷歌是首先注意到这一现象的。以谷歌的拼写检查为例，当你用谷歌搜索的过程中出现拼写错误时，它会给出拼写正确的搜索建议。谷歌是如何知道你要写什么词并预测其正确拼写方式的呢？这并不是因为它有正确拼写的理论或掌握了拼写规则，事实上，谷歌对拼写规则一无所知。

相反，谷歌运行的是一个非常庞大的数据库，该数据库显示的是任何单词的给定拼写观测数据，这些数据记载了诸如多少人在想说“yes”的时候意图拼写字母“y”之类的数据。谷歌的拼写引擎完全由这些数据点而非英文的正确拼写概念构成，这也是同一系统可以纠正任何语种拼写错误的原因。

事实上，这个通过研究海量数据的理念被谷歌运用在了其翻译项目中。通过匹配大量人工翻译材料，谷歌翻译可以进行英译法、德译汉。例如，在训练其法英翻译引擎时，谷歌录入了大量英法双语版的加拿大文件。谷歌翻译引擎没有语言理论知识，尤其是法语，也没有人工智能翻译，相反，它们有的是不计其数的数据点，这些数据点聚集了各语言之间由此及彼的数据链接。

一旦你调整好这个翻译系统，它就可以将一种语言翻译为另一种语言，而且翻译效果还不错——虽然还没到翻译家的水平，但起码也能翻出要点。当你访问一个中文网站的时候，你能知道在英文中它大概是什么意思。谷歌研发负责人彼得·诺维格（Peter Norvig）曾经对我吹嘘道：“我们中文翻译引擎的相关工作人员中，没有一个会说中文。”整个翻译工作与中文理论和对中文的理解毫无关联，重要的只有数据。（如果有人在找希尔勒的“中文房间”（Chinese room）的反证，这里就有一个。）

未加载完，尝试【刷新】or【退出阅读模式】or【关闭广告屏蔽】。

尝试更换【Firefox浏览器】or【Edge浏览器】打开多多收藏！

移动流量偶尔打不开，可以切换电信、联通、Wifi。

收藏网址：www.dd123.cc

(＞人＜；)

〔加入书签〕

第三章 Web 3.0 谷歌式科学

第三章 Web 3.0 谷歌式科学

热门小说推荐

最近更新小说