一个巨大的以PB级计数的信息数据库曙光般的出现,足以改变我们学习的方式。科研工作的传统方式需要构造一个符合已有数据的假说,或者依靠这个假说来寻找新数据。现在这个数据库里有大量观测数据,为了让我们能够展开下阶段的观测,什么理论能充分地解释它们呢?
可被证实的是,数量惊人的数据足以跳过理论部分进行预测观察。谷歌是首先注意到这一现象的。以谷歌的拼写检查为例,当你用谷歌搜索的过程中出现拼写错误时,它会给出拼写正确的搜索建议。谷歌是如何知道你要写什么词并预测其正确拼写方式的呢?这并不是因为它有正确拼写的理论或掌握了拼写规则,事实上,谷歌对拼写规则一无所知。
相反,谷歌运行的是一个非常庞大的数据库,该数据库显示的是任何单词的给定拼写观测数据,这些数据记载了诸如多少人在想说“yes”的时候意图拼写字母“y”之类的数据。谷歌的拼写引擎完全由这些数据点而非英文的正确拼写概念构成,这也是同一系统可以纠正任何语种拼写错误的原因。
事实上,这个通过研究海量数据的理念被谷歌运用在了其翻译项目中。通过匹配大量人工翻译材料,谷歌翻译可以进行英译法、德译汉。例如,在训练其法英翻译引擎时,谷歌录入了大量英法双语版的加拿大文件。谷歌翻译引擎没有语言理论知识,尤其是法语,也没有人工智能翻译,相反,它们有的是不计其数的数据点,这些数据点聚集了各语言之间由此及彼的数据链接。
一旦你调整好这个翻译系统,它就可以将一种语言翻译为另一种语言,而且翻译效果还不错——虽然还没到翻译家的水平,但起码也能翻出要点。当你访问一个中文网站的时候,你能知道在英文中它大概是什么意思。谷歌研发负责人彼得·诺维格(Peter Norvig)曾经对我吹嘘道:“我们中文翻译引擎的相关工作人员中,没有一个会说中文。”整个翻译工作与中文理论和对中文的理解毫无关联,重要的只有数据。(如果有人在找希尔勒的“中文房间”(Chinese room)的反证,这里就有一个。)
Loading...
未加载完,尝试【刷新】or【退出阅读模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.dd123.cc
(>人<;)