执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
【大数据先锋】
微软与语料库数据添加
IBM Candidate计算机翻译项目
无所不包的谷歌翻译系统
英国石油公司与无线感应器
麻省理工与通货紧缩预测软件
Hadoop与VISA的13分钟
允许不精确
在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。
对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。事实上,对精确度的高要求始于13世纪中期的欧洲。那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史学家阿尔弗雷德·克罗斯比(Alfred Crosby)的话来说就是“测量现实”。
Loading...
未加载完,尝试【刷新】or【退出阅读模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.dd123.cc
(>人<;)