<!--go-->
第403章写个搜索引擎玩玩
这年头搜索引擎对于很多人来说还比较神秘,但在二十年后已经是公开的技术了,整个流程和各种pagerank算法都是在网上就能下载到的,关于搜索引擎核心技术的详解,国内外各种书籍出了一本又一本,胡一亭自己就曾经在百无聊赖时分析过多个算法,还曾经想过拉点投资搞个搜索引擎,从IC设计全栈工程师的繁重研发业务下脱身,自己当个小老板,因此对此毫不陌生,完全可以闭着眼睛抄一个出来,在此基础上由技术人员不断更新加强,要抄的话,无论如何,那些都是领先这个时代十几年的算法,拿出手就能立刻秒杀雅虎,把谷歌掐死在襁褓里。
胡一亭见大家都钦佩地看着自己,还以为他们不信却又不好意思说出口,只得笑道:“这真不是什么难事,搜索引擎说白了就三步,第一步下载,把要分析的网页抓下来。第二部是索引,这里面主要是先要写个全文检索引擎,对第一部里面下载下来的文本内容进行预处理,进行智能的分词,然后进行数据清洗,把非关键词和无效内容刨掉,只保留重要部分,搜索的时候其实就是搜索索引,根据用户查询的关键词,在索引里寻找匹配内容,然后展示出来。雅虎就是手工索引,其实本质上就暴露出他们的算法有大问题,图样图森破,幼稚的很。
第三点是真正有点难度的,就是说在匹配内容过多时,怎么排序,怎么把最符合用户搜索目的的内容排在前面,这就有一个排序的算法问题,这里面牵涉到一个打分制度,排序算法要把把高分项目排在前面,这里面牵涉到网站的重要程度和网页的时效性。
Loading...
未加载完,尝试【刷新】or【关闭小说模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.dd123.cc
(>人<;)