登陆注册
19122000000003

第3章 搜索引擎概论(2)

Wisenut由韩裔Yeogirl Yun创立,2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。Wisenut也有两个新颖的功能:包含类似自动分类和相关检索词的智能向导;预览搜索结果的一瞥(Sneak-a-Peek)。

Gigablast由前Infoseek工程师Matt Wells创立,2002年3月展示Pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库偏小,但也提供网页快照,一个特色功能是即时索引网页,网页一提交它就能搜索。

Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,但2000年后市场逐渐被百度和Google瓜分。2002年6月,Openfind重新发布基于GAIS30项目的Openfind搜索引擎Beta版,推出多元排序,宣布累计抓取了35亿网页,开始进入英文搜索领域,此后技术升级明显加快。

北大天网是中国国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万个,利用教育网优势,具有强大的FTP搜索功能。

2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其他门户网站提供搜索引擎),2001年10月22日正式发布百度搜索引擎。百度虽然只提供中文搜索,但它是最大的中文数据库。百度搜索引擎的其他特色包括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。在2002年3月闪电计划(Blitzen Project)开始后,其技术升级明显加快。

1.2.2搜索引擎的分类

1.按工作方式分类

搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

(1)全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast、AltaVista、Inktomi、Teoma、WiseNut等,国内着名的有百度。它们都是从互联网上提取的各个网站的信息(以网页文字为主)存入数据库中,然后检索与用户查询条件匹配的相关记录,按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

(2)目录索引

目录索引虽然有搜索功能,但在严格来讲算不上是真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的雅虎。其他着名的目录索引还有Look Smart、About等。

(3)元搜索引擎

元搜索引擎在接受用户查询请求时,同时在其多个引擎上进行搜索,并将结果返回给用户。着名的元搜索引擎有Info Space、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

2.非主流形式的搜索引擎

除上述三大类引擎外,还有以下几种非主流形式。

(1)集合式搜索引擎

如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于,不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此称它“集合式”搜索引擎更确切些。

(2)门户搜索引擎

如AOL Search、MSN Search等。虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

(3)免费链接列表(Free ForAll Links,FFA)

这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起雅虎等目录索引来要小得多。

6做自己的搜索引擎——搜索引擎精解案例教程3.按发展状况分类

搜索引擎按其发展状况来分类主要可分为三种。

(1)第一代搜索引擎

依靠人工分拣的分类目录搜索,以雅虎为标志。

(2)第二代搜索引擎

依靠及其抓取,并建立在超级链接分析技术基础之上的网页搜索,以Google为代表,信息量大、更新及时,返回信息多。

(3)第三代搜索引擎

把“智能化”、“人机交互”等功能融入了主流。将自动分类技术、多语言内容分析技术及区域识别技术应用到了大型搜索引擎中,除了在信息检索速度、更新频率等基本技术指标方面处于领先地位之外,它的网页相关检索、拼音纠错、模糊查询、语音查询等技术也具有很高的水准。此外,还兼备了新闻、MP3、图片、Flash搜索功能。

1.2.3搜索引擎的基本工作原理

了解搜索引擎的工作原理对我们日常的搜索应用和网站推广都会有很大帮助,本节只从概念上去说明搜索引擎的基本原理,具体的实现方法和相关技术标准将在第2章讲解。

(1)全文搜索引擎的基本工作原理

前面提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)专门向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。

由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不能保证用户的网站进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到网站并自动将网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

(2)目录索引的基本工作原理

与全文搜索引擎相比,目录索引的基本工作原理有许多不同之处。

首先,全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳网站。

其次,全文搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。

而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像雅虎这样的超级索引,登录更是困难。

此外,在登录全文搜索引擎时,用户一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。

最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,用户拥有更多的自主权;而目录索引则要求必须手工填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为提交的网站的目录、网站信息不合适,他可以随时自行对其进行调整。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如果以关键词搜索,返回的结果跟搜索引擎一样,是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,全文搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像雅虎这些老牌目录索引则也开始全文搜索引擎技术的研发和推广。

1.3搜索引擎业的竞争

搜索引擎,是一门技术。搜索引擎服务,则不单是一个技术层面的事情。互联网经济是自由经济,它的形式是有史以来最为开放的,它为很多人提供了饭碗。

最早涉足互联网行业的几大公司有的已经成为过去了,有的壮大了,地位巩固了。新生的力量也不断加入,使这个行业越来越繁荣,竞争也越来越加剧。

这里简单地介绍中外的主要互联网服务商在搜索领域的竞争情况,如果有意投入到夺取互联网的“第四桶金”的商战中,下面这些文字会比较有用。

1.3.1最初的商业搜索——目录式搜索

目录式搜索是第一代搜索引擎,实事求是地讲它的技术含量很低,目录式搜索的本质就是人工分类,与老式图书馆里的工作是一样的。但由于它有用户、有需求、有市场,所以就有人做。目录式搜索的盛行在1995年。

最着名的目录式搜索是雅虎。

雅虎网站的创始人是大卫·费罗(David Filo)和杨致远(Jerry Yang),他们是美国斯坦福大学电机工程系的博士生。他们最早于1994年4月建立了自己的网络指南信息库。同年,为了解决他们自己编写的列表太长不便处理的问题,他们将“信息库”变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。用户可以轻松检索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面的信息。随后,他们又开发了可定制的软件,帮助互联网用户更有效地查找、识别和编辑互联网上存储的资料。这种搜索方式不能提供给用户任何搜索结果,而且相关的链接还要人工方式加入目录。但是在当时只有几千个有效网站的状况下,这种方式还是非常实用和方便的。

后来阿里巴巴收购了雅虎中国,专心去做搜索,提出了“雅虎就是搜索,搜索就是雅虎”的口号,还搞了个“YST”。

中文目录方式的搜索最早可以追溯到1996年8月正式注册的爱特信电子技术公司(北京)有限公司,它是搜狐公司的前身。1998年2月推出中国人自己的搜索引擎——搜狐,当初张朝阳提出的口号就是要做中国的雅虎。凭借着在分类搜索方面的基础和优势,搜狐迅速发展成为综合性网络门户,并且推出了丰富的特色频道,开始提供多种网络服务。而后进一步得到包括美国英特尔公司、道·琼斯公司、晨兴公司、IDG公司、盈科动力、联想等世界着名公司的风险投资。2000年7月12日,搜狐公司在美国纳斯达克股票市场挂牌上市,从一个国内知名企业发展成为一个国际品牌。

与搜狐时间接近,网易也是最早开展中文搜索的主要网站之一。网易于1997年6月创立,从成立开始,它推出中文搜索引擎服务。但网易并不是以这类服务为主,邮件和社区互动是它当时在互联网上的优势。正因为这些特点,2000月6月,网易在美国纳斯达克股票市场挂牌交易。直到2001年9月20日,网易才宣布完成对其搜索引擎的全面升级,但是这种搜索是与世界领先的搜索引擎技术商Google合作的,采用的是Google的技术。

同类推荐
  • 教育心理学

    教育心理学

    本书介绍了差异心理、学习心理、学习的迁移、学习动机、问题解决与创造性、教学心理、课堂管理等内容。
  • 军事兴趣演厅

    军事兴趣演厅

    本书主要讲述有关青少年军事兴趣爱好的知识内容,包括武器百科、军事故事、军事之最等内容,可以开拓青少年读者的眼界。
  • 青少年挖掘大脑智商潜能训练集—轻松玩数独游戏

    青少年挖掘大脑智商潜能训练集—轻松玩数独游戏

    潜能是人类原本存在但尚未被开发与利用的能力,是潜在的能量。根据能量守恒定律,能量既不会消灭,也不会创生,它只会从一种形式转化为其他形式,或者从一个物体转移到另一个物体,而转化和转移过程中,能的总量保持不变。
  • 大学生就业指导案例教程

    大学生就业指导案例教程

    近几年高等教育招生规模急剧扩大,大学毕业生与社会需求之间的“供求天平”发生了倾斜。大学生就业问题已成为一个全社会广泛关注的热门话题。在激烈的人才市场竞争中,如何从众多的竞争者中脱颖而出,成为每个大学生都必须面对的现实问题。大学生择业观念和行为的变化,源于社会对大学生需求变化和用人单位择才标准的变化。多年的就业指导实践告诉我们,大学生择业不是一个短期行为,就业指导也不能是大学生毕业前的季节性快餐。虽然择业发生在大学生毕业前后一段时间,但是大学生对就业前景的了解,对用人单位择才标准的认识,择业观念的转变,应该从进入大学校园时就开始积累。
  • 一个称作学校的地方

    一个称作学校的地方

    《一个称作学校的地方》是古德莱得完成美国“学校教育研究”的调研报告书。书中基于总结调查的教师的数据、学生的数据、家长的数据、教学实践的数据以及决策的数据,详细说明了美国学校的现状和存在的问题,找出了形成学校教育种种弱点的原因,深刻揭示了在人们所向往的教育目标和教育实践之间的差距,提出了全面改革学校的整套方案。
热门推荐
  • 木槿花开:一曲风月花倾城

    木槿花开:一曲风月花倾城

    高雅知性的都市白领女性展子素,是一个充满灵气的服装设计师,最爱木槿花,她的作品里开满了各种颜色和姿态的木槿花,最喜欢木槿花“温柔坚持”的品质,也喜欢木槿花极强的生命力,像她喜欢的木槿花一样,她本人也淡若秋水、雅如百合。只是,在展子素这个看似平凡而又与世无争的外表下,却藏着一个惊世的秘密——她,是一个通灵人!
  • 直播之从抗日开始

    直播之从抗日开始

    人死之后是化作一缕青烟飘散世间,还是作为鬼魂进入轮回?都不是!当身死的杜立再次睁开眼的那一刻,却发现自己已经成为了一名主播!一个游走在各种影视剧中,用自己的生命,去演绎世间最为精彩的直播。而就当杜立准备随波逐流的时候,却忽然发现这世间竟隐藏着如此多的秘密!万界大直播平台存在的意义是什么?主播的使命又是什么?入侵者来自何方?地球的身份中又有什么问题!一个有一个的谜题让杜立晕头转向,却又督促着他一步步前行。好吧,以上看不懂的可以略过,正确的小白简介现在开始——这是一个游走在各个影视剧中,为全球观众做直播的故事。主角经历的都是大家想去的世界,在里面做大家想做的事!
  • 前妻的魔咒

    前妻的魔咒

    他是她姐姐的猎物,喝下姐姐做了手脚的红酒,他却逃了出来,车里狭小的空间挡不住他对她的贪婪,夜影掩映下,她迷醉了,分不清他是他还是心里的男人,就当是救赎吧。清醒后,他吻她骚扰她当她是新婚的妻子,面对他的柔情万种,她拒绝承认,恼羞成怒的他陷入了爱恨的漩涡!--情节虚构,请勿模仿
  • 麻雀愿你爱我

    麻雀愿你爱我

    愿你爱我我只想你爱我,有错吗?我只想你看看我,有错吗?我只想你心里有我,有错吗?[本书首发汤圆创作.][本书书名.][麻雀]愿你爱我[禁抄袭.禁转载.][毕竟这是我的心血.不能拱手相让.][这里蒋长安.][谢谢.]
  • 剑掌乾坤

    剑掌乾坤

    少年自蓬莱而出,欲与五洲之天才试比高。少年自卑微而来,步步惊心一步错则魂散。少年自带剑而战,剑挑无极大能谁与争锋。少年自含笑而立,浩瀚苍宇唯吾剑掌乾坤。
  • 优秀员工不抱怨

    优秀员工不抱怨

    你还在抱怨工资太低?抱怨工作条件太差?抱怨工作太累?抱怨压力太大?抱怨工作枯燥乏味?……别再抱怨了。在你的抱怨声中,那些默默苦干的人已经远远赶超了你。突破职业瓶颈,获得职场重生,与其抱怨工作,不如改变自我。让自己永不“贬值”。
  • 0点追爱:总裁别走开

    0点追爱:总裁别走开

    “七喜,你听话吗?”戚夕不明所以地抬头看着宫均。湿哒哒的短发,上身赤裸露出线条优美的肌肉,当真是秀色可餐,戚夕吞了吞口水。“宫先生的命令就是首要执行命令,宫先生让我往西,我绝不往东,宫先生让我上刀山,我绝不下火海,宫先生让我吃白饭,我绝不啃馒头,宫先生让我上床,我绝不打地铺,宫先生的话就是圣旨,我戚夕绝对执行……”“好啊,那上来吧。”宫均拍了拍自己身侧的位置,向她露出迷惑的笑容。额……总觉得哪里不对……
  • 现代贾宝玉

    现代贾宝玉

    曹雪芹笔下的贾宝玉乐极生悲遁入空门。但他尘心未灭,很想在现代社会重新来过······这是一部广大文学爱好者的青春梦想,当作家挣大钱;这是一部当下流行的种马小说,男主角被一大帮美女包围着。地位、金钱、美女,人世间的欲望丛生,剪不断,理还乱。我们的真爱那里去了?男主角在苦苦寻找,内心久久不能平静。他也在想:是不是每个人都在寻找?金钱是万能的?地位很重要?当它们面对真爱,还会无坚不摧吗?·······
  • 跨越千年来爱你之古穿现

    跨越千年来爱你之古穿现

    初次见面,她浑身是伤的睡在他的膝边,三年深造她成为了他最得力的助手,一次醉酒,他告诉她,你是我顾煜唯一的亲人,于是她渐渐将自己心中默默的喜欢当成了亲情,她与他只是亲人,一次次他故意的接近却惹怒了她“既然你说我们是亲人,那你现在是什么意思?”他,面对她的问题选择了沉默,但,故事却不这么简单,另一个男人为了破坏他在她心中的形象向他下药,却阴错阳差的将她送上了他的床,虽是一夜的鱼水之欢却使她意外的怀上了不应该存在的孩子,于是她加快了自己的计划,留给了他一个孩子,选择替他复仇与他的仇人玉石俱焚……
  • 后来我们说

    后来我们说

    青春是什么,也许青春是我们不禁意间丢失的那块橡皮,也许是被风胡乱吹起的头发。也许是阳光从树缝里撒下,也许是河面颤抖的莲花。青春是美丽的故事,是我们说不完的诗……