登陆注册
19122000000004

第4章 搜索引擎概论(3)

提到最早的目录式的搜索,自然不能忘记最大的中文门户网站新浪网。1993年12月18日成立的四通利方信息技术有限公司是新浪网的前身,四通利方国际网络部于1996年4月29日正式成立SRS Net.com中文网站。1998年12月1日,四通利方宣布并购了最大的华人网站公司“华渊资讯”,正式成立了全球最大的华人网站“新浪网”。真正的新浪网的搜索应该追溯到1999年初。1999年2月2日,新浪网开始推出新一代中文搜索引擎“新浪搜索”(Sina Search)测试版,并于1999年10月9日推出了高级搜索。新浪网的搜索引擎是面向全球华人的网上资源,它提供网站、网页、新闻、软件、游戏等查询服务。网站收录资源丰富,分类目录规范细致,遵循中文用户习惯,其有16大类目录,一万多个细目和二十余万个网站,是当时互联网上最大规模的中文搜索目录之一。2000年3月29日,新浪网正式申请在美国纳斯达克上市,并于2000年4月13日在纳斯达克开始公开发行股票。

1.3.2改进的搜索

随着网络信息的飞速增长,单纯依靠人工分类整理的目录式搜索已经远远不能满足人们查找信息的需要。当时,单单一家综合网站的数据库里相关的信息,就可能储藏着近一亿的网页,对于如此庞大的网页数量,人工根本无法处理。另外,随着人们对网络信息的利用越来越多,对查找信息工具的要求也越来越高,人们不再满足于在某一个专题网站上被动接受网站提供的信息,需要把整个网络对自己有用的信息做一个有效的搜集与整理,这就导致了第二代搜索引擎的产生。

这类搜索引擎的代表我们都比较熟悉,在国外是Google,而在中文搜索领域是百度。虽然它们属于最成功的搜索引擎,但并不是最早出现的,更早期出现的搜索引擎则是前面提到过的Inktomi、AltaVista和Overture等。

Inktomi在印第安语中是“蜘蛛”的意思。Inktomi成立于1996年,其核心搜索技术基于美国伯克利大学的一项搜索研究方案,这项方案利用的是一种被称为“平行计算法”的搜索技术,采用“蜘蛛”方式采集数据。当时,甚至今天,Inktomi一直是通过一些顶级的门户网站和目标站点向全世界半数以上的互联网用户提供最新、最相关的搜索结果,目前为雅虎的子公司。

Alta Vista被公认为搜索技术的先驱。它基于58项技术专利而建,在避免双重搜索、抵御垃圾等技术上不断革新,发展了聚类方法,改进了搜索结果的相关性。2003年Alta Vista被Overture收购,目前为雅虎的子公司。

Ask Jeeves搜索引擎是1996年6月由David Warthen和Garrett Gruener创建的,他们致力于将互联网人性化,使其更加方便,直观地为人们找到所需的信息、产品和服务,并协助公司企业更好地获得并保持最大化在线交易值。Ask Jeeves的网站与门户网站、信息港、分类网站、目的网站结成技术联合,协助企业公司通过网络搜索增加电子商务及广告收入。

Overture最早是GoTo.com网站,是1997年9月由Bill Gross’Idealab建立的。最值得互联网界重视的是它的收费推广模式,1998年6月,Overture公司开始了付费推广搜索服务,使广告商们通过对指定关键词竞价,得到不同的搜索结果排名。2003年2月,Overture与Alta Vista公司达成最后协议,Overture收购Alta Vista的所有业务。随后,Overture完成对FAST站点的收购,2003年6月Alta Vista成为世界最大的多媒体索引数据库。2003年10月7日,Overture在完成了纳斯达克的最后一笔交易后,被雅虎正式收购,成为雅虎的子公司。

1.3.3新搜索之争

在中国(至少在中国),最出名的两家搜索引擎公司是:Google和百度。从全世界来讲,Google是最出名的。雅虎,正像一只虎,声势浩大地闯入新搜索领域,它正在不断招兵买马、增强实力,不可小视。而搜狐、网易、新浪这些公司也不肯拱手把搜索市场让出去,都积极发展独立的搜索引擎。网易已经秘密研发了“有道”搜索,未来会怎样?从下面的叙述中可以预知一二。

(1)Google的崛起

Google是一家成立非常晚的搜索引擎公司,但它被公认为是做得最成功的。

Google是由美国斯坦福大学的两位博士生Larry Page和SergeyBrin于1998年创立的。

1999年6月才通过自己的公共站点开始向互联网用户提供直接的搜索服务,并且也为信息内容供应商(综合性或专业性网站)提供联合品牌的网络搜索解决方案。

Google现在的索引量已达30亿URL,成为互联网上最大的搜索引擎。通过对30多亿网页进行整理,可为世界各地的用户提供适合的搜索结果,而且搜索时间通常不到半秒。

Google并非只使用关键词或代理的搜索技术,它将自身建立在高级的网页级别技术基础之上。这项技术可以将最重要的搜索结果先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链到网页B时,Google就认为“网页A投了网页B一票”。此外,Google还对投票的网页进行分析,根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。重要的、高质量的网页会获得较高的网页级别。Google在排列其搜索结果时,会考虑每个网页的级别。Google将网页级别与完善的文本匹配技术结合在一起,力图找到最重要、最有用的网页。Google所关注的远不只是关键词在网页上出现的次数,它还对网页的内容进行全面检查,从而确定该网页是否满足查询要求。

在使用界面方面,Google也有自己的优势,用户不必特意访问Google主页也可以获得所有这些信息。使用Google工具栏可以从网上任何一个位置进行Google搜索。如果身边没有计算机,也可以通过WAP和i-mode手机等无线平台使用Google搜索。

Google的实用性及便利性赢得了众多用户的青睐,它几乎完全是在用户的交口称颂下成为全球最知名品牌的。作为一个企业,Google通过提供广告服务来获取收入,使广告客户能够刊登与特定网页内容相关的、重要而有经济实效的在线广告。

Google当然不会拱手让出中国市场,所以在中文化方面做了大量的努力。在策略上通过收购百度的部分股份,开始进军中国搜索市场。随后又专门为使用简体中文的用户推出了五种新的快捷搜索功能,加强对中文搜索的投入力度。2000年9月12日,Google开始启用中文搜寻服务。2004年6月21日,Google推出新的快捷搜索方式,它能方便中文用户访问更多信息。2004年9月9日,Google推出简体中文新闻搜索服务。2005年3月7日,Google推出桌面搜索中文版。2005年5月25日,Google推出桌面搜索1.0中文版,所有这些步骤都充分体现了Google中文本地化的决心和信心。

(2)百度:中文搜索之王

中文搜索之王?也许是暂时的,但至少今天还是(2007-5-11)。

从第二代搜索引擎开始,特别是技术成熟的后期,人们逐渐对搜索引擎的本地化和人性化的应用进行了深入的讲究。搜索引擎是个非常复杂的事情,互联网的用户需求也相当复杂。

随着网络信息对普通人生活的影响,人们越来越需要它,它的搜索速度、搜索内容、文件类型、准确性等都超出了单纯技术的范围,搜索引擎的“本土化”和“生活化”越来越受到关注和重视。

其实,搜索引擎的进化过程,就是一个时时满足海量信息时代人们对有效信息需求的过程。将来搜索引擎的发展方向,一定是向着更人性化的方向发展。在中国,人们利用搜索引擎的水平还不高,他们迫切需要这样的一个工具:简单实用、不需要学习如何使用就可以用得不错。哪个公司能够尽快地开发出这个工具,它就可能迅速走向成功。在这方面百度公司是一个成功的案例。

百度于1999年底在美国硅谷成立,它的创建者是资深信息检索技术专家,超链分析专利的唯一持有人——百度总裁李彦宏及其好友——在硅谷有多年商界成功经验的徐勇博士。

2000年,百度回国发展超链分析技术,这是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用。2003年11月17日,百度推出全新搜索功能,此次升级后的搜索引擎具备开放共享的功能。2003年6月8日在《中国电脑教育报》举办的万人公开评测中,百度战胜Google,成为中文搜索市场上的第一。2005年8月6日百度赴美上市成功。百度以亿计的中文网页、全球独有的“超链分析”技术、亚秒级的迅捷速度和庞大的服务器群接受来自全球各个国家的中文搜索请求。

目前百度是全球最优秀的中文信息检索与传递技术供应商。此外,百度市场推广的成功也值得借鉴,在2002年,中国所有提供搜索引擎的门户网站中,80%以上都由百度提供搜索引擎技术支持,当时的客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网等。

此外,在技术方面,百度也是很有特点的。百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库和检索程序。门户网站只需将用户查询内容和一些相关参数传递到百度搜索引擎服务器上,后台程序就会自动工作并将最终结果返回给网站。

百度搜索引擎使用了高性能的网络蜘蛛程序自动地在互联网中搜索信息。可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了几乎所有的华语地区及北美、欧洲的部分站点,因此,百度搜索引擎拥有目前世界上最大的中文信息库。

此外,百度深刻理解中文用户搜索习惯,开发出关键词自动提示:用户输入拼音,就能获得中文关键词正确提示。百度还开发出中文搜索自动纠错,如果用户误输入错别字,可以自动给出正确关键词提示。百度快照是另一个广受用户欢迎的特色功能,解决了用户上网访问经常遇到死链接的问题:百度搜索引擎已先预览各网站,拍下网页的快照,为用户储存大量应急网页。即使用户不能链接上所需网站,百度为用户暂存的网页也可救急。而且通过百度快照寻找资料往往要比常规方法的速度快得多。

此外,百度还有其他多项体贴普通用户的功能,包括相关搜索、中文人名识别、简繁体中文自动转换、网页预览等。百度已增加了专业的MP3搜索、Flash搜索、新闻搜索、信息快递搜索,并正在快速发展用户喜欢的搜索功能。

(3)雅虎:江东之虎

雅虎在用户和资金方面优势明显,它在收购和OEM合作策略上特别下工夫。它通过收购或间接收购Inktomi、Overture、Alta Vista等大的搜索引擎技术公司,不仅获得了全方面的技术优势,同时也获得了更多的用户群。而且通过OEM合作伙伴的选择,控制上游技术竞争对手的发展。因此,当雅虎推出它的新的搜索技术后,没有人对它未来的光明前途产生怀疑。

据了解,在互联网重新回到“技术为王”的今天,搜索技术将是改变传统互联网浏览和商务习惯最重要的力量。

YST是雅虎在收购Inktomi、Overture、Alta Vista和Fast四家国际知名搜索服务厂商之后,经过数百名工程师一年的开发打磨,于2004年2月正式推出的国际领先的搜索引擎平台。

推出不足两月,YST就已经成为在全球范围内使用量最大的二家搜索引擎之一。

2004年6月21日,雅虎在中国也推出全新的独立搜索门户——“一搜”,它是一个基于雅虎最新技术YST精心打造的搜索门户,它向业界展示了雅虎大举进军搜索领域的行动与决心。雅虎在中国发布独立的搜索门户不仅令整个业界为之侧目,同时也引发整个互联网搜索市场的重新洗牌。在此之前,雅虎以1.2亿美元收购了中文搜索领域的另一个巨头3721网络公司,这是雅虎进军中国搜索市场的最大举措,也表明了雅虎对中国市场的高度重视。

2004年10月21日“一搜”全国首推WAP搜索。而在前一周,雅虎在美国已经推出了比Google更为先进的移动搜索服务,也引起业内的广泛关注。2004年12月13日,“一搜”对MP3搜索引擎进行全球升级,正式推出了可检索全球1500万MP3音乐文档的搜索引擎,用户登录“一搜”网站即可使用。

同类推荐
  • 语文新课标课外必读第四辑——简·爱

    语文新课标课外必读第四辑——简·爱

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
  • 动画风景快速表现技法

    动画风景快速表现技法

    动画风景快速表现技法是动画场景设计的基础,因此也是动画专业学生必须深入学习的重要环节。本书用深入浅出的文字,以图文并茂的形式,主要介绍了动画风景快速表现的造型基础、工具与材料、表现形式和表现方法,书中提供了大量的教学范画和中外名作以便学生阅读和临摹。本书内容系统、翔实,具有一定的专业性和实用性,可作为高等院校动漫设计、艺术设计、美术教育、建筑学等专业的教学用书;同时也可作为高职高专相关专业及广大美术、动漫爱好者的参考读物。
  • 大学生心理健康教育实用教程

    大学生心理健康教育实用教程

    开展大学生心理健康教育是新形势下全面贯彻党的教育方针、是促进大学生健康成长、培养高素质合格人才的重要途径,是加强和改进大学生思想政治教育的重要任务。大学生的心理健康教育已引起党和政府、教育主管部门、社会各界的高度重视,近年来,教育部、卫生部、共青团中央下发了《关于进一步加强和改进大学生心理健康教育的意见》,要求各高校把大学生心理健康教育工作纳入学校重要的议事日程,进一步明确了高校心理健康教育的目标、任务和方向。近期,自治区教育工委、教育厅印发了《关于加强和改进高校大学生心理健康教育的实施意见》,对全区高校大学生心理健康教育课程设置、教学组织、教材使用、教学评价等做了全面的安排和部署。
  • 新课程师资培训教程-高三数学优秀课例

    新课程师资培训教程-高三数学优秀课例

    为新课程实施和提高教师专业化水平而精心编写,选取了大量教案,内容上充分体现了知识性和趣味性。接受课改新理念,感受课改新思维,使用课改新教材,至始至终课改给人一种焕然一新的感觉。它是一次革命,一场对话,一座平台,一把迈向成功教育的钥匙。
  • 科技档案管理学

    科技档案管理学

    本书全面系统地介绍了我国科技档案事业创建与发展的过程,对科技档案的概念、科技档案超前管理、科技档案资源管理、科技档案信息管理以及科技档案工作的组织管理作了深入的阐述。本书可作为高等学校档案学专业教科书或各类档案业务培训教材,也可供广大科技档案工作者、业务指导人员及档案学研究人员阅读、参考。
热门推荐
  • 那一段盛夏的爱恋

    那一段盛夏的爱恋

    他和她在樱花树下相见,承诺要永远在一起,她却忘了他,也忘了两人的约定。
  • 归潜志

    归潜志

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 少年不在

    少年不在

    如果说相遇是一种缘分,就让这种缘分让我们永远不要分开。亲情,友情,爱情,总要该经历的年纪才会明白,她们在年少时相遇,并承诺一起走天涯。他们在青春正好时相遇,说好不离不弃。他和她在无意间相遇,却小心翼翼,不敢触碰。如果说青春是一场盛大的幻灭,他们都不愿逃离。该发生的事总会发生,如果友情和爱情交织了,是撕心裂肺还是痛不欲生。如果她还在这里,他们还会回来吗?这个故事有关青春。
  • 高冷冥夫:和你生个娃

    高冷冥夫:和你生个娃

    我被学姐出卖嫁给了一只高冷鬼,他直奔主题想和我生个娃,咋办?
  • 如意年华似火

    如意年华似火

    他是城市中赫赫有名的心理医生,她是时尚杂志著名编辑,两人相知多年,却在时光的逆旅中苦苦挣扎,试问像仓央嘉措那样的人依然会面临种种不期而遇的选择,而当爱情遇上友情,空间与时间的重重交错,记忆与内心深处的苦苦挣扎,这一切的一切终究会擦出怎样的火花?当时间流逝多年,他是否还会有所坚持?当他她在深夜醒来是否还会忆起昨日......
  • 十诵律

    十诵律

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 乾坤炉

    乾坤炉

    平凡少年唐俊,偶得道家传说中能炼制神丹妙药的至宝“乾坤炉”,从此不但他的命运完全被改变,而且各式各样的美女也向着他扑面而来……
  • 为君痴

    为君痴

    女人学什么男人做生意,该做的是在床上好好伺候男人,多生几个娃儿……傅潋滟真是受够了这蛮子男的粗鄙言论,偏偏她要的东西又一定得靠他,如果他为她取得青金石,染出皇上御用的佛青色,让她为娘出一口气,那么就算赔上自己的清誉她也不在乎,就连女子的清白都可以奉上!
  • 都市白领一朝穿成了傻妃

    都市白领一朝穿成了傻妃

    想我柳曼柔也是堂堂海衣都市的首席设计师,竟被你一个穷不拉叽的小子婚前劈腿。我不会咽下这口气的。可被我当场捉了奸,不争气的眼睛花花的流泪,一想起那男人就起不打一处来,后来竟因种种原因奇迹般的穿越了。她会发生什么呢?敬请期待吧!
  • 世情劫

    世情劫

    四大世家拥有着的四大神兽:麒麟,白虎,朱雀和青龙。周子淑摇身一变成为麟家小姐,麒麟选中了她,但她却将麒麟拱手相让于自己最亲爱的哥哥。当今天子喜欢她,而义图霸占皇位的王爷也喜欢她,最重要的是,怎么连最亲爱的哥哥……