登陆注册
19122000000009

第9章 搜索引擎原理和相关技术(3)

爱着 ……………………………………………..

着你 ……………………………………………..

你啊 ……………………………………………..

在这里,分出来的结果比第一种要好很多了,起码有一些有用词语了(如:伟大,祖国)。事实上,许多外国人做的搜索引擎就是这样处理中文的。

(3)分词法的改进——忽略没用的词

现在可以介绍分词法的第一步改进,就是忽略“没用的词”,美国人把它们称为“stopword”。进行了这种改进之后,单字分词法中的“着”、“啊”等语气词和使用频率特别高的词就要删除了。这样就减小了索引量。但是,很显然,这种状况的分词法,是无法让人满意的。读者可以看到,“国啊”,“啊我”这些都不是常规词汇(注意:笔者用的是“常规”两个字,后面会有解释)。

(4)分词法的改进——词库

笔者曾让一个六岁的小孩子做分词,同样分前面这句话,他分出的结果是:

伟大、祖国

笔者也让一个研究生做分词,同样也是分前面这句话。他分出的结果是:

伟大、祖国、深爱、爱着你

如果让读者来分,会分出什么样的结果呢?也许与他们都不同。为什么会这样呢?为什么不同的人往往有不同的分词结果呢?

六岁的小孩子知道的词汇少,研究生知道的词汇多,所以六岁的小孩分出了两个词,研究生分出了四个词。抽象地来讲,这两个人所拥有的词库不同,当这个句子进入人脑之后,人脑对它进行分词处理,读取记忆词库,从而得出结果。

这样,我们得到了分词优化的第二条要义:词库。如果可以在分词的时候,加入一个词库,那么计算机就可以把词语分出来。

比如,现在有一个词库,如下:

美丽、女孩、头发

结合这个词库来分词,要处理的句子是“美丽的女子从天而降,有着乌黑亮丽的长发”,分出来的结果是什么?

答案是:“美丽”。

读者可能在想,为什么没有把“女子”分出来?原因是“女子”在你的大脑词库里,而不是在这个词库中。计算机是没有思维能力的,它只能按照人的指令去做事情。现代人工智能技术在研究让计算机去“主动”学习,这仍然也是基于人工写成的程序,并不是给计算机思想和灵魂。感兴趣的读者,可以看看“模式识别”和“机器学习”方面的书籍,大略了解一下即可,这方面的发展速度还很慢,但有助于自己进一步作研究。

了解了词汇的概念之后,读者一定知道词库有多么重要了。不妨做下面这个练习,看一看你分词的结果是什么?

及至秦王,续六世之余烈,振长策而御宇内,吞二周而亡诸侯,履至尊而制六合这段话,来自《史记·秦始皇本纪》,是古文,如果读者完全不懂古文,肯定搞不清楚这是什么意思,更不要谈分词了。如果读者粗通古文,就能看出一些熟悉的词,但是又搞不清整体的含义。如果读者精通古文,既知道如何分词,也知道这句话的含义,可惜,与别人分出来的结果都不一样。古人说,圣贤皆是寂寞,信夫。

这段话的分词结果是:

秦王、六世、余烈、长策、宇内、二周、诸侯、尊、六合

显然,如果给计算机提供的词库是“美丽女孩头发”,那么计算机看到这句话,就一个词也分不出来。现在有许多垂直搜索引擎(在第1章讲过),它们的词库和普通的搜索引擎词库不同,基于专业知识,开发专业词库,才能使计算机读懂专业的文献。前面这句话结合“古文词库”就可以正确地实现分词。

(5)分词法的改进——语义

仅仅依靠词库去进行分词还是不够的,为什么呢?请看下面的例子。

使用词库“如何计算计算机机器人学习效果”来分解“如何计算机器人的学习效果?”,得到的结果是:

如何、计算、计算机、机器人、学习、效果

专业地评价,这个分词结果已经算是不错了。但是,这里有一个问题,如果让读者来分词,读者会把“计算机”这个词分出来吗?

也许会,但不应该。在这个句子中,其实并没有“计算机”这个词。这里面并没有关于“计04做自己的搜索引擎——搜索引擎精解案例教程算机”这个概念的陈述。“计算”是一个词,“机器人”是另一个词,如果读者把“机器”也分出来了,那就更错了。这句话里只有“机器人”,没有“机器”。

试想一下,我们在搜索引擎中搜索“计算机”,希望得到对计算机的相关介绍。结果,得到的几个结果都是“计算机器人的效率”,“计算机动车的磨损”之类的网页,我们是否会认为这个搜索引擎做得很成功?

“成功”这个词用得有一点大,至少,这个搜索引擎还有明显可改进的地方。

在这个例子中,读者可以发现,影响到分词结果的不是词库问题,而是语义问题。如何让计算机像人一样读懂句子是问题的关键。这个例子的正确结果是:

如何、计算、机器人、学习、效果

关于语义分析和语法分析的理论,目前还很不成熟。因为人类语言本身就是有歧义的,人自己去理解尚且容易出错,让计算机去理解又谈何容易?不过,已经有人做出了常用词库并在词库的基础上做语法和语义分析,并且能够应用于实际,占领了产品市场。当然,这个市场前景还是非常广阔的。“第一个天才如果做不到占领,就只能做后来蠢货的奴仆”。

许多人看到机器人可以和人对话会感到很惊讶,可是稍微动脑思考一下,就可以让正在说话的机器人变得短路、重启动、语无伦次,摸不清你在说什么。人类想要对付机器人,只需记住它没有思想,只是程序即可。

2.3.5中文分词

1.中文分词技术的基本算法

在英文的书写中,单词之间是以空格作为自然分界符的,如“I am a good man”,很容易分词成为“I,good,man”,但中文的“我是好人”,想把它分开就必须有词库了。要分好,还需要有语法和语义分析。不只中文如此,许多亚洲文字都是这样的。因此,中文分词(或者说亚洲文字分词)是一项专门的技术。中文分词技术比英文要复杂得多、困难得多。

中国是世界四大文明古国之一。拥有世界上最古老的文字,拥有世界最多的人、悠久的历史和灿烂的文化。外国人想了解中国文化,中国人要共享知识,在网络平台上,都要用到搜索,因此中文分词的意义巨大。

全文检索技术和搜索引擎都是外国人发明的,但是外国的搜索引擎之所以没有在中国市场上占到最大份额,技术上的一个重要原因就是他们对中国的文化不熟悉。现在各大搜索引擎公司都在抢占中国市场,中文分词是他们面临的重要问题。

前一节谈了分词技术,这里再稍微具体地说一下中文分词技术。大体上是一样的,局部有一些细致描述。

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?分词算法是其关键。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于字符串匹配的分词方法

这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有:正向最大匹配法(由左到右的方向),逆向最大匹配法(由右到左的方向),最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1169,单纯使用逆向最大匹配的错误率为1245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其他的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般性的模型,这里不做详细论述。

同类推荐
  • 物流法教程

    物流法教程

    随着经济全球化的发展,物流业的快速发展越来越受到关注。但是我国物流业发展的瓶颈问题也日益凸显,其中一个非常重要的原因就是缺乏完善的、内在和谐统一的物流法律制度进行规制和引导。本书共分十二章,阐述了物流法律制度的概况、物流企业法律制度、国际货物运输代理企业法律制度、货物采购与销售法律制度,并详细介绍了物流过程中运输、仓储、配送、包装、搬运装卸、流通加工、信息管理等环节的相关法律制度以及货物保险法律制度。
  • 新课程师资培训教程-高二历史优秀课例

    新课程师资培训教程-高二历史优秀课例

    为新课程实施和提高教师专业化水平而精心编写,选取了大量教案,内容上充分体现了知识性和趣味性。接受课改新理念,感受课改新思维,使用课改新教材,至始至终课改给人一种焕然一新的感觉。它是一次革命,一场对话,一座平台,一把迈向成功教育的钥匙。
  • 班级图书角:我的第一本诗词经典

    班级图书角:我的第一本诗词经典

    本书在编辑时为孩子们作了准确的注释,并配有精关的插图帮助孩子们更好地理解诗中的意境。每篇故事都附加了一则“小贴士”,拓展故事内容,延伸故事深度,让读者在阅读故事的时候同样可以学习到相关的诗词知识。诗词似一朵浪花,翻滚在浩渺的历史长河中。就请你打开这本书,让我们一起走进中国古典诗词这座博大精深的知识殿堂,共同品味中国古典诗词的盛宴,一起体会中国古典诗词带给我们的精神享受。
  • 中小学生综合实践活动-日常体育学习指导

    中小学生综合实践活动-日常体育学习指导

    综合实践活动是现代教育中的个性内容、体验内容和反思内容,与传统教育片面追求教育个体的发展、共性和知识有所不同,综合实践活动提供了一个相对独立的学习生态化空间,学生是这个空间的主导者,学生具有整个活动绝对的支配权和主导权,能够以自我和团队为中心,推动活动的进行。在这个过程中,学生更谋求独立完成整个活动,而不是聆听教诲和听取指导。教师在综合实践活动这个生态化空间里,只是一个绝对的引导者、指导者和旁观者。
  • 筑梦蓝天

    筑梦蓝天

    罗阳同志是我国航空科技战线上的优秀代表,为我国航空工业的振兴和科技事业的发展无私奉献了一生。2012年11月25日,罗阳同志在歼15舰载机研制现场因劳累过度突发心肌梗死牺牲在工作岗位上。习近平、李克强、张德江、刘云山等党和国家领导人第一时问要求相关部门宣传、弘扬罗阳同志精神,宣传、弘扬航空报国精神,要求广大党员、干部学习罗阳同志的优秀品质和可贵精神。国务院追授罗阳同志“航空工业英模”称号,巾共中央组织部追授罗阳同志“全国优秀共产党员”称号。之后,中共巾央组织部、中共中央宣传部联合下发了《关于广泛开展向全国优秀共产党员罗阳同志学习活动的通知》,在全国范围内开展向罗阳同志学习的活动。
热门推荐
  • 人在,心在,梦就在

    人在,心在,梦就在

    曾经的你是不是有一个自认为完美的梦想或许他不是那么的真实,不是那么完美可是依旧拼了命的想去完成它去实现。来吧!看一看我们的梦想,我们实现的方式有何相同的地方?来看看吧!
  • 超越领域

    超越领域

    我流浪,我吟唱,我主宰,命运沉浮我手!信仰裁决,谁最强!最终成就领域!!!
  • 天火传

    天火传

    这是一个关于羁绊的故事我有故事,你有酒我们坐下来喝一杯你听我慢慢讲
  • 汤姆·索亚历险记

    汤姆·索亚历险记

    汤姆幼年丧母,由姨妈收养。聪明顽皮的汤姆受不了姨妈和学校老师的管束,常常逃学闯祸。一天深夜,他与好朋友哈克贝利·费恩到墓地玩耍,无意中目睹了一起凶杀案的发生。因为害怕凶手发现他们知道这件事,汤姆、哈克贝利带着另一个小伙伴一起逃到一座荒岛上做起了“海盗”,家里以为他们被淹死了。经过激烈的思想斗争,汤姆站出来指证了凶手。不久后,在一次野餐活动中,他与他心爱的蓓姬·撒切尔在一个岩洞里迷了路,面临着死亡的威胁......最终,他们走出了山洞,并告诉村里人在山洞里见到了杀人犯印江·乔,当村人在洞中找到印江·乔时,他已经死了。最后,汤姆和哈克贝利重返山洞,找到了一笔宝藏,成了这个村的英雄。
  • 理想国度

    理想国度

    一个原本很普通的少年,却因为一些阴差阳错的原因卷入了一个巨大的阴谋之中,来到了一个危机四伏的世界,他如何克服心里的恐惧和内心的疑问,在这个世界找寻到真正的自己……
  • 索菲亚皇家王子部落

    索菲亚皇家王子部落

    有木有搞错!居然被逼婚了?上官蝶羽果断选择逃婚。没想到回国第一天,就撞上了邪恶的黑帮大少,钞票还撒了一地!灰溜溜的逃跑后,又惹着了霸道的恶魔王子。成为穷光蛋后,她又被逼成为女仆。随着来到皇家学院,却又杠上了学校里的四大恶霸!哎呦~桃花不是这样开的,好不好!
  • 中国佛教文学

    中国佛教文学

    本书分为9章,主要内容包括:绪论、佛教的产生与基本要义、萌芽期——汉魏六朝佛教文学、发展兴盛期——唐宋佛教文学、衰变期——元明清佛教文学、余响期——佛教与近现代文学
  • 阴约不断

    阴约不断

    在58看到个租房信息,不光房租低,还可以和房主美女爽歪歪。可住进去以后,我才发现,事情并不是那么美好。长脚的梳子,停产的可乐,一切的惊悚向我扑面而来,当然还有碰不得的,女..房...东!
  • 废材逆袭,绝世妖娆四小姐

    废材逆袭,绝世妖娆四小姐

    前世遭背叛,一朝重生,进入废材小姐的人生,为其报仇。丹药?修炼?有她在,还有何难?不过自己当初为什么会惹到这只妖孽啊!简直是折磨自己啊!“娘子,听说你叫我妖孽?”“啊,有吗?”苏雨晴瞪大眼睛看着眼前的人。“娘子,你觉得我是妖孽,那我不妖孽一下,岂不是对不住这个称呼。”那夜……第二天一早,“嘶,墨轩染你给我等着。”苏雨晴狠狠威胁?“好,娘子你今夜想让我怎么等着,尽管说。”“你,”【本文1v1,绝对宠,放心入坑】
  • 冉冉念君归

    冉冉念君归

    讲述了妖界公主与神界三个皇子的三段恋情.