登陆注册
19122000000009

第9章 搜索引擎原理和相关技术(3)

爱着 ……………………………………………..

着你 ……………………………………………..

你啊 ……………………………………………..

在这里,分出来的结果比第一种要好很多了,起码有一些有用词语了(如:伟大,祖国)。事实上,许多外国人做的搜索引擎就是这样处理中文的。

(3)分词法的改进——忽略没用的词

现在可以介绍分词法的第一步改进,就是忽略“没用的词”,美国人把它们称为“stopword”。进行了这种改进之后,单字分词法中的“着”、“啊”等语气词和使用频率特别高的词就要删除了。这样就减小了索引量。但是,很显然,这种状况的分词法,是无法让人满意的。读者可以看到,“国啊”,“啊我”这些都不是常规词汇(注意:笔者用的是“常规”两个字,后面会有解释)。

(4)分词法的改进——词库

笔者曾让一个六岁的小孩子做分词,同样分前面这句话,他分出的结果是:

伟大、祖国

笔者也让一个研究生做分词,同样也是分前面这句话。他分出的结果是:

伟大、祖国、深爱、爱着你

如果让读者来分,会分出什么样的结果呢?也许与他们都不同。为什么会这样呢?为什么不同的人往往有不同的分词结果呢?

六岁的小孩子知道的词汇少,研究生知道的词汇多,所以六岁的小孩分出了两个词,研究生分出了四个词。抽象地来讲,这两个人所拥有的词库不同,当这个句子进入人脑之后,人脑对它进行分词处理,读取记忆词库,从而得出结果。

这样,我们得到了分词优化的第二条要义:词库。如果可以在分词的时候,加入一个词库,那么计算机就可以把词语分出来。

比如,现在有一个词库,如下:

美丽、女孩、头发

结合这个词库来分词,要处理的句子是“美丽的女子从天而降,有着乌黑亮丽的长发”,分出来的结果是什么?

答案是:“美丽”。

读者可能在想,为什么没有把“女子”分出来?原因是“女子”在你的大脑词库里,而不是在这个词库中。计算机是没有思维能力的,它只能按照人的指令去做事情。现代人工智能技术在研究让计算机去“主动”学习,这仍然也是基于人工写成的程序,并不是给计算机思想和灵魂。感兴趣的读者,可以看看“模式识别”和“机器学习”方面的书籍,大略了解一下即可,这方面的发展速度还很慢,但有助于自己进一步作研究。

了解了词汇的概念之后,读者一定知道词库有多么重要了。不妨做下面这个练习,看一看你分词的结果是什么?

及至秦王,续六世之余烈,振长策而御宇内,吞二周而亡诸侯,履至尊而制六合这段话,来自《史记·秦始皇本纪》,是古文,如果读者完全不懂古文,肯定搞不清楚这是什么意思,更不要谈分词了。如果读者粗通古文,就能看出一些熟悉的词,但是又搞不清整体的含义。如果读者精通古文,既知道如何分词,也知道这句话的含义,可惜,与别人分出来的结果都不一样。古人说,圣贤皆是寂寞,信夫。

这段话的分词结果是:

秦王、六世、余烈、长策、宇内、二周、诸侯、尊、六合

显然,如果给计算机提供的词库是“美丽女孩头发”,那么计算机看到这句话,就一个词也分不出来。现在有许多垂直搜索引擎(在第1章讲过),它们的词库和普通的搜索引擎词库不同,基于专业知识,开发专业词库,才能使计算机读懂专业的文献。前面这句话结合“古文词库”就可以正确地实现分词。

(5)分词法的改进——语义

仅仅依靠词库去进行分词还是不够的,为什么呢?请看下面的例子。

使用词库“如何计算计算机机器人学习效果”来分解“如何计算机器人的学习效果?”,得到的结果是:

如何、计算、计算机、机器人、学习、效果

专业地评价,这个分词结果已经算是不错了。但是,这里有一个问题,如果让读者来分词,读者会把“计算机”这个词分出来吗?

也许会,但不应该。在这个句子中,其实并没有“计算机”这个词。这里面并没有关于“计04做自己的搜索引擎——搜索引擎精解案例教程算机”这个概念的陈述。“计算”是一个词,“机器人”是另一个词,如果读者把“机器”也分出来了,那就更错了。这句话里只有“机器人”,没有“机器”。

试想一下,我们在搜索引擎中搜索“计算机”,希望得到对计算机的相关介绍。结果,得到的几个结果都是“计算机器人的效率”,“计算机动车的磨损”之类的网页,我们是否会认为这个搜索引擎做得很成功?

“成功”这个词用得有一点大,至少,这个搜索引擎还有明显可改进的地方。

在这个例子中,读者可以发现,影响到分词结果的不是词库问题,而是语义问题。如何让计算机像人一样读懂句子是问题的关键。这个例子的正确结果是:

如何、计算、机器人、学习、效果

关于语义分析和语法分析的理论,目前还很不成熟。因为人类语言本身就是有歧义的,人自己去理解尚且容易出错,让计算机去理解又谈何容易?不过,已经有人做出了常用词库并在词库的基础上做语法和语义分析,并且能够应用于实际,占领了产品市场。当然,这个市场前景还是非常广阔的。“第一个天才如果做不到占领,就只能做后来蠢货的奴仆”。

许多人看到机器人可以和人对话会感到很惊讶,可是稍微动脑思考一下,就可以让正在说话的机器人变得短路、重启动、语无伦次,摸不清你在说什么。人类想要对付机器人,只需记住它没有思想,只是程序即可。

2.3.5中文分词

1.中文分词技术的基本算法

在英文的书写中,单词之间是以空格作为自然分界符的,如“I am a good man”,很容易分词成为“I,good,man”,但中文的“我是好人”,想把它分开就必须有词库了。要分好,还需要有语法和语义分析。不只中文如此,许多亚洲文字都是这样的。因此,中文分词(或者说亚洲文字分词)是一项专门的技术。中文分词技术比英文要复杂得多、困难得多。

中国是世界四大文明古国之一。拥有世界上最古老的文字,拥有世界最多的人、悠久的历史和灿烂的文化。外国人想了解中国文化,中国人要共享知识,在网络平台上,都要用到搜索,因此中文分词的意义巨大。

全文检索技术和搜索引擎都是外国人发明的,但是外国的搜索引擎之所以没有在中国市场上占到最大份额,技术上的一个重要原因就是他们对中国的文化不熟悉。现在各大搜索引擎公司都在抢占中国市场,中文分词是他们面临的重要问题。

前一节谈了分词技术,这里再稍微具体地说一下中文分词技术。大体上是一样的,局部有一些细致描述。

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?分词算法是其关键。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于字符串匹配的分词方法

这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有:正向最大匹配法(由左到右的方向),逆向最大匹配法(由右到左的方向),最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1169,单纯使用逆向最大匹配的错误率为1245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其他的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般性的模型,这里不做详细论述。

同类推荐
  • 中学文科课程资源-修身养性

    中学文科课程资源-修身养性

    诗词是阐述心灵的文学艺术,而诗人、词人则需要掌握成熟的艺术技巧,并按照严格韵律要求,用凝练的语言、绵密的章法、充沛的情感以及丰富的意象来高度集中地表现社会生活和人类精神世界。中国诗起源于先秦,鼎盛于唐代。中国词起源于隋唐,流行于宋代。
  • 教师的课程意识与专业成长

    教师的课程意识与专业成长

    本书以新课程背景下中小学教师如何才能有效地“觉醒”课程实施中的课程意识并实现自身的“专业成长”为主线,以教育观念、课程意识、教师角色、教学理念、教学过程、教学评价、课程资源、三维目标、学习方式、教学行为、教师专业化等概念为着力点,以教师的“课堂教学的设计”、“说课”、“教学案例的撰写”、“以校为本的行动研究”等为载体,通过设置“一线心语”、“案例解析”、“专家视点”和“相关链接”等板块比较全面和通俗地阐述了教师观念的更新与角色的转变、新课程的教学过程与教学评价、课程资源的开发与三维目标的整合、学习方式的变革与教学行为的转变、新课程与教师专业成长等关乎教师课程意识与教师专业成长的理论知识。
  • 智能建筑环境设备自动化

    智能建筑环境设备自动化

    全书以建筑设备自动化系统(BAS)对建筑设备的监控原理和初步设计为中心内容,共分为6章,内容包括:智能建筑和建筑设备自动化系统概述、建筑设备及其自动化技术所需的基础知识、暖通空调系统及其监控、给排水系统及其设备自动化、其他建筑设备的自动化、建筑设备自动化的系统集成等内容。
  • 高考作文秘诀一本通

    高考作文秘诀一本通

    本书将首先针对高考作文体材的实用程度进行分析,让备考学生分清重要的文体和主要文体之间的关系以及选择的原则;其次,将议论文这一概念进一步细分,梳理论述文、议论文等混乱又含糊的概念,使之清楚自己为什么要选择此类文体,且应当怎样选择。
  • 语文新课标课外必读第十二辑——野草

    语文新课标课外必读第十二辑——野草

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
热门推荐
  • 邪龙破苍穹

    邪龙破苍穹

    龙与凤的结合,善良与邪恶之中挣扎。被视为异类的他,对这个世界充满绝望。在邪龙的指引下,化身为邪恶的他,会变成一个恶魔吗?邪龙传说,由此开始!
  • 越世万年,只为寻你

    越世万年,只为寻你

    她,华夏帝国第一佣兵组织的继承人,却被从小的青梅竹马所杀。却不料,转世重生,误入异世的她竟是举世皆之的废柴。她轻笑道:“废柴?不能修炼是吧?看我怎么打败你们这些所谓的强者。”他,天赋、样貌样样第一的楚王殿下。曾说自己此生不娶,遇见她后,竟变成黏人的牛皮糖。宠溺的对她说:“你要成强者?太累了,我就是,嫁给我,我给你完成心愿。”【喜欢收藏,不喜绕道】
  • 妃子要从军

    妃子要从军

    她琴棋书画骑马射箭样样精通,曾随爹爹征战沙场骁勇善战,被封为“花木兰”。然事事多变,国家内忧外患,唯有和亲才能解燃眉之急,原本的对手现在成为坐上之客,他不要尊贵的公主,偏偏点名要了她,这不是成心过不去,要报那一箭之仇吗?不过她也不是吃素的,她就不信他还能把她给吃了……
  • 全能武画师

    全能武画师

    天再高,终究有顶地再广,终究有崖我要我的心,比这天还高我要让足迹,比这地还广我要那世人,都随我心意我要让画神,都俯首倾听三千空间,武画世界,生死,荣辱,不过一念之间。且看一个少年武画师如何在这波澜壮阔的世界画出一片新天地!境界设定:(拟真境)(真幻境)(阴实境)(阳生境)(万象境)(乾坤境)
  • 星粉之恋

    星粉之恋

    他,是最火男子组合3Cavaliers的队长,是人人公认的国民男友。而她,只是他的粉丝。在高考结束后,她去其他城市度假,不幸结识了他。在两个月里发生了什么?“喂!安思瑶,做我女朋友吧!”在短短的两个月里随着这句话使她的生活发生了翻天覆地的变化。喂,她只是来度假的啊!…
  • 达尔文的妄想:一个“伟大”的科学笑话(第二版)

    达尔文的妄想:一个“伟大”的科学笑话(第二版)

    《达尔文的妄想》是作者以杂文的方式对达尔文理论的批判。在这33篇杂文中,作者从各种角度告诉人们这个被主流科学界吹捧的所谓“最伟大的科学理论”不但在科学上是荒唐的,而且在逻辑上也是混乱的。它在历史上对人类社会产生了巨大的危害,是一个不可能证明为错误的“伪科学”。
  • 我的学生生涯

    我的学生生涯

    当年一战,伏尸百万,朋友,妻子,父母全都离我而去,世界蹦碎,天道破灭,一个纪元走到了尽头。是尽头?还是开始?我又身在何方?或许这就是命运安排的又是一个开始。那个时代我镇压一世,逆行伐天,而现在我通天的修为没有了,我的逆天法器失落了,但我思故我在,我有一颗倔强的灵魂,依然能活出精彩的一世。
  • 重渊

    重渊

    生为人杰,死为鬼雄。狂歌踏天路,证道红尘中。
  • 三生黑

    三生黑

    我所爱即向往并渴望的东西,仅限于你是你……而你,非鬼非魔非人非世界…最后也非你
  • 异事

    异事

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。