中文分词是百度和谷歌的核心技术之一,因此不会将细节公之于。中华论文联盟只能利用黑盒方法进行推导,也即通过输入检索提问,查看结果情况,并通过两个搜索引擎都具备的网页快照功能查看各自对检索提问的分词情况。
表1 检索提问在百度和谷歌中的分词情况*
第一,推导百度的中文分词技术
第1个例子说明,如果对检索提问用引号做精确检索,百度对其不进行分词运算。例2说明,如果输入用空格进行分割的若干个子字符串,百度对其自动做分词处理(如果用标点符号分割,也会做自动分词处理)。例3、6、7、8、10等都说明百度对检索词会进行多种切分方式,并且首先是不进行切分,直接匹配,如果有结果则返回,并排在检索结果最前面;然后再按照不同形式切分之后再去匹配。
例4对“比尔盖茨”的检索表明,百度有专有名词库,例5对“旭日阳刚”的检索表明,百度对新词收录较快。例9“旭日阳刚才”的分词结果为“旭日阳刚/才”也说明,百度对新词能够识别。
例11“大长今天天向上”,百度能够识别出“大长今/天天向上”,“大长今”为一韩剧名,“天天向上”为一综艺节目,百度均能正确地识别,表明其词库收词范围很广,收词量很多。例7、8说明,百度对在分词时不会忽略“的”、“和”这些意义不大的字(即禁用词),可以做更多的尝试,百度对“了”、“吗”等都不会忽略,仍作为检索词进行分词。
再探讨百度是正向最大匹配还是逆向最大匹配。例7中,对“走路和气质”可以分出“走路/和/气质”,这种结果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的话应该是应该分为“分/居民/生活水平”,但事实上百度对这个检索提问的分词结果并不如此,在这个例子上看似为正向分词。因此,百度的分词不是单纯的正向最大匹配或者逆向最大匹配,采用的应该是双向最大匹配法。
通过有多种划分方式的例子(比如例8),可以看出,百度首先是不进行分词,得到“朱德的母亲”,然后再识别出专有名词或新词,剩余部分又按照先不切分的方式,得到“朱德/的母亲”,然后用最少切分法原则,并且用到了3元交叉切分法得到了“朱德的/的母亲”。
第二,推导谷歌的中文分词技术
例1说明,对于引号中的检索提问,谷歌不进行拆分;例2说明,用空格分开的子字符串,谷歌自动做分词处理(如果用标点符号分割,效果也一样)。
例3、4、5、6表明,谷歌对于专有名词和新词识别能力较差,对“比尔盖茨”、“旭日阳刚”等都进行了分词处理,甚至连“忐忑”都划分为了“忐/忑”,“图书馆”划分为“图书/馆”,“中医药”划分为“中/医药”,说明谷歌的词库较小。
例7、8说明,谷歌在分词时,会对检索提问中意义不大的字如“的”、“和”忽略,当作禁用词,然后再进行分词。
例9、10、11、12都印证了谷歌采取的是逆向最大匹配法,并印证了对专有名词和新词识别能力差。在12个例子中涉及的专有名词和新词中,只有“朱德”被正确识别。