为何我们的言论被无故屏蔽?

作者:casa   来源:http://micarum.blogspot.com/2009/01/block.html

我们常常遇到这样的问题:写完自己的日志后,刚点了发布,弹出信息:您的言论违反了...... 而事实上,我们的言论并不含违禁内容。那么到底是哪儿出了问题?

这里就不得不提网站进行文本过滤时所采用的技术了,所有的过滤技术都离不开分词这一概念。这个分词并不是我们在讨论英语语法时所说的概念,而是切分词汇,是一个语料库语言学所涉及的概念。

我简单地介绍一下这个概念,前些年,百度曾经做过一个广告标榜自己的中文搜索非常先进。它的广告语是这么写的:
我知道你不知道我知道你不知道我知道你不知道
我们可以试试有多少种读法:
我知道,你不知道。我知道,你不知道我知道,你不知道

我知道你,不知道我。知道你不知道我,知道你不知道

我,知道你不知道我知道。你,不知道我知道你不知道

这几个是百度当年给出的答案,或许有更多的断句方式,这里所说的断句在语言学中就被称为分词。当时百度之所以标榜自己的中文搜索先进,就是因为它的中文分词技术当时领先于Google,所以李彦宏不无炫耀地称百度比Google更懂中文。时至今日,两家的中文分词技术不分上下,所以百度再也不敢标榜自己更懂中文了。

具体说来,语言学中的分词概念远比断句复杂。因为语言学中的分词技术是用于语料库标注的,所以不仅仅是断句属于分词的概念,包括词语的切分,意群的切分,语句的切分等等,这些都是分词技术的范畴。

至 于网站在屏蔽中所采用的关键词过滤技术,实际上与分词这一概念有很大的联系。为什么呢?因为关键词过滤就是考虑关键词匹配问题,一旦与字典中所含的词匹 配,那么计算机就判断为匹配。但是计算机所使用的字典是死的,只是一一对应,并不会进行分词。我们来看看这个例子:我们的士气高涨。假使网站要屏蔽"的士 "二字,那么这句话毫无疑问就被屏蔽了,因为按照关键词匹配,这句话就被拆成:
[我们][的士][气][高涨][。]在这里计算机会将士气标注为关键词。这就是为什么很多言论被无故屏蔽的原因。

当然语言学中的分词技术已经可以判断这句话了
:[我们][的][士气][高涨][。] 具体采用的技术是字典计算加标注加概率计算。目前主流的搜索引擎恰恰采用的就是语言学中的分词技术,而且已经比较完善了。另外中文等东方语系中的分词技术远比印欧语系要难,主要是由书写结构所决定的。

一般来说,网站采用的都是最原始的分词技术,仅仅是关键词匹配,并未进行语义识别。所以误判在所难免,当然从另一方面而言,使用非敏感词替代敏感词是躲避屏蔽非常有效的手段。譬如用"县长"替代"宪章"......

没有评论: