GFW BLOG（功夫网与翻墙）: 为何我们的言论被无故屏蔽？

作者：casa 来源：http://micarum.blogspot.com/2009/01/block.html

我们常常遇到这样的问题：写完自己的日志后，刚点了发布，弹出信息：您的言论违反了...... 而事实上，我们的言论并不含违禁内容。那么到底是哪儿出了问题？

这里就不得不提网站进行文本过滤时所采用的技术了，所有的过滤技术都离不开分词这一概念。这个分词并不是我们在讨论英语语法时所说的概念，而是切分词汇，是一个语料库语言学所涉及的概念。

我简单地介绍一下这个概念，前些年，百度曾经做过一个广告标榜自己的中文搜索非常先进。它的广告语是这么写的：

我知道你不知道我知道你不知道我知道你不知道。

我们可以试试有多少种读法：

我知道，你不知道。我知道，你不知道我知道，你不知道

我知道你，不知道我。知道你不知道我，知道你不知道

我，知道你不知道我知道。你，不知道我知道你不知道

这几个是百度当年给出的答案，或许有更多的断句方式，这里所说的断句在语言学中就被称为分词。当时百度之所以标榜自己的中文搜索先进，就是因为它的中文分词技术当时领先于Google，所以李彦宏不无炫耀地称百度比Google更懂中文。时至今日，两家的中文分词技术不分上下，所以百度再也不敢标榜自己更懂中文了。

具体说来，语言学中的分词概念远比断句复杂。因为语言学中的分词技术是用于语料库标注的，所以不仅仅是断句属于分词的概念，包括词语的切分，意群的切分，语句的切分等等，这些都是分词技术的范畴。

至于网站在屏蔽中所采用的关键词过滤技术，实际上与分词这一概念有很大的联系。为什么呢？因为关键词过滤就是考虑关键词匹配问题，一旦与字典中所含的词匹配，那么计算机就判断为匹配。但是计算机所使用的字典是死的，只是一一对应，并不会进行分词。我们来看看这个例子：我们的士气高涨。假使网站要屏蔽"的士 "二字，那么这句话毫无疑问就被屏蔽了，因为按照关键词匹配，这句话就被拆成：[我们][的士][气][高涨][。]在这里计算机会将士气标注为关键词。这就是为什么很多言论被无故屏蔽的原因。

当然语言学中的分词技术已经可以判断这句话了：[我们][的][士气][高涨][。] 具体采用的技术是字典计算加标注加概率计算。目前主流的搜索引擎恰恰采用的就是语言学中的分词技术，而且已经比较完善了。另外中文等东方语系中的分词技术远比印欧语系要难，主要是由书写结构所决定的。

一般来说，网站采用的都是最原始的分词技术，仅仅是关键词匹配，并未进行语义识别。所以误判在所难免，当然从另一方面而言，使用非敏感词替代敏感词是躲避屏蔽非常有效的手段。譬如用"县长"替代"宪章"......

GFW BLOG（功夫网与翻墙）

为何我们的言论被无故屏蔽？

没有评论:

关联节点