再议百度贴吧的滥删帖现象:掩耳盗铃的百度关键词过滤

来源:http://fnred.blog.163.com/blog/static/35998222007102091411559/

题注本文于8月21日发表于本人的百度空间,因文章内容可能触及百度敏感词,已无法在百度空间被公开浏览(由百度限定为作者私有状态),这恰恰是本文所议主题的又一明证。

8月19日晚,我在百度灯火阑珊处有你吧发了一个有关电影纪录片《南京》的帖子,让人颇为不解的是,这个帖子刚发没多久,就发现被删掉了。

其实发的这个帖子并没有什么特别之处,相反,在我看来,其文字客观、平和,其内容也再普通不过。

首先,帖子讲在海外引起较大反响的这部片子7月3日开始在国内公映了;其次,帖子介绍了一下这个片子的主要内容。它是以1937年侵华日军南京大屠 杀为主题,但不同于过去其他片子的地方在于,它完全凭借从世界各地收集起来的真实的历史影像资料,穿插对当年大屠杀幸存者的采访和参与过大屠杀的日军老兵 的回忆,讲述南京大屠杀发生时,德国商人约翰・拉贝、美国女教士明妮・沃特林等十几个外国人,是如何地不顾个人安危,全力拯救南京市民的英雄主义故事;最 后,帖子把CCTV 7月25日的《社会记录》栏目介绍这部片子的一段视频链接附在后面,以供感兴趣的朋友观赏,对片子能有更多一点的了解。

在百度贴吧,帖子被删有两种可能,第一种可能,是吧主看到不合适的帖子,通过手工操作进行删除;第二种可能,是百度的管理员或机器发现认为不合适的 帖子将其删掉。由于百度贴吧每日发帖者众,百度的管理员删帖理论上可行,但实际上,只能作为应对特殊情况和极端情况的临时处置(如前段时间为打击爆吧行 为,一次性撤销李毅吧所有吧主的资格即为此例),无法真正大规模采用,因此,百度的删帖,主要是机器删帖。

以上述第一种可能来说,我本人是"灯火阑珊处有你"吧的吧主,可以肯定,这个帖子不是我删的,那么毫无疑问属于第二种情况了,即是百度删的,换句话说,是百度的机器删的。问题是,这样一个普通得不能再普通的帖子,为什么被百度的机器给删了呢?

凡经常上百度贴吧,酷爱在百度贴吧发帖的人,相信都有帖子被删的经历,帖子被删,要么是心胸狭隘、素质低下的吧主所为,要么被百度的机器"眷顾"。 对于吧主滥删帖的情况,笔者在本空间已多次撰文予以批评,此处不再赘述,对于百度的机器滥删帖的情况,笔者此前较少遭遇过,因此对其投入的关注不多,但通 过这次切身的体会,我认为,百度机器滥删帖的情况,其问题之严重,对广大百度贴吧爱好者的用户体验影响程度之大,丝毫不亚于吧主滥删帖,甚至比吧主滥删帖 影响更坏,对百度贴吧的健康发展危害更大。读者如果不信,且看我下面的分析,就会知道,这绝不是危言耸听!

在关于电影《南京》的帖子被百度的机器删掉之后,我就设法查找其中的原因。经过多番尝试,终于知道,原来在我这个帖子里,有几个词,正好和百度贴吧数据库里的敏感词相符,帖子里含有百度不予认可的敏感词,是这个帖子被删的根本原因!

究竟这个帖子里哪些词是百度认为不合适的敏感词,导致帖子被删?根据我反复试验,得出的答案是:1、大屠杀;2、暴行;3、自杀;4、残暴行径;5、灭绝人性。

补充说明一下,这些词都是发这个帖子所必须用到的。"大屠杀"是"南京大屠杀"的核心词;"暴行"和"日军"组合在一起;"自杀"是在介绍该片拍摄背景时用到的一个词:美国著名企业家和慈善家特德・莱昂西斯(Ted Leonsis)在看到自杀身亡的华裔女作家张纯如生前写过的一本有关南京大屠杀的书――《南京浩劫》后,心灵受到强烈震撼,而产生自费拍摄这部影片的念头;"残暴行径"和"灭绝人性"都是用来形容屠杀南京百姓的日军的。

如此看来,我这个写南京大屠杀的帖子被删,不是这个帖子有什么不对,问题出在百度以"关键词过滤"的方式,处理贴吧里可能出现的问题帖子,只要发现 哪个帖子里含有这些敏感词,百度的机器要么阻止发帖,要么在帖子发布后将其删掉。由于这个原因,造成我这个拿任何一个常规标准来评判都不会认为有问题的帖 子,被百度"聪明"的机器误判为问题帖子而被删。

次日下午,带着这些发现,笔者在灯火阑珊处有你吧里重新发表了这个帖子, 并对其中可能会被百度机器判别为有问题的关键词做了技术处理,如尽量回避可能无法通过机器审核的词语,改用别的词语,如侵华日军在南京的"暴行",改为侵 华日军攻陷南京后的"历史事实","灭绝人性"改为"惨绝人寰";对于必须用到、无其他词可以代替的词语,如"屠杀"、"自杀"等,用大写拼音"TU SHA"、"ZI SHA"来表示,经过这样的处理后,新帖子发表成功。

抱着进一步探寻的兴趣,我继续尝试,发现在百度贴吧认为是犯忌讳,会予以阻止和删除的敏感词不在少数,可谓多矣。聊举几例:

1、与政治有关的:包括共产党、党和国家主要领导人的姓名等;

2、与性有关的:裸体、乳房等;

3、与色情有关的:同性恋、女优、鸡、鸭等,由某一个词可能延伸出若干个词,如由鸡延伸出野鸡、烤鸡、童子鸡、宝鸡等;

4、与暴力有关的:屠杀、暴行、灭绝人性、自杀等。

以上这些敏感词,是无法拿来作为关键词搜索贴吧里的帖子的(感兴趣者可以一试),更有很多的词,是一旦在帖子里出现,是不问帖子的内容,十之八九可能会被百度机器给删掉的。

即使百度再懂 中文,但采取机器为主导,关键词过滤的方式,对贴吧进行全天候监控,问题在于,任何一个事先设计得再完善、再周密的关键词库,都无 法保证能够准确无误地判断帖子有无问题,更无法保证不会放过真正有问题的帖子(就像笔者前面所说采取技术处理方式发帖),而向真正有质量的帖子开刀。规则 上的如此缺陷,通过没有思想但很忠实的机器来执行,机器一旦发现含有敏感关键词的帖子出现,一律删无赦,这个过程中,对于发帖者本人和贴子所在吧的吧主, 既不事先警告,也不事后回馈,这样一种管理方式,未免失之于简单、武断和霸道!

百度贴吧自诞生以来,以其能较好地凝聚志趣相投者、良好的互动性,有别于传统的BBS论坛,受到众多网友的欢迎,很快成为与天涯论坛同列为国内最有影响力的社区平台,表面的繁荣之下,有无隐忧?我认为是有的。

其一,依托百 度强大的搜索引擎,以关键字作为区分,百度贴吧固然能够很好地满足不同的网友差异化的需求,这是贴吧最大的亮点,也是其最大优势, 但是,由于两方面的原因,一方面,关键字过多,造成贴吧过多,另一方面,受宁做鸡头,不做凤尾的心态作祟,很多发帖人宁开新吧,不入老吧,造成百度贴吧看 起来熙熙攘攘,热热闹闹,实际上人流分散,页面流量分散,加之贴吧始终没有一个很好发挥导航功能的首页,使得百度贴吧相对其他大的论坛,并不是出产高质量 帖子的首选之地,而是追星一族、以娱乐、交友为主要目的之人汇集在此,争相灌水之地。

其二,如前所述,吧主滥删帖和百度机器滥删帖交互作用,使得想在百度贴吧上严肃地讨论问题,并不是一件易事,这一问题与前一问题交织,阻碍成熟的高知人群使用百度贴吧,限制了百度贴吧向更高层次、更大影响力方向的发展。

综上所述,百度贴吧的滥删帖现象,尤其是机器滥删帖现象,当休矣。

觊觎百度知道和贴吧的成功,720日,百度搜索领域里最大的对手――谷歌和社区领域的最大对手――天涯社区共同宣布,两家公司通过密切合作方 式,在天涯社区平台上携手推出"问答""来吧"两大产品,如果说,过去还没有哪家公司有同类的产品能与百度的知道、贴吧相抗衡,显而易见,这次,百度将遭遇强劲的挑战。

百度,你准备好了吗?

没有评论: