国家局域网里的自我保护法(一)

来源:justice360.spaces.live.com

是 的,要说的就是怎么让你写的东西更“安全“些。在我们的国家局域网里,各大论坛和BSP基本都有文字过滤和自动内容检查机制。要发表的内容中的一些敏感词 汇在发表后一般会被其他词语代替(比如cnbeta的网友评论里大量出现的”文明用语“就是代替了大多数不文明用语而来的),或者根本不让你发表。除此之 外,你发表在博客上的文章如果有什么敏感的文字还有可能被BSP或者GFW的爬虫程序检查到,于是我们会看到BSP善意的”您的文章被隐藏“等等,或者是 GFW给你看的”该页无法显示“。
互联网上的内容太多,虽然也有人工的过滤机制,但是一般还是利用爬虫来保证内容的和谐。要绕过爬虫的检查,无非就是不出现敏感的词汇(估计现在 爬虫程序可能还用了语义分析等手段),以下的方法我没有经过测试(太猛的文章没敢测试 =_=),如果谁觉得可行,有兴趣可以尝试一下,后果自负...


方法一:使用”脑残体“

关于”脑残体“,百度百科上的一篇东西算是比较全面的了(详见此处)。
事实上,它并不是一种字体,个人觉得用”脑残文“来描述更为贴切。把一篇文章改写为脑残文用到的手段可以有:
1. 利用同音形似的生僻字或繁体字替换原来的文字。
2. 利用特殊文字、符号(如注音符号)、数字替换形似的文字。
3. 拆字!
...
...
虽然上面的方法混合使用可以是爬虫更加无法”读懂“你的文字,但也使人无法很容易读懂。我觉得,拆拆字就够了。
网上有vk2211制作的拆字小工具Splitit,可以把一段文字转换成应用拆字法的脑残文。点此处下载。 运行以后,选中一段文字,按下Ctrl+D就可以转换了。其实也就是把文字之间做了映射,对应的字库为Spliter.word,是一个文本文件,没有的 字只要自己按其格式添加就好了。注:拆字看起来的确累,但的确可以让爬虫无法读懂,但事实上,有些字拆了不如不拆好,比如说,”咬“...如果这样拆了反 而被和谐...那只能说,囧...

没有评论: