如何用输入法来监控六亿网民?


如何用输入法来监控六亿网民?


来源:http://mp.weixin.qq.com/s?__biz=MzAwNTg0MzU0Ng==&mid=2652055323&idx=1&sn=bea4a5a6a9b68e9172db52e8c0620c3a
原始来源:https://www.foreignaffairs.com/articles/china/2016-06-05/how-spy-600-million-people

编译/雨山 & 一颗马 & 公仔 & 伍豪
译读:T-Read | 译读小号二世:WinnieTheFool

三年前,美国中情局雇员爱德华·斯诺登(Edward Snowden)所披露的文件揭露了美国政府对国内外电话的广泛监控。在这些爆炸性的内幕披露三周年之际,各大媒体无疑都蓄势待发,准备重提数据隐私和公民自由的话题。
然而,人们或许忘了监控技术早已超出对电话、电邮和短信的窃听拦截。事实上,人们在寄电邮、PO脸书和发推特前,政府便有可能监控这一切。国家和私有企业能够截获.docx和.rtf格式文档,事实上,哪怕是用看似不会泄露的程序输出的文本文档,也都有可能为他人获取。
最后,这样的监控很可能发展为实时进行。届时,一份文件甚至点击“保存”或上传到云端之前就能被截获。这些都是推测,但并不是不可能。


支持斯诺登

你所敲的每一个键

过去十年,我一直在研究现代中国的信息技术,成果会写在一套丛书中,明年由麻省理工出版社出版。当时我并不知道研究中的一些偶然发现会与当下的争论有关,涉及国家监控、数据隐私以及震惊世界的斯诺登泄密案,但事实就是这样。
简而言之:中文计算机系统已经具有“键盘记录(keylogging)”的功能。这项技术的引入并非基于恶意(其实是很高明的技术),但它却在理论上让实时监控中国的电脑用户成为可能,譬如用户在使用Microsoft Word、NotePad、TextEdit等看似不联网的文档程序时就有可能受到监控。当前媒体技术的发展趋势强烈地预示着这种漏洞很快便会从中国传播出去,并成为一种新常态。
要探究起因为何,人们首先需要了解键盘记录器和中文的计算机系统,以及两者是如何结合在一起的。
键盘记录器是一种程序,也可以是安装在计算机上的一种实体装置,它收集用户敲击的每一个键的数据。键盘记录器经常被恶意使用,比如盗取信用卡信息、密码或个人数据,同时也长期运用于政府监控中。1999年有一件里程碑式的案子,联邦调查局探员首次使用键盘记录装置侵入了黑手党大佬小尼基(Nicodemo Salvatore Scarfo, Jr)的电脑,获取他的密码。
在键盘记录器这种间谍工具的发展早期,主要的挑战并非来自键盘记录装置的制作,而在于它的安装。在小斯卡夫一案中,联邦调查局不得不用老掉牙的特务手段,两次闯入这位老大的办公室,第一次是安装键盘记录装置,第二次是取回它。
随着恶意软件的扩散,安装键盘记录器变得更加简单,不过要利用键盘记录器实施间谍活动暂时还没有那么容易。2015年,伊利诺伊大学香槟分校的研究人员研究发现,可以利用智能手表自带的加速计和陀螺仪数据,把手表改装成一种不太完美的键盘记录器。根据相关理论,只要能确定用户的手如何划过键盘表面,就能推算出用户敲了哪几个键。
中文计算机系统上存在一种同样“聪明”,且远为优越的办法,能够精确推算出用户在键盘上输入了什么。要窃取中文计算机上的信息,你只需要获取键盘记录器的管理权限,而且这个国家每台个人电脑和电子设备本身就自带“键盘记录器”——事实上,全世界的个人电脑和电子设备也都自带这种“键盘记录器”。

中文计算机系统是如何工作的?

中国的计算机和美国完全一样,都用标准全键盘(QWERTY keyboard,又称柯蒂键盘)。无论你是在北京哪一栋新落成的写字楼观察,都会发现一批饱含创业激情的千禧一代正在键盘上辛勤地工作,满怀希望地准备与风投资本家会晤。
但是,中国的全键盘并不是看上去的那样简单。在中文计算机系统中,全键盘的用法并非“打什么字就出什么字”。键盘的输入只是在输入法(IME)软件里提供指令的手段 ,确定接下来显示在屏幕上的汉字。
思考一下人们会如何使用全键盘输入有关“诚信”、“舆论导向”以及“数据隐私”等中文词语吧。
要打出由两个汉字组成的“诚信”,四个汉字组成的“舆论导向”或“数据隐私”,业内领先的搜狗输入法会为用户提供多种输入策略。人们可以输入完整的汉语拼音(比如,“c-h-e-n-g-x-i-n”, “y-u-l-u-n-d-a-o-x-i-a-n-g”等等),也可以采用多种快捷键和缩略词(比如“c-x” and “y-l-d-x”),搜狗输入法会足够智能地提供一组选项。比如输入“c-x”,搜狗的弹出式菜单除了会提供“诚信”,同时还并列显示其他也以“c”和“x”开头的中文词语,如“抄袭”。又比如输入“y-l-d-x”,搜狗会弹出“舆论导向”,以及“耶鲁大学”等其他选项。这些呈现出的选项如此简单明了, 足够用户从“抄袭”等词中选中“诚信”。 
鉴于输入法是这样的运行方式,计算上的所有中文输入都是某种形式的本地通讯。当然,如果一个人在中国编辑word文档,输入的信息不会发给第三方,而是返还给用户本身。Word编辑者把字母代码传到输入法,输入法处理代码并以汉字形式将信息传回给用户。

云输入

从麻省理工的工程学教授塞缪尔·考德威尔(Samuel Caldwell)发明首台试验性中文计算机至今,60多年来中文计算机系统都主要依靠这种输入方式。事实上,计算机诞生之前便存在中文输入,甚至考德威尔的灵感也来自于知名作家、语言学家林语堂在20世纪40年代发明的明快(MingKwai )中文机械打字机。自林和考德威尔之后,每一代中文计算机科学家和工程师都把中文输入作为设计的核心考量。
特别是从2000年开始,中文计算机系统利用个人电脑不断增强的处理能力让汉字输入过程疯狂加速,同时汉字输入愈发智能,愈发依赖预测文本,自动补齐,快捷键和缩略词。因此,比起英文字母键盘那种“打什么字出什么字”,中国的全键盘变得更加“聪明”。所有这些或许都让中文成为地球上电脑输入最快的语言。
近几年发生了影响深远的变化:云输入法出现了。上世纪80年代到21世纪初的输入法,输入的全过程都发生在电脑内部,而搜狗、百度、腾讯、微软等推出的云输入系统开始使用巨大的中文语料库和复杂的自然语言处理算法。2013年,微软的研究者把自家中文输入法不断完善的性能当做卖点;而搜狗在其官网上吹嘘其基于云技术的输入法具有更加卓越的准确率和性能。“长句识别”是指输入法将具有一定长度和复杂性的字母精确地转化为多字符中文的能力。搜狗称,依赖本地语料库的传统输入法的长句识别准确率为62.5%,如今云输入法已经将准确率提高到了84%,同时“短句识别”的准确率也从91.52%提高到了96%。

安全问题

或许很多人已经注意到了云输入法速度和准确性的提高,但很少有人指出这种系统可能会引发数据安全问题。如果说输入法本质上就是一种键盘记录器,那云输入法就是联网的键盘记录器。在云输入法中,每在标准键盘上按一个键,都相当于是按了“发送”、“上传”和“转发”。
随着数以亿计的按键在光纤中来回输送,近年来人们开始担心这种输入方式容易受到监控。另外,英文计算机一般仅仅是在浏览网页时由谷歌提供搜索候选(译者注:根据用户输入提供用户可能需要搜索的关键词),而在中国,搜索候选功能已经成为了所有输入法的核心部分。
当然,有些人也许会问,能否使用其他人的电脑来避开这种云输入法带来的监控。毕竟如果没有确定的身份标识,一定无法判断内容的输入者究竟是谁。但事实或许不是这样。
作为斯坦福大学的空间与文本分析中心(CESTA)数字人文亚洲项目中的一项研究,我和我的团队一直在分析键盘的输入记录,试图理解在键盘输入中的各种逻辑和策略。
尽管研究还未结束,但我们已经发现不同用户的键盘记录之间有惊人的差异。而且每个用户都有属于自己的且彼此间区别明显的中文输入方法。虽然我们仍处在研究的初期,但我们的发现对安全和隐私问题会带来的影响已经十分深远。
在个人电脑出现之前,对打字机和打字机打出的文本进行科学鉴定是国内外监视的重要部分。由于打字机制式的不同,打字机打出的文本存在细微的差异。就连不同牌子的打字机色带也会在文件上留下略有不同的“标记”。在美国和前共产主义阵营国家(译者注:Communist bloc或Soviet bloc指和前苏联站在一起的一系列国家,不仅限于中欧和东欧的国家)中,监视部门就利用这些微妙的差异来分析来源不明的文件可能的出处和作者。(要想了解这种分析方法,读者可以去观看2006年电影《窃听风暴》。)
我们的初步研究显示,通过计算机输入法输入的文本也有自己的标记,所以“输入法鉴定”是完全可能的。在斯坦福大学,我们邀请研究样本使用自己偏爱的输入法,输入唐代诗人王维(公元前701-公元前761)所做的古诗《送别》。我们的发现很惊人——就连在前两句诗、短短的十个字中,键盘记录下不同样本的习惯也存在差异。

下马饮君酒,问君何所之?
输入键盘记录,样本#1:xiama_yinjunjiu_,wen_jun_hesuozhi2?
输入键盘记录,样本#2:xiamayinjunjiu2,wenjunhesuozhi2?

注释:下划线是用户按下空格键的地方,这意味着用户选择了搜狗输入法选字框中的第一个字。数字2代表用户选择了搜狗输入法选字菜单中的第二个字。
我们在示例1中可以看到,有些人每次只输入一个字的拼音,他们输入“w-e-n”,然后使用空格键(_)选择想要的字。另外的人在面对包含多个汉字的文本时,会选择输入更多的字母(比如“x-i-a-m-a-y-i-n-j-u-n-j-i-u”),这类人对输入法联想能力的依赖度更高。


定位目标

另外,随着文本长度的增加,不同电脑用户之间存在的差异会更大。这意味着,当我们把一个人每年成千上万(甚至上百万)次的按键结合在一起,就能总结出那个人独有的“指纹”——这种“指纹”的有效性和打字机时代最先进的识别技术不相上下。把输入法指纹和定位数据、网页缓存数据和其他数据获取方法进行交叉比对时,我们发现输入法指纹甚至更胜一筹。
在云输入法的时代,电脑用户仅仅通过更换电脑来躲避监控是不够的,因为其输入指纹有可能会如影随形挥之不去。在愤怒时发过邮件或者喝醉时发过短信的人都知道,编辑时的信息和最终发送出去的信息可谓是天差地别。但如果这种不同完全消失呢?如果你的每一个Word文档,包括没有保存的那些以及整个编辑过程都能被拦截呢?如果你删除掉的每段话,修改过的每个短语,做过的每个改动和最终保存的文件都被一视同仁地保存在了监控世界中呢?这些你以为已经删除掉、但其实被保存下来的信息,有一天是否会被用来针对你?
菲利普·狄克(Philip K. Dick)在他1956年的作品《少数派报告》(The Minority Report)中,提出了让人胆寒的“犯罪预防”(precrime)概念,意指在事先即察觉(甚至起诉)犯罪行为。云输入法的出现提出了一个问题:Wei Jingsheng被监禁的原因主要是因为他1978年攥写的文章The Fifth Modernization;Liu Xiaobo被监禁的原因,部分是因为他与人合著了Charter 08;在未来,异见者在用电脑进行创作时,是否会像恐怖分子一样,还未来得及行动就被察觉?
另外,上述猜测不局限于中文输入或中文中。可以说,全球的IT公司和用户像中国一样开始利用智能键盘提供的便捷只是时间问题。
当我准备按下“发送”按钮,将带着一个docx附件的电邮发给我的编辑时,我已经完全意识到,我写下的每一句话很可能已经被政府和私企的相关方拦截读取。
发表评论