GFW BLOG（功夫网与翻墙）: 舆情关键技术研究和应用

近几年，我国着力于利用技术手段实现对海量的网络舆情信息进行深度挖掘与分析，以快速汇总成舆情信息，从而代替人工阅读和分析网络舆情信息的繁复工作。网络舆情相关的关键性技术归结为：单体化技术与系统化技术两类，现逐一论述。

网络舆情相关的单体化技术主要包含以下四个：

(1) 网络舆情采集与提取技术：网络舆情主要通过新闻、论坛/BBS、博客、即时通信软件等渠道形成和传播，这些通道的承载体主要为动态网页，它们承载着松散的结构化信息，使得舆情信息的有效抽取很有难度。梅雪等人(2007)通过全自动生成网页信息抽取Wrapper的方法在一定程度上实现了动态网页数据的抽取与集成，具有一定的处理准确率以及抽取效率^[58]。

(2) 网络舆情话题发现与追踪技术：网民讨论的话题繁多，涵盖社会方方面面，如何从海量信息中找到热点、敏感话题，并对其趋势变化进行追踪成为研究热点。早期的 Allan James、J. Allan、G.Hulten、Qiaozhu Mei等人的研究思路是基于文本聚类，即文本的关键词作为文本的特征^[59-65]。这种方法虽然能将一个大类话题下的文本进行聚合，但没有保证话题的可读性与准确性。段建国等人(2007)在此思路的基础上进行改进，实现了话题发现与追踪：即将文本聚类问题转换为话题特征聚类问题，并依据事件对语言文本信息流进行重新组织与利用^[66]。

(3) 网络舆情倾向性分析技术：通过倾向性分析可以明确网络传播者所蕴涵的感情、态度、观点、立场、意图等主观反映。比如新浪网的“新闻心情排行”将用户阅读新闻评论时的心情划分为如图2-1所示的八个层次。对舆情文本进行倾向性分析，实际上就是试图用计算机实现根据文本的内容提炼出文本作者的情感方向的目标^[67]。唐慧丰、徐琳宏、李艳玲等人(2007)致力于网络舆情文本的倾向性分析技术：通过判断网络环境下倾向性特征词的特点和类型，并进行语气极性判别和标注，从而构建一个面向互联网的倾向性语气词典，建设一定规模的标准数据集，为中文倾向性分析的深入研究提供支持^[68-70]。

图2-1 用户阅读新闻评论的心情

Fig.2-1 Users’ mood when reading news comment

(4) 多文档自动文摘技术：新闻、帖子、博文等页面都包含着垃圾信息，多文档自动摘要技术能对页面内容进行过滤，并提炼成概要信息，便于查询和检索。张姝 (2007)、刘茂福(2008)、张瑾(2008)在一定程度上实现了网络舆情信息自动生成报文，并能通过浏览器进行浏览和信息检索^[71-73]。

通过我国网络舆情相关领域的单体化技术研究综述可以看出：从网络舆情信息的采集与提取，到话题的发现与追踪、到态度倾向性分析，再到多文档自动摘要的生成，为我国网络舆情安全评估的研究提供了有效的舆情信息获取和分析方法。但是，它们都是从纯技术角度出发的，而缺乏“舆情”这一社会层面在技术层面上的体现。

除了上述四个单体化技术外，很多国立科研机构、高等院校和公司纷纷致力于系统化技术整合的研究，可概括为以下七方面：

(1) 中科天玑公司(2008)设计并开发了天玑网络舆情监测系统，目前已推出3.0版本。天玑舆情监测系统实时定向采集互联网新闻、论坛、博客等通道的信息，抽取舆情要素，发现舆情热点，挖掘舆情敏感话题，研判舆情态势，能快速有效地提升政府机构以及企业的舆情掌握与危机公关能力。天玑舆情系统集舆情采、看、编、处、报、管为一体，为用户在第一时间内获取网络信息，并对信息进行加工、整理、筛选、预警，为用户快速有效决策提供有利的保证。天玑舆情监测系统分为政府版、金融版与境外版三个系列。天玑舆情监测系统目前已经应用于中国证监会、中国银监会、工信部、质检总局、总参、中国工商银行、中国移动、上海、福建、新疆各省舆情监测部门。

图2-2 天玑互联网舆情监测系统

Fig.2-2 Internet public opinion’s monitoring system Golaxy

(2) 北京理工大学网络与分布式计算实验室(2008)正在进行网络舆情分析与预警平台的研发工作，现已完成了逻辑模型和框架的设计，它自底向上分为五个层次：①信息获取层：主要利用采集与获取技术汇总丰富的网络舆情信息，建立相关文档库；②内容挖掘与理解层：主要对已获取的网络舆情信息进行识别、分类与理解；③倾向分析层：在舆情内容语义描述的基础上，综合信息上下文分析作者的观点倾向；④统计分析层；主要提供用户统计查询与多维统计分析功能；⑤安全评估层：主要实现对不良舆情信息传播情况的预测和安全评估，并形成有价值的报告^[74]。

(3) 北京拓尔思(TRS)信息技术股份有限公司(2008)正在进行TRS网络舆情监测系统的研发工作，现已完成了逻辑模型和框架的设计。该系统的模块包括四个，分别为：①热点发现和热点追踪：利用话题发现与追踪技术把网民不关注的信息过滤掉，发现网民的关注热点和焦点；②敏感信息监控和预警：内建一套比较完善的舆情分类体系，实现对敏感信息和国计民生的各个重点领域进行监控，并根据舆情分类的结果自动给出预警信号；③辅助决策支持：通过有效的舆情简报加工工具，辅助用户生成各种类型的舆情简报；④全方位信息搜索：利用强大的检索技术，实现了海量舆情信息的全方位高效检索功能^[75]。

(4) 谢海光等人(2006)通过探索互联网内容及舆情形成和发展的基本特点内容，提出了舆情热点(热度)、重点(重度)、焦点(焦度)、敏点(敏度)、频点 (频度)、拐点(拐度)、难点(难度)、疑点(疑度)、粘点(粘度)和散点(散度)等十个分析模式和判据基本结构，并通过校园公共安全危机案例进行实证研究^[76]。

(5) 北大方正技术研究院(2005)设计开发了方正智思舆情预警辅助决策支持系统：该系统由舆情规划、舆情收集、分析处理、舆情预警四个环节组成，主要针对离线的网页数据进行舆情自动分析和预报，分析规划舆情监控内容，形成了一个具有生命特征的周期往复的社情民意反馈系统^[77]，如图2-3所示。

图2-3 方正智思舆情系统框架

Fig.2-3 Framework of Fangzheng Zhisi System

(6) 南京大学秦州副教授(2005)以近年来网上重大矿难报道数量绘制出网络舆情环境下的“矿难舆情指数曲线”，探索了基于网络上特定主题WEB页面数绘制网络舆情指数体系的可行性^[78]，如图2-4所示。

图2-4 网上矿难报道WEB页面总数与平均数随时间变化态势

Fig.2-4 The changes of WEB total numbers and average numbers of Internet mining accidents

(7) 北大李晓明教授(2003)提出了一个利用计算机技术、针对某一特定主题，对互联网上海量信息进行采样收集与分析的模型。该模型包括样本空间的选取、主题特征的提取、目标参量的设置、网页收集、数据后处理几个模块。需要强调的是，模型在目标参量设置上提出“主题强度参量体系”，对样本空间的网页从宏观统计和变化过程，绝对数量和相对数量，总体信息和独立信息这三个维度进行分析。最后，以2002年“十六大”网上舆情信息为例，进行模型验证^[79]。

通过我国网络舆情相关领域的系统化技术研究综述可以看出：(4)、(6)和(7)主要是针对某个舆情主题或舆情个案进行的网络舆情挖掘与分析，能在一定程度上为政府和舆情监管相关部门提供一个代替人工阅读海量网络舆情信息的使用工具；(1)、(2)、(3)和(5)虽然基本形成了国家舆情监控战略需求下亟需的网络舆情分析及预警应用系统中各个模块的作用及相互关系的逻辑结构，但是有些关键模块仅仅停留在逻辑结构设计阶段，比如网络舆情安全的评估预警，其实现途径和方法尚没有研究出来，无法将网络舆情分析与预警工作真正地开展起来。

前面介绍的互联网舆情监测Beehoo系统、方正智思舆情预警辅助决策支持系统、TRS网络舆情监测系统，已在不同程度上实现了网络舆情信息的实时获取、实时检索和热点话题的发现和跟踪，并应用到具体的业务单位，比如互联网舆情监测Beehoo系统为证监会提供了“证券”相关的网络舆情信息的自动搜集和分析；方正智思舆情预警辅助决策支持系统实现了对社会突发事件，如重大刑事事件、涉外突发事件、恐怖袭击事件、经济安全事件、较大规模群体性事件、公共卫生事件、突发自然灾害等网络舆情信息的自动获取和智能处理；TRS网络舆情监测系统对2008发生的汶川地震所形成的网络舆情进行了较为全面的统计和分析。

通过我国网络舆情相关领域的应用研究综述可以看出：虽然在一定程度上为具体单位或相关业务部门提供了代替人工阅读海量网络舆情信息的搜集和分析工具，但是舆情监控需求最关键的安全评估和预警还没有实现，即匮乏一个宏观性、整体性的网络舆情安全评估指标体系将网络舆情发现、分析、监管、预警、处置和反馈有机地结合起来。

GFW BLOG（功夫网与翻墙）

舆情关键技术研究和应用

没有评论:

关联节点