TRS网络舆情监控系统

转自:讯腾科技

随着互联网信息传播的便捷性和随意性日益突出,既有大量进步、健康、有益的信息,也有不少反动、迷信等消极内容。一方面提供了人们一个投诉问题,反映社会不公现象的一个平台,另一方面由于政府主管部门缺乏有效的对互联网信息的监控和知晓,所以不能准确地把握住民情民意,导致一些社会矛盾和不公正现象长时间积 累而无人知晓,逐步演化为严重的社会问题,不利于构建和谐社会。因此新形势下,政府如何知晓和监控网络上的民情民意,制定更和谐的政策,为百姓安居乐业, 社会和谐发展做出贡献,是每一个职能部门思考的问题。

Web1.0的主要特点在于用户通过浏览器获取信息,Web2.0则更注重用户的交互作用,用户既是网站内容的消费者(浏览者),也是网站内容的制造者。换言 之,Web2.0的本质在于用户自己贡献内容(UGC),并可以自由地与他人分享这些内容。由于内容的生产者极为分散,用户间的交互也极为频密,于是对用 户所上传、下载、存储、共享、分发的内容监控和管理也就变得更为困难。于是,对于作为网民参政议政、了解社情民意主要平台的官方论坛而言,内容安全问题、 系统的稳定性问题以及舆情监控问题就显得更为重要和刻不容缓。

 " 每当有如,贝布托遇刺、伊拉克战争、黑砖窑、周老虎等突发事件发生时,国内几大论坛的访问量都呈十倍甚至几十倍的增长,那么如何保证平台的持续稳定性、如 何及时地剔除垃圾、反动等负面消息都是这些网站运行中最为棘手的问题。系统的稳定性和内容安全保障不但要依赖于严格的内容审核机制,还要借助于更加智能的 内容过滤技术。"

艳照门、华南虎、演员半裸坠楼身亡……近一段时间,互联网上总是热点事件不断,网民们也总是乐此不疲。

目前,互联网传递的社情民意正在成为行政部门决策的重要依据。但是,在互联网海量的信息背后,也隐藏着一些黄色、暴力等内容,而且传播的速度往往超乎人们的想象。如何消除这种有害信息的"内容威胁"?业内有关专家提出,当务之急是运用专业技术工具对网络舆情加强监控。

舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。网络舆情形成迅速,对社会影响巨大,不仅需要媒体从业者认真研究,更需要社会各界高度重视。

专业搜索引擎的诞生为行政部门提供了帮助。这类专业搜索系统可对热点问题和重点领域比较集中的网站信息,如对网页、论坛、博客等进行实时监测,并通过专业技 术对采集的信息进行逐步过滤和预处理,将这些海量信息以可视化的方式表现出来,从而快速、准确、直观地了解网络上的各种动向。

TRS舆情监控系统

毋庸置疑,互联网是当今社会最具权威和最具实时性的舆情载体。通过网络舆情监控,各级政府部门能够及时了解舆论动向,引导舆论发展,制定正确的策略,并及时采取措施进行有效的干预。因此,网络舆情监控对于了解社情民意,缓解舆论压力,建设和谐社会具有重要作用和意义。

网络舆情监控的难点主要在于舆情信息收集和舆情分析挖掘两个方面。

一、舆情信息采集

一个良好的舆情监控系统,首先要有一个好的网络舆情采集工具。

我 们在互联网上了解事件相关信息的最常用方法是通过Google、百度等互联网搜索引擎进行搜索。是不是通过搜索引擎就可以建立我们所需要的舆情系统 呢?TRS公司认为,网络舆情的主要载体并不是网页,一个通俗的道理,网站的舆情价值与其对网民的开放程度是成正比的,公众参与度越高,舆情价值越大。用 这个标准衡量,网络舆情的主要载体是论坛、博客以及具有新闻评论功能的网站,这三者构成了网络舆情的主信息源。

论坛:论坛是目前能够反映应社情民意的最佳场所,论坛中网民一般以事件为线索展开讨论。无论是人民网强国论坛、新华网发展论坛等官方论坛,还是天涯社区、西祠胡同、百度贴吧等民间论坛,都聚集着对各类事件林林总总的评论,而且重要事件在各大论坛上往往具有联动效应。

博客及评论:博客是互联网上自由发表言论和评论的重要场所,博客中一般以某个人的记述为主,其他人发表评论。国内的各类博客网站吸引了大量的网民参与写作和评论。

新闻评论:在比较先进的新闻网站上,都会增加新闻评论的功能,让网民对某一新闻事件发表自己的评论意见,附着在每条新闻网页后面的"评论"信息,往往蕴含着重要的信息――一个新闻事件的报道本身也许并不重要,而动辄成千上万的网民评论却是民意的真实反映。

此外,由于意识形态的差异和新闻报道的相对独立性,港台和境外(中文)媒体也是我们了解舆情的重要途径。这些媒体提供另外的视角,帮用户了解一些国内媒体很少披露的内容。当然,我们必须要具有一定的鉴别能力,了解西方媒体对华报道的局限性和片面性。

一个良好的网络舆情采集模块必须能够对上述几种采集源提供适当的解决方案。以网页搜索为主要对象的搜索引擎在采集范围、元数据解析以及更新及时性的等方面均无法满足专业舆情监控的要求。

二、舆情挖掘分析

    一个良好的舆情监控系统,必须要有一个好的舆情分析模块。

舆情分析的难点在于以下几个方面:

热点/主题发现: 一般来说,利用TRS舆情采集工具可以收集到来自论坛、博客、新闻评论中的大量原始素材,如何在海量原始素材中自动发现热点问题,别是在热点刚刚形成时能够及时发现,是舆情分析的难点。

热点/主题跟踪:网络环境下,热点问题的产生、发展、高潮、减弱、消退是一个动态的发展过程,如何准确反映热点问题的发展状态和趋势,对于舆情引导和采取措施的决策具有重要意义。

热点/主题分析:热点中包含的动辄成千上万的网民评论是民意的真实反映,如何对热点进行智能分析,了解和归纳网民的主流观点是舆情分析的关键问题。

 敏感问题监控和舆情预警:对于用户所关注的领域或者事件,如何进行有效监控和预警。对此,需要解决两类问题:如何对用户关注的舆情内容建立科学的分类体系并 进行有效的分类;如何根据舆情分类的结果评估和分析当前的宏观舆情态势,并给出预警信号。这是舆情分析的核心问题之一。
 
褒贬分析:用户在得到一批相关内容的素材后,可能会希望进一步区分出其中的正面报道和负面报道,例如企业希望了解市场上对其产品的正负面评价,名人(政治人物)希望了解媒体和公众对自己的评价。如何满足用户的这一要求,也成为舆情分析的难点之一。
海量数据挖掘:在海量信息环境下如何保证舆情分析的及时性和有效性,满足使用要求。这也是舆情分析系统要解决的重要问题。
 
三、TRS网络舆情监控解决方案

北京拓尔思信息技术股份有限公司(TRS公司)长期以来从事互联网搜索引擎和大规模文本智能挖掘等方面的产品研发工作,目前已经成功解决了网络舆情监控的诸多技术难题,研制出网络舆情监控产品。

TRS舆情监控系统能够实现对网页、论坛、博客、新闻评论等网络资源的精确采集和解析,提供热点发现、热点跟踪、敏感信息监控、辅助决策支持、舆情预警等多种舆情服务,适用于各级政府职能部门以及企业竞争环境监控。

1.  TRS舆情采集模块

在网络舆情采集方面,TRS综合采用多种先进技术打造的舆情采集工具,实现了对各种舆情信息的精准和全面采集,TRS舆情采集工具的部分特色功能介绍如下。

(1)支持网页结构自动分析

论 坛和新闻评论的特点是,一个物理网页中一般包含多个贴子(或评论),而且随着时间的推移,同一个网页中的贴子会动态变化,有新的子贴增加,也可能有旧贴删 除。搜索引擎的处理方法是一个网页解析出一份内容,这样的处理方式不能满足舆情监控的需求,对于舆情系统来说,每一个贴子都代表着一份有价值的信息,因此 一个论坛或评论网页往往需要分解为N个贴子,每个贴子都作为一条独立的信息参与舆情分析。

TRS舆情采集工具实现了基于网页结构的统计分析算法,能够自动识别和分隔出论坛和新闻评论中的每一个贴子和评论信息,满足舆情分析的需要。

(2)支持基于模板的元数据解析

在贴子自动分隔的基础上,TRS舆情采集工具支持基于模版的元数据解析功能,对于每个贴子可以解析出发贴人、发贴时间、贴子主题、贴子内容、点击数等元数据属性,这些属性是舆情分析的重要数据。

(3)内嵌Javascript脚本执行引擎

随 着Web 2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设,目的是提高用户的交互性和易用性。由于搜索引擎的采集工具一般不 支持脚本语言,因此,我们可以发现,Google、百度等搜索引擎只能收录少量来自论坛、博客和新闻评论的内容。

TRS舆情采集工具内嵌了脚本引擎,能够实现网页中脚本语言的自动解析和执行,从而能够实现对于采用脚本语言的论坛、博客以及新闻评论网站的采集,为舆情分析提供全面的数据保障。

(4)支持RSS解析

许多博客/新闻评论采用RSS(Really Simple Syndication或RDF Site Summary,信息聚合技术)实现内容共享,除了网页的基本信息,RSS一般都会包含更丰富的元数据信息,比如标题、作者、发表日期、分类、关键词等, 有些RSS甚至包含更多的信息。这些元数据对于舆情分析往往具有重要的价值,TRS舆情采集工具实现了对RSS聚合内容的自动解析和采集。

TRS舆情采集工具在支持通用网页采集功能的基础上,实现了上述特色功能,从而能够实现对论坛、博客、新闻评论等内容的及时精确采集,为舆情分析提供了充实的数据基础。

2.  TRS舆情分析模块

在网络舆情分析方面,TRS综合运用大规模文本智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理,TRS舆情分析的特色功能介绍如下。

(1)敏感信息监控和舆情预警

TRS舆情系统可以对以下几种信息进行监控:

1、             特定的人物:主要是国家领导人,以及特定地区或机构的政治人物;

2、             特定的地区:主要是关注的地区,例如北京地区。

3、             特定的机构:主要是各级国家机构,以及特定地区的机构。

4、             特定的类别或事件:主要是用户关注的领域,如政法领域。

TRS舆情分析系统内建了一套较为科学和完整的舆情分类体系,可以对用户关注的敏感信息和国计民生的各个重点领域进行监控,并通过褒贬分析技术发现负面信息,实现对敏感信息的有效监控。与传统的基于关键字的敏感信息监控系统相比,本系统的准确度大大提升。

在舆情分类和褒贬分析基础上,建立多个舆情指标,可以根据舆情指标和舆情分类的结果评估和分析当前的宏观舆情态势,自动给出预警信号,辅助相关人员对舆情进行干预和引导。

(2)热点发现和热点追踪

TRS舆情系统采用基于内容相似的智能分析技术,能够自动识别网络上的热点新闻事件,及时掌控论坛中的交互信息,发现网民的关注焦点和热点。同时利用舆情分类信息,把用户不关注的热点信息过滤掉,提高热点发现的准确性。

    对于热点,TRS舆情系统可以做到持续追踪,并通过传播链分析等技术帮助用户了解热点事件的报道趋势以及来龙去脉,帮助用户更好地对舆情进行研判。

(3)网民观点归纳

TRS采用文本聚类技术和褒贬分析技术,可以对论坛帖子中的网民评论进行聚类分析和褒贬分析,分析和归纳网民的主要观点,并统计网民的褒贬倾向分布情况,帮助用户更准确地了解社情民意。

(4)辅助决策支持

TRS舆情分析系统可以对以上的舆情分析结果生成各种量化的统计图表,给各级政府的决策提供强有力的数据支持。

TRS舆情分析系统提供有效的舆情简报加工工具,可以辅助用户生成各种类型的互联网舆情简报,这些报告不仅提供给上级领导,供决策参考。部分也提供给平行单位,做互联网信息监控分析使用。报告的内容可修改,报告模版可灵活定制。

这些技术为海量信息的存储和检索提供了平台建设的基础。

   



TRS舆情监控系统是一套可配置的软件产品,用户可以根据业务需要自行配置监控对象,维护舆情服务。TRS舆情监控系统适用于各级政府舆情建设,也可以用于大型企业对于自身产品和形象的跟踪监控。目前已经成功应用于北京政法职业学院、上海市委办公厅以及一些大型企业。

没有评论: