一个基于语境框架的文本特征提取算法

作者:晋耀红 苗传江 来源:计算机研究与发展 2004年 04期 转自:中国知网

下载全文

摘要

介绍了一种新的文本语义形式化模型———语境框架。语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架。在语境框架的基础上 ,设计实现了文本特征提取算法。算法从语义入手,实现了4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断。算法可以有效地处理语言中的褒贬倾向、同义、多义等现象,实际应用中表明具有很好的信息抽取能力。
......

4 算法应用与测试结果

该算法已经应用于一个商用的网络信息过滤系统,主要对用户过滤要求和待过滤文本进行特征提
取,然后计算相似度,决定是否过滤。该系统的工作流程为
(1)接收用户的过滤要求,进行特征提取,得到过滤规则。过滤规则就是语境框架。

(2)对网络文本进行特征提取,得到语境框架。

(3)比较过滤规则和文本语境框架的相似度决定是否实施过滤。

该过滤系统于2001年12月由信息产业部太极联合实验室对其性能进行了测试。测试内容为根据用户以自然语言输入的过滤要求,对网络上的HTML页面进行语义过滤,测试结果为
(1)输入自然语言形式的过滤要求78句,规则执行率(即用户要求提取准确率)为86%。

(2)在因特网上实时选取内容13006条,测试过滤性能(即文本特征提取的性能和相似度计算的性能)。结果:漏滤率为2.1%,误滤率为8.2%,能够根据语义进行过滤。

分析测试结果可知,算法在测试的环境和领域下,可以将过滤准确性提高到80%以上,比统计方法(VSM, LSI)的30%左右[3]有了大幅度的提高这主要是采用了语义分析,减少了大量的同义和多义现象的原因。由于系统考虑了对象间的语义关系和对象间的褒贬立场关系,因此它也优于用百科全书进行概念扩充的特征提取算法。

由于语义分析需要动态构造和维护语境框架,因此算法的执行效率不如以词频为基础的VSM统计模型。但是可以通过改进和裁减语义分析算法,来提高算法的效率。

没有评论: