基于语义的文本过滤系统的设计与实现

作者:晋耀红 来源:计算机工程与应用 2003年 17期 转自:中国知网

全文下载

1 引言

信息技术飞速发展的今天,网络上的信息浩瀚如海,其中充斥着大量的垃圾信息,比如:一些敏感的政治言论,不健康的文章等等。这些垃圾信息潜伏在因特网中,就好比一颗定时炸弹,会侵蚀国人的精神文明建设,并有可能威胁到国家的安全。如何根据需要对这些信息进行自动分类过滤,就成为信息技术领域的热门问题。网络上的信息90%以上都是文本信息,因此文本信息的过滤就成为讨论的焦点。一年一度的文本检索会议TREC(Text REtrieval Conference)就专门设置了文本过滤专题。文本过滤和信息检索应用的技术基本一致。

一般的信息检索模型有三种[Anselm Spoerri 1995]:
(1)布尔检索:利用关键词和简单的布尔运算(与、或)组合检索;
(2)统计检索:有向量空间模型、潜在语义索引、文档聚类等;
(3)基于知识的检索。

目前市场上流行的过滤产品基本上都是采用关键词匹配技术,而TREC文本过滤的主流技术则是统计模型。统计模型主要包括向量空间模型和潜在语义索引两种方法。复旦大学把
词频统计和词性标注结果添加到向量矩阵中,并通过Rocchio-style算法计算训练权值。微软剑桥研究院通过调整Threshold来完成自适应的过滤。Oracle公司利用百科全书进行概念扩充,通过概念匹配完成过滤[S.Robertson 2001]。东北大学利用概念扩充的判决树分流技术提高了文本过滤的效率[林鸿飞 2000]。基于知识的过滤技术相对较少,,Syracuse University 开发的DR LINK 智能检索系统利用LNP技术,根据词法、句法、语义等信息判断文本的相似度,提高了检索的准确率[Anselm Spoerri 1995]。

该文设计实现的文本过滤系统,属于基于知识的过滤,是基于语义的一个商用的文本过滤系统,采用的是一个全新的内容形式化的语义模型———语境框架。该文本过滤系统于2001年12月通过了信息产业部组织的技术鉴定,具有很强的创新性,并正在产品化。

该文将介绍过滤系统的核心———语境框架模型,以及在此基础上的文本相似度计算,最后介绍过滤系统的实现和系统测试结果。
......

5 结束语

在语义分析的基础上进行文本过滤,特别是网络信息过滤,是文本过滤的发展趋势。该文设计实现的过滤系统在测试的网络环境下,在过滤的准确性方面取得了比较令人满意的结果。正如统计模型需要针对不同的领域进行不同的训练,语义分析也需要不同领域的知识库的支撑,该算法的知识库针对以上几个领域已经初具规模,下一步还需要不断地扩充领域,完善知识库,研制面向重要特殊领域的专用系统,比如:法轮功敏感话题的过滤等。

没有评论: