基于特征辨别能力和元信息的特征选择.pdf

上传人:595024753 文档编号:57389293 上传时间:2019-05-05 格式:PDF 页数:4 大小:369KB
返回 下载 相关 举报
基于特征辨别能力和元信息的特征选择.pdf_第1页
第1页 / 共4页
基于特征辨别能力和元信息的特征选择.pdf_第2页
第2页 / 共4页
基于特征辨别能力和元信息的特征选择.pdf_第3页
第3页 / 共4页
基于特征辨别能力和元信息的特征选择.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述
1282012,48(7)
Computer Engineering and Applications?计算机工程与应用
基于特征辨別能力和元信息的特征选择
王兴,张文
WANG Xing, ZHANG Wenpeng
南阳师范学院软件学院,河南南阳473061
School of Software, Nanyang Normal University, Nanyang, Henan 473061, China
WANG Xing, ZANG Wenpeng. Feature Selection based on feature distingish ability and meta-information Computer Eg
neering and Applications, 2012, 48(7): 128-131.
Abstract: Feature election is n of the ky e in xt c oiz h e fatu subet irey influences results of ext
cate. The fa u i h a i y a n d quy and m f u i pr d Me-in mm isi
duced in o rouh es and an abue recon a i m ba n ma n p. A comprehensive feaure electn
method is proposed. The comprehensie methd stly uses the feature itin uih ability l au and filter out some term to
nediucethepargiyoffeaturespaces,andthenernploystheprovidedatibutereductionalgorithmtoelininateredtndaneysothathemore
repesntatvefeaturesubeseisoquirelTheexpeninenlrsulteshowthethecomgunehensivemethodinacertainextenthasadvantges
Key words: text categorization; feature selection; meta-informaton; ugh set atribute reduction
要:特征选择是文本分类的关健步環之一,所选特征子集的化拐直接形响文本分类的结果。在分析词频方法和文档频方法
不足的基础上捉出了特征辨別能力,把元信息引入校集并擬出了一个基予元信息的属性约简算法给出了一个综合性特征
卦方法。讓方法利用特征别能力进行特征初选以过澆摔一些词条来降低特征空问的疏性,使用所捉属性约简算法洲除冗
余,从而荻得校具代衰性的特征子集。实验结采衰明:所提特紙选方法在一定程度上具有一定的优势
关键词:文本分类;特征选操;元信息;粗雑築;属性约简
DO1:10.3786is.1002-8331.2012,07.033文章号:1002-8331(2012)07401284文款标识:A中图分类号:TP301
由于空间向量模型简单、易理解,使得它成为文本分类中征a和b的文档频相同,那么该方法认为这两个特征词的贡
常用的文本表示模型。然而,文本转化成空间向量后其维数是相同的,而忽略了它们在文档中出现的次数。但是,通常情
通常巨大,有时甚至多达数十万维,这必然造成文本分类计算况是文档中仅出现次数较少的词是噪声词,这样就导致该方
开销的剧增、分类效率的低下。因此,寻找一个有效的将征法所选择的特征不具代表性。不过,文档频方法最大的优点
选择方法,以对文本特征向量做进一步净化处理,使之在保持就是速度特别快,它的时间复杂度同文本规模成线性关系,非
原文含义的基础上,找出最能反映文本内容、又比较简洁的特常适合于超大规模的文本集的特征选择
征向量四,同时又能提高语义上相关的文本之间的相似度、降
特征的词频( Word Frequency,WF)指的是特征在文档中
低语义上不相关的文本之间的相似度,成为文本分类中亟待出现的数目。使用该方法选择特征时,特征只有在文档中出
解决的问题。
现的次敬达到一个阙值,才被保留,否则予以除。词频的方
为此,论文提出了一个新的特征选择方法,该方法分两步法缺点在于仅选择出现频繁的词作为特征而忽略了特征出现
实现:首先利用所给特征辦别能力进行特征初选以过濋掉一的文档数,但是有时候在某个文档中出现频繁的特征对分类
些词条来降低特征空间的稀疏性,然后利用所提基于元倌息贡献并不大
的属性约简算法消除冗余,从而获得较具代表性的特征子12特征辨别能力
集。论文最后用实验验证了所提特征选择方法的优越性。
经上述分析可知,文档频和词频之问具有校好的互补性,
因此,把它们用某种方式结合起来可以获得更好的效果
1特征辮别能力
定义1具有词频阓值的文档频特征的具有恫频阈值的
1.1词频和文档類单分析
文档频是指在类别C的训练语料集中出现特征∫达到给定词
常用的特征选择方法有词频、文档频、倌息增益、互信息频阓值WF的文档数,可用DFw-(,C)来表示。
等。论文仅简单介绍分析与本文密切相关的词频和文档
该定义含义为:在C类的训练集中统计特征/的文档频
灰,其他请参阅文[5-1?]。
时,先考察特征f在某文档中出现的词频,如果特征出现的次
特征的文档探( Document Frequency,DF)指的是在训练数不小于给定的词频阈值WF,则特征f的文档就加
语集中出现该特征的文档数。如果某个特征在训练语料築
具有词频阈值的文档频虽然克服了词频和文档频的缺
中所在的文档数达到一个事先给定的阈值,则图下该特征,否点,同时又具备文档频的优点,但它也是仅仅对特征进行简单
则将之剧除。该方法仅考虑特征词在文档中出现与否,并不的选择。如果一个特征对某个类贡献较大,那么该特征对这
考虑特征在文档中出现的次数,这就导致了一个问题:如果特个类的文档分辦能力应该较大。为此,论文在具有词频阈值
其金项目:河南省基础与前沿技术研究计划项目(N。.112100410118)。
作者筒介:王兴(1974-),男,副教授,主要研究方向为计算机网络及数据库技术:张文(1972-),男,讲师
收日:2011-10-20;国日期:2011-12-05
万方数据
展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 电子信息


版权所有:www.WDFXW.net 

鲁ICP备14035066号-3