一种基于特征聚类的特征选择方法.pdf

上传人:090208026 文档编号:98866728 上传时间:2019-05-05 格式:PDF 页数:4 大小:1.03MB
返回 下载 相关 举报
一种基于特征聚类的特征选择方法.pdf_第1页
第1页 / 共4页
一种基于特征聚类的特征选择方法.pdf_第2页
第2页 / 共4页
一种基于特征聚类的特征选择方法.pdf_第3页
第3页 / 共4页
一种基于特征聚类的特征选择方法.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述
第32卷第5期
计算机应用研
2015年5月
pplication Researeh of Com puters
May 2015
种基于特征聚类的特征选择方法
正连喜,蒋感益
(1.广东外语外贸大学图书馆,广州510420:2.语言工程与计算广东省社会科学重点实验室,广州510006;
广东外语外贸大学思科信息学院,广州51000
摘要:特征选择是数据挖和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了
种特征平均相关度的度量方法,并在此基融上提出了一种基于特征聚类的特征选择方法FSFC。该方法利用聚
类算法在不同子空间中披索簇群,使具有較强依赖关系(存在冗余性)的特征被划分到同一个簇群中,然后从每
个簇群中挑选具有代表性的子集共同构成特征子集,最终达到去除不相关特征和冗余特征的目的。在UCI数
捂集上的实验结果表明,FSFC方法与几种经典的有监督特征选择方法具有相当的特征约减效果和分类性能。
关鍵词:特征选择;特征聚类;相关度;无监督学习
中图分类号:IP181
文献标志码:A
文章编号:1001-3695(2015)05-1305-04
doi:10.3969/j.1isn.1001-3695.2015.05.006
Novel feature selection method based on feature clustering
WANG Lian-xi".ANG Sheng-yi
(1. bra, Guongdong n of e, G 10420 hn .i Scene e to of anguage ng n
Comung un ong Pr, n 510006, n 3. l of Infomat s, Gungdong Universiy of Foreign Sues
Guangzhou 510006, China
Abstract Feature selection has become a very useful pre-processing technology in data mining and machine learning. TH
papcr proposed a mcan-similarity measure and a new fealure selection Nethod based on Feature clustering(named FSFC)ir
the unsupervised learning. Firstly, the method divided the entire feature space into a set of homogeneous subspaces when a
clustering algorithm was used lor the full fealure sel. Then it formed the final fealure sel by seeting some represcnlalive fea
tures from each cluster. At last, it removed the irrelevant and redundant features. Experimental results on UCI datasets show
that the performance of imensionality reduction and classification with C4. 5 and naive Bayes obtained by ISIC is close to the
several states of art supervised feature selection algorithms
Key words: fcalurc seletion; fcalurc clustering; similarily; unsupervised learning
人信息压缩指标来度量两个随机变量的相似度,并以此为依据
0引言
对特征集进行聚类,然后在聚类结果中选出具有代表性的特征
特征选择作为数据挖批和机器学习领域中的主要预处理組成特征了集。该方法十分经央,但足需要个指定的期望持
技术,已经成为了广人学者研究的重要课题之一,予产生:了许
征个数参数K,而且该方法对不同的K值也比较感。 Inco等
多有价值的成果。这些成果中的大多数研究都产生」有监督
人5则依据特征之的相关关系对特征全集进行分层聚类,然
的学习环境中,前对丁无监督学」环境下的特征选择研究姒显斤利川包装方法从每个簇中选择出最佳的特征组成最终的特征
得较为薄弱121。其原因在j:a)无监督特征洮择研究是在无集。虽然该方法不要调整任何参数,但是包装方法的引入
既增加了时问开销义加人了学习算法的偏置。 Witten等人?将
先验知识的指导下进行的,不利」评价特征的价值;b)无监督
稀疏K- neans和分层聚类构成·种征粲类框架,该框架畄先
的特征选择研究充满了较多的不确定性,得到的结果往难以、将特社全集进行聚类并划分成多个特征簇,然后利用1aso型
被解释和验证。
惩罚因子在每个簇中选择出具有代表性的特征构成最终的特征
聚类是无监督学习环境下的一种常用数据分析方法,其目子集。1m等人”在有监督学ゾ环境下采用凝聚层次聚类算法
的旨在依据相互之间的依赖稈度対数据进行划分,从而帮助人对特征集进行划分,然后通过厶除各个特征簇中与类別距离较
们准确分析和提取藏在数塄中的潜在规律或模式。根据这一远的特征的方式形成最终的特征子集。ho等人3以最人信
京理,可以使用漿类算法将具有较人依关系(兀余度高)的特息系数为特征相关性的度量指标对特征集进行仿射传播聚类,
征聚集到起。实际上,口前已有许多特征选择方法是在特征然后从每个簇中选取质心作为该簇的代表性特征。最近,Ban-
聚类的基础上展开研究的。代表性成果有:Mita等人4使用最 dyopadhyay等人?提出了一种融合特征聚类与密集了图发现的
收稿日期:2014-04-04;修回日期:2014-06-16基金项目:国家自然科学基金资助项月(6120271);国家社会科学基金资助项
(13C.130):国家教育部人文社会科学资助项目(14YJC870021);广东省自然科学基金资助项目(S2012040007184);广东省普通高校科技创新资
助项目(2012 KCX0049,2013KUCX0069);广东省科技计划资助项目(2012BO31400016)
作者简介:王连喜(1985-),男,湖南常宁人,硕士,主要研究方向为数据挖与自然语言处理( wanelianxi22008200(0126.cwm);蒋盛益(1963-),男
湖南隆回人,教授,硕导,溥士,主要研究方向为数据挖掘与自然语言处理
展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 电子信息


版权所有:www.WDFXW.net 

鲁ICP备14035066号-3