基于特征加权与特征选择的数据挖掘算法研究.pdf

上传人:zhangbaoyuan 文档编号:14551252 上传时间:2019-05-05 格式:PDF 页数:2 大小:1.04MB
返回 下载 相关 举报
基于特征加权与特征选择的数据挖掘算法研究.pdf_第1页
第1页 / 共2页
基于特征加权与特征选择的数据挖掘算法研究.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述
安全型、算法与程
基于特征加权与特征选择的数据挖掘算法硏究
◆孙兴文
(永州职业技术学院湖南425100)
摘要:数据挖掘作为一门]迅速发展的研究领域,面临着越来越多新的问題和挑战。数据挖掘在科技、航空、军事等多个领城得到了广
泛应用,甚至直接决定了行业的发展速度和先进性,但是在实践当中,同样存在许多的问题。本文根据数据挖掘的特性展开分析,以
特征加权与特征选择的方法进行计算
关键词:特征加权;特征选择;数据挖掘;算法
前言
自顶向下的聚类算法运用的是数据投影技术的迭代搜索策
特征加权算法也被称为km算法,就是在挖掘数据的计算当略进行挖掘计算,首先是将整个挖掘数据划分为多个不同的数据
中,集合数据样本权重和特征权重来确定其真实性和准确性。在簇,比如生物学一类、医学一类,每个数据簇都有相同的权值及
定的条件下,能够极大地提高数据分类准确率,但是却改变不不同类型的特征权重。划分好后就能够采用迭代策略对这些初步
了计算机信息技术中的主页和恶意软件问题,也无法进行査验。数据不断更新改良,重新定义数据簇的权重和聚类。当然庞大数
1数据挖掘综迷
据的迭代计算复杂度相当高,所以在计算时通常采用采样以提高
数据挖掘的应用范围较广,不仅是实现数据库知识发现的重其准确性,比如 PROCLUS(普罗克洛斯)、 FINDIT等。运用以
要步骤,还能从众多的数据库当中快速、自动搜索隐藏在庞大数
上计算方式在初始、迭代、改良等阶段的计算有所不同。在初始
据中非常有价值的规律信息,数据挖掘也是一种对某种决策的支数据阶段的计算就是随机抽样,运用数椐的探析策略寻找网格潜
持过程。但随着科技的发展,数据挖掘面临着诸多的挑战,首先在中心集合的超集,只要保证挖掘数据簇中都有一个超集中心点
是数据的挖掘规模越来越大,庞大的数据无法采用有效的办法进即可。而在送代阶段则是从超集当中随机选一个聚类中心,以此
行归纳梳理,也不能更好地管理和运用:其次是随着数据特征的替代当前集合中不好的样本点,以此循环得到更为优质的中心点
维数不断增加,旱现出许多的维数灾难问题:最后是数据挖掘,集,直到每个聚类中心点的集合达到稳定后,再以子空间样本点
特别是计算机信息技术的数据挖据当中,更多的是强调由学科交对聚类中心半均距离做数据簇半径,找到对应特征子集。在改良
叉产生的综合性,在挖掘过程中不仅要求工程技术人员能够设计极端就是将每个数据簇聚类中小再次扫描确定特征子集,并计算
统计、计算机、数学的建模技术,还需要具有生出样本点到中心的曼哈顿距离,去除孤立点后重新划分
物、医学、证券金融等学科的知识背景。这些交叉性、多样化的
2.3模糊加权软子空间聚类算法
学科数据挖掘,不仅需要更为科学有效的管理,还需要对庞大的
上述两种方式是软子空间聚类,而模加权空间聚类算法属
数据流精确的分析方法,尤其是针对高维数据的特征加权和特征
于硬子空间聚类计算,在计算时具有更好的适应性和灵活性。具
选择方法上,同时也要对生物信息学点的交叉性较强的学科的数
体来说就是将挖掘数据集X={x1,x2,x3,X4..xncR,由
据挖掘方式加以提升,提高其数据准确性和科学性,精确数据内软子空间计算出聚类中心V=l,1≤i≤C},C是获得的数据簇的
聚类中心数量,j则表示样本x是属于第j个聚类中心Vⅵ的模糊
本文中主要利用特征加权软、硬空间聚类方式进行计算,并
隶属度,要计算出整个数据集的模糊隶属度矩阵U={ uijlisisc
将特征选择应用到实践当中。尤其是因为数据交叉性强,数量庞
方法会在聚类当中,都会赋予每簇数据特征加权系数。在计算当
大,甚至出现高维数据的现象,以此探讨特征加权和选择的问题,
中用wik表示与某个特征对应的数据簇的重要性,以w米表示数
以及対多学科交叉进行研究探讨。
据集特征加权系数,将相应的特征加权系数和模糊加权指数引入
2基于数据挖堀规模庞大的软子空间聚类算法
软子空间聚类算法主要是将挖掘数据的原始特征空间分为
函数计算公式当中Jrwx=∑∑い4(x-い)。.在计算的过
不同的子区域,站在不同的角度考察各个数据的分类,在分类的程中,只要给定m和相应的数据,就能计算出初始、迭代、改
过程中找到相对应的特征子空间。运用软子空间聚类算法对挖掘良等阶段的数据。比如当m大于1和t大于1时,最小化的FWSC
数据进行计算,实际上就是将传统的特征选择技术和聚类算法进算法的目标函数计算出的模糊求属度。
行有机结合,让每个数据簇都能得到对应的特征子集或者权重,3特征选择算法
以下进行具体分析
特征选择是数据挖掘和机械领域的关键,在挖掘数据数量庞
2.1自底向上子空间聚类算法
大及高维特征时,原有的特征选择方式不能更精确数据。要获得
所谓自底向上子空间聚类算法主要是依照网络e构建密度设有效的数据,就需要在算的框架内有针对性的选择,这就是特
定,利用网络的自底向上的搜索策略将子空间中的数据簇聚拢合征选择。特征选择主要是通过对原始特征空间数据簇进行筛选,
算。这种方式能够将挖掘数据最原始的特征空间分成若干个小网生成策略,然后形成特征子集,对选择的数据进行评价,停止条
格,按照不同的特性将数据簇落到相应的网格样本点,能够准确件选择,最后得出结论等几个步骤。
落到相应网格中的概率,就表示这个子空间的密度状况。当某个
3.1过滤型特征选择方式
网格中的密度超过一定阈值后,需要将子空间作为密集单元保
过滤型特征选择最大的优势是不会依靠相应的分类器材,确
留,对不密集的网格空间直接舍弃,在自底向上的子空间聚类算定时仅靠数据本省的特征,在选择时先假设每个特征都是独立存
法当中是利用熵理论作为密度度量,再通过静态网格进行计算,在的,采用某种搜索方式选择出合理的特征子集。在选择算法当
动态网格査找策略,这样才能够得到更加稳定的划分结果。
中,过滤型是最为简单的,常见的计算方式有 FOCUS、 Relief
2.2自顶向下子空间聚类算法
(下转第77页)
76
万方数括
展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 电子信息


版权所有:www.WDFXW.net 

鲁ICP备14035066号-3