最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

知识获取——数据离散与特征提取

IT圈 admin 15浏览 0评论

2024年4月8日发(作者:厍晴雪)

2.知识获取

2.2 数据离散与特征提取

目前,常用的离散化算法有等距离划分法、等频率划分法、基于条件信息熵

的方法等。

2.2.1 数据离散

(1) 等距离划分算法(Equal Interval Width)。这种算法是根据用户给定的

维数(要离散化的类数),将每个属性划分为属性值距离相等的断点段,每个段

中的属性值个数不相等。假设某个属性的最大值为

x

max

,最小值为

x

min

,用户给

定的维数为k,则断点间隔δ=(

x

max

-

x

min

)/k,得到的断点为

x

min

+ iδ

i=0,1,…,

k。

(2) 等频率划分算法(Equal Frequency Interval)。这种算法首先将某属性

值按从小到大的顺序排列,然后根据用户给定的参数k把这些属性值分成k段,

每一段中属性值的个数相同,则最后的断点集也可相应获得。

(3)Naive Scaler算法。Naive Scaler算法如下:

对于信息表条件属性集C中的每一个属性a进行如下过程:

步骤1:按a(x)的值,从小到大对实例x进行排序,其中

xU

步骤2:从排序后的实例集头部开始扫描,令

x

i

代表当前实例:

如果

a(x

i

)a(x

i1

)

,则继续扫描;

如果

d(x

i

)d(x

i1

)

,则继续扫描,其中d为决策属性

否则,得到新的断点c,

c(a(x

i

)a(x

i1

))/2

步骤3:结束。

该算法为“逐步增加断点算法”。

(4)Semi Naive Scaler算法。Semi Naive Scaler算法是对Naive Scaler算法

的一种改进算法,它通过对Naive Scaler算法获得的每个候选断点进行进一步处

理来决定是否采用此断点,具体处理方法如下:

假设c代表属性a的一个候选断点,

x

i

x

j

是断点c的两个相邻的属性值,

D

i

代表

x

i

所属的等价类所对应的决策中出现频率最高的决策值且

x

i

c,x

j

c

的集合,如果有两个以上的决策值出现的频率相同,则

D

i

1

;如果

D

i

D

j

D

j

D

i

,则不选取该断点;否则,选取该断点。

由此可见,Semi Naive Scaler算法所得到的断点去掉了Naive Scaler算法所

得到断点中一些不必要的断点,得到了更少的断点数。

(5)自组织竞争人工神经网络(Kohonen)算法。

S

1

×R

P

R×1

IW

1,1

a

1

n

1

||ndist||

S

1

×1

+C

S

1

×1

R×1

1

R

b

1

S

1

×1S

1

图2-1 自组织竞争神经网络结构

自组织竞争人工神经网络的结构如图2-1所示。其中的||ndist||用来计算网络

输入

P

和权值

IW

1,1

的距离,它的输出是

S

1

维的向量,其中的每个元素是输入向量

与权值矩阵各行向量

i

IW

1,1

的距离并取负号,即

||ndist|| =-||

i

IW

1,1

P

|| (2.1)

竞争神经元的输入

n

1

是||ndist||的输出向量与阀值向量

b

1

的和,当网络的阀值

为0,并且输入

P

与权值

IW

1,1

完全相等时,

n

1

取得最大值0。而在网络输出的

S

1

维向量中,只有对应

n

1

中最大元素

n

i

1

的相应元素

a

i

1

的值为1,其余元素的值均

为0,这说明网络中的第i个神经元在竞争中取得了胜利。

Kohonen训练规则的目标是调整网络获胜神经元的权值,即网络权值矩阵中

的某一个行向量的值。假设第i个神经元对第q个输入向量获胜,那么对应的权

值调整公式如下:

i

IW

1,1

q

i

IW

1,1

q1

p

q

i

IW

1,1

q1

(2.2)

所以距离某个输入向量最近的权值向量得到的调整使它更加接近于该输入

向量。这样,当网络下次输入相似的向量时,该神经元就很可能在竞争中取得胜

利。如此反复地进行下去,网络中的各神经元就会响应某一部分输入向量,在它

们作为输入的时候,网络相应的输出就为1,从而实现了分类的目的。文献提出

了采用Kohonen网络对属性进行离散化处理的方法,该方法在离散过程中只需

2024年4月8日发(作者:厍晴雪)

2.知识获取

2.2 数据离散与特征提取

目前,常用的离散化算法有等距离划分法、等频率划分法、基于条件信息熵

的方法等。

2.2.1 数据离散

(1) 等距离划分算法(Equal Interval Width)。这种算法是根据用户给定的

维数(要离散化的类数),将每个属性划分为属性值距离相等的断点段,每个段

中的属性值个数不相等。假设某个属性的最大值为

x

max

,最小值为

x

min

,用户给

定的维数为k,则断点间隔δ=(

x

max

-

x

min

)/k,得到的断点为

x

min

+ iδ

i=0,1,…,

k。

(2) 等频率划分算法(Equal Frequency Interval)。这种算法首先将某属性

值按从小到大的顺序排列,然后根据用户给定的参数k把这些属性值分成k段,

每一段中属性值的个数相同,则最后的断点集也可相应获得。

(3)Naive Scaler算法。Naive Scaler算法如下:

对于信息表条件属性集C中的每一个属性a进行如下过程:

步骤1:按a(x)的值,从小到大对实例x进行排序,其中

xU

步骤2:从排序后的实例集头部开始扫描,令

x

i

代表当前实例:

如果

a(x

i

)a(x

i1

)

,则继续扫描;

如果

d(x

i

)d(x

i1

)

,则继续扫描,其中d为决策属性

否则,得到新的断点c,

c(a(x

i

)a(x

i1

))/2

步骤3:结束。

该算法为“逐步增加断点算法”。

(4)Semi Naive Scaler算法。Semi Naive Scaler算法是对Naive Scaler算法

的一种改进算法,它通过对Naive Scaler算法获得的每个候选断点进行进一步处

理来决定是否采用此断点,具体处理方法如下:

假设c代表属性a的一个候选断点,

x

i

x

j

是断点c的两个相邻的属性值,

D

i

代表

x

i

所属的等价类所对应的决策中出现频率最高的决策值且

x

i

c,x

j

c

的集合,如果有两个以上的决策值出现的频率相同,则

D

i

1

;如果

D

i

D

j

D

j

D

i

,则不选取该断点;否则,选取该断点。

由此可见,Semi Naive Scaler算法所得到的断点去掉了Naive Scaler算法所

得到断点中一些不必要的断点,得到了更少的断点数。

(5)自组织竞争人工神经网络(Kohonen)算法。

S

1

×R

P

R×1

IW

1,1

a

1

n

1

||ndist||

S

1

×1

+C

S

1

×1

R×1

1

R

b

1

S

1

×1S

1

图2-1 自组织竞争神经网络结构

自组织竞争人工神经网络的结构如图2-1所示。其中的||ndist||用来计算网络

输入

P

和权值

IW

1,1

的距离,它的输出是

S

1

维的向量,其中的每个元素是输入向量

与权值矩阵各行向量

i

IW

1,1

的距离并取负号,即

||ndist|| =-||

i

IW

1,1

P

|| (2.1)

竞争神经元的输入

n

1

是||ndist||的输出向量与阀值向量

b

1

的和,当网络的阀值

为0,并且输入

P

与权值

IW

1,1

完全相等时,

n

1

取得最大值0。而在网络输出的

S

1

维向量中,只有对应

n

1

中最大元素

n

i

1

的相应元素

a

i

1

的值为1,其余元素的值均

为0,这说明网络中的第i个神经元在竞争中取得了胜利。

Kohonen训练规则的目标是调整网络获胜神经元的权值,即网络权值矩阵中

的某一个行向量的值。假设第i个神经元对第q个输入向量获胜,那么对应的权

值调整公式如下:

i

IW

1,1

q

i

IW

1,1

q1

p

q

i

IW

1,1

q1

(2.2)

所以距离某个输入向量最近的权值向量得到的调整使它更加接近于该输入

向量。这样,当网络下次输入相似的向量时,该神经元就很可能在竞争中取得胜

利。如此反复地进行下去,网络中的各神经元就会响应某一部分输入向量,在它

们作为输入的时候,网络相应的输出就为1,从而实现了分类的目的。文献提出

了采用Kohonen网络对属性进行离散化处理的方法,该方法在离散过程中只需

发布评论

评论列表 (0)

  1. 暂无评论