最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

多元统计聚类分析方法实例

IT圈 admin 27浏览 0评论

2024年3月27日发(作者:城雅蕊)

三种系统聚类方法对24款8600GT进行分类

的应用

0082807段超波 0082796童善杰

(江西财经大学信息管理学院08管理科学1班,江西,南昌220032)

摘要:我们知道在SAS系统中提供了很多种系统聚类过程中确定类别与类别之间

距离的方法,像类平均法(AVE)、最短距离法(SIN)、离差平方和法(WARD)、

最长距离法(COM)、重心法(CEN)等,从而影响最终的分类结果。到底哪一种

方法更合理更符合实际呢?通过用类平均法(AVE)、最短距离法(SIN)和离差

平方和法(WARD)3种方法对24款8600GT进行分类,来对比一下这三种方法的

分类效果。

关键词:聚类分析 类平均法 最短距离法 离差平方和法

Three Kinds of Clustering Method in 8600GT Classification of 24 of the

Application

Abstract: we know in the SAS system provides a variety of system clustering process

to determine the distance between classes and category of methods, like Average

linkage (AVE), Single linkage (SIN), WARD (WARD), Complete method (COM),

Centroid method (CEN) etc, thus influence the final classification results. Which

method is more reasonable more accord with actual? Through using class average

method (AVE), Single linkage (SIN) and WARD (WARD), three methods for the 24

8600GT classification, to compare these three methods of classification effect.

Keywords: Cluster Analysis Average linkage WARD Single linkage.

在现实生活中,需要对复杂的对象依据一定的标准进行分类,通常情况下,

人们根据事物现象的一个指标或者某一方面就可以进行分类活动,而实际上,需

考虑的事物或对象不只包含单一指标,因此,很可能还需通过许多侧面或者指标

来进行分类。一般情况下,人们往往可根据事物之间的远近距离来判定类别。个

体与个体之间的距离越近,其相似程度可能也越高,属于同类的可能性越大。有

了一定的分类规则之后,人们可以根据个体与个体之间的距离长短进行分类,首

先把最近的个体分为同类,然后再根据最短距离继续扩大类别所涵盖的范围,知

道把所有个体都分为一个大类为止,类似这样的分类过程称为“系统聚类”。案

例中将要使用聚类方法均属于此类过程。

1 原理和方法

1.1类平均法(AVE)

类平均法是用两类样品两两之间平方距离的平均值的平均值作为类之间的

距离。如

G

p

G

q

两类,可以计算每类中每对样本点之间的平均距离。

1

1

D

pq

N

p

N

q

d(x,y)

推公式决定。

iG

p

iG

q



d(x,x)

ij

xy

2

,则新类

G

n

与其他任意类

G

k

之间的距离系数由递

D

kn

N

p

D

kp

N

q

D

kq

N

n

即在并类过程中,以类别样本点之间的平均距离作为依据并类,直到把所

有样本归为一类。

1.2最短距离法(Single linkage)

如果

G

p

G

q

两类合并为新类

G

n

,在最短距离法中,新类

G

n

与其他任

意类

G

k

之间的距离系数由下列公式决定:

D

kn

D

kp

D

kq

2

D

pq

4

即如果新类与其他类别之间存在多个距离,则取这些距离中最小者作为两类

之间的距离。

1.3离差平方和法(WARD)

离差平方和法的思想来源于方差分析,即如果类分得恰当,同类内样品之间

的离差平方和应较小,而类间的离差平方和应当较大。该法要求样品间距离必须

采用欧氏距离。

2222

离差平方和法定义类间的平方距离为:

D

pq

S

n

S

p

S

q

。其中,

S

n

2

是类

G

p

G

q

合并成的

G

n

类的类内离差平方和。

xy

当观测距离

d(x,y)

时,则新类

G

n

与其他任意类

G

k

之间的距

2

离由下列递推公式决定。

2

D

kn

(N

k

N

p

)D

kp

(N

k

N

q

)D

kq

N

k

D

pq

N

k

N

n

当采用离差平方和法进行分类时,先让每个样品自成一类,然后并类。每并

一类,离差平方和都要增大,选择使其增加最小的两类合并,直到所有的样品归

为一类为止。

这么多种方法都可以对样本数据进行聚类分析,究竟采用哪一种方法最好

2

2024年3月27日发(作者:城雅蕊)

三种系统聚类方法对24款8600GT进行分类

的应用

0082807段超波 0082796童善杰

(江西财经大学信息管理学院08管理科学1班,江西,南昌220032)

摘要:我们知道在SAS系统中提供了很多种系统聚类过程中确定类别与类别之间

距离的方法,像类平均法(AVE)、最短距离法(SIN)、离差平方和法(WARD)、

最长距离法(COM)、重心法(CEN)等,从而影响最终的分类结果。到底哪一种

方法更合理更符合实际呢?通过用类平均法(AVE)、最短距离法(SIN)和离差

平方和法(WARD)3种方法对24款8600GT进行分类,来对比一下这三种方法的

分类效果。

关键词:聚类分析 类平均法 最短距离法 离差平方和法

Three Kinds of Clustering Method in 8600GT Classification of 24 of the

Application

Abstract: we know in the SAS system provides a variety of system clustering process

to determine the distance between classes and category of methods, like Average

linkage (AVE), Single linkage (SIN), WARD (WARD), Complete method (COM),

Centroid method (CEN) etc, thus influence the final classification results. Which

method is more reasonable more accord with actual? Through using class average

method (AVE), Single linkage (SIN) and WARD (WARD), three methods for the 24

8600GT classification, to compare these three methods of classification effect.

Keywords: Cluster Analysis Average linkage WARD Single linkage.

在现实生活中,需要对复杂的对象依据一定的标准进行分类,通常情况下,

人们根据事物现象的一个指标或者某一方面就可以进行分类活动,而实际上,需

考虑的事物或对象不只包含单一指标,因此,很可能还需通过许多侧面或者指标

来进行分类。一般情况下,人们往往可根据事物之间的远近距离来判定类别。个

体与个体之间的距离越近,其相似程度可能也越高,属于同类的可能性越大。有

了一定的分类规则之后,人们可以根据个体与个体之间的距离长短进行分类,首

先把最近的个体分为同类,然后再根据最短距离继续扩大类别所涵盖的范围,知

道把所有个体都分为一个大类为止,类似这样的分类过程称为“系统聚类”。案

例中将要使用聚类方法均属于此类过程。

1 原理和方法

1.1类平均法(AVE)

类平均法是用两类样品两两之间平方距离的平均值的平均值作为类之间的

距离。如

G

p

G

q

两类,可以计算每类中每对样本点之间的平均距离。

1

1

D

pq

N

p

N

q

d(x,y)

推公式决定。

iG

p

iG

q



d(x,x)

ij

xy

2

,则新类

G

n

与其他任意类

G

k

之间的距离系数由递

D

kn

N

p

D

kp

N

q

D

kq

N

n

即在并类过程中,以类别样本点之间的平均距离作为依据并类,直到把所

有样本归为一类。

1.2最短距离法(Single linkage)

如果

G

p

G

q

两类合并为新类

G

n

,在最短距离法中,新类

G

n

与其他任

意类

G

k

之间的距离系数由下列公式决定:

D

kn

D

kp

D

kq

2

D

pq

4

即如果新类与其他类别之间存在多个距离,则取这些距离中最小者作为两类

之间的距离。

1.3离差平方和法(WARD)

离差平方和法的思想来源于方差分析,即如果类分得恰当,同类内样品之间

的离差平方和应较小,而类间的离差平方和应当较大。该法要求样品间距离必须

采用欧氏距离。

2222

离差平方和法定义类间的平方距离为:

D

pq

S

n

S

p

S

q

。其中,

S

n

2

是类

G

p

G

q

合并成的

G

n

类的类内离差平方和。

xy

当观测距离

d(x,y)

时,则新类

G

n

与其他任意类

G

k

之间的距

2

离由下列递推公式决定。

2

D

kn

(N

k

N

p

)D

kp

(N

k

N

q

)D

kq

N

k

D

pq

N

k

N

n

当采用离差平方和法进行分类时,先让每个样品自成一类,然后并类。每并

一类,离差平方和都要增大,选择使其增加最小的两类合并,直到所有的样品归

为一类为止。

这么多种方法都可以对样本数据进行聚类分析,究竟采用哪一种方法最好

2

发布评论

评论列表 (0)

  1. 暂无评论