2024年4月1日发(作者:硕子珍)
判别分析
一、理论部分
(一)判别分析概述
判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为
未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及
经济管理学科中都有广泛的应用。
1.什么是判别分析
所谓的判别分析是根据观测到的某些指标对所研究的对象进行分类的一种
多元统计分析方法。判别分析在主要目的是识别一个个体所属类别的情况下有着
广泛的应用。潜在的应用包括预测产品的成功或失败,决定学生是否别录取,按
职业兴趣对学生分组,确定某人信用风险的种类,预测一个公司是否成功。这些
都可以通过判别分析来实现。
2.判别分析的特点
判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,
总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,
只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
3.判别分析用用的领域
判别分析的应用领域非常广泛,例如:
(1)用户和非用户;
(2)经常购买者和非经常购买者;
(3)新用户、流失用户和忠实用户;
(4)忠诚用户和非忠诚用户;
(5)新产品早期使用者和后期使用者;
(6)消费者心目中喜欢的品牌和不喜欢的品牌;
(7)消费者对我们的品牌和竞争品牌的不同属性偏好;
(8)偏好图;
(9)市场细分;
(10)新产品开发等;
4.判别分析与聚类分析的比较
判别分析和聚类分析是不同的,很多人不知道两者的区别,为更好阐明两者的区
别在此做出比较:
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的
分析过程。
(1)基本思想不同
聚类分析的基本思想。我们所研究的样品或指标( 变量) 之间存在程度不同
的相似性( 亲疏关系) , 于是根据一批样品的多个观测指标, 具体找出一些能
够度量样品或指标之间相似程度的统计量, 以这些统计量作为划分类型的依据。
把一些相似程度较大的样品( 或指标) 聚合为一类, 把另外一些相似程度较大
的样品( 或指标) 又聚合为另一类; 关系密切的聚合到一个小的分类单位, 关
系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕。
判别分析的基本思想对已知分类的数据建立由数值指标构成的分类规则即
判别函数, 然后把这样的规则应用到未知分类的样本去分类。由基本思想可知,
在聚类分析中, 所有样品或个体所属类别是未知的, 类别的个数一般也是未知
的, 分析的依据就是原始数据, 没有任何事先的有关类别的信息可参考。
(2)对数据的要求不同
聚类分析并不熟一种纯粹的统计技术,其方法基本上与分布理论和显著性检
验无关一般不从样本推总体。在实际应用中,研究者实际上是将手中的数据视为
总体。与其说聚类分析是一种假设检验的方法,不如说它是建立假设的方法。
在判别分析中对于分布理论非常关注每一个类别都应取自一个多元正态总
体的样本,而且所有总体的协方差矩阵或相关矩阵假定都是相同的。如果不满足
正态总体的假定,则需要对非正态化数据作正态化变换;如果不满足协方差矩阵
相同的规定,则可能要采用非线性的判别函数,例如:二次判别函数等。
(3)使用目的不同
聚类分析一般比较适用于变量(样品)存在相关性的情况,如果所有变量(样
品)均不相关的话,那么聚类的结果将会非常差.
判别分析适用于分类数据的分析,及存在某一个变量描述的是样品属于哪个类.
2024年4月1日发(作者:硕子珍)
判别分析
一、理论部分
(一)判别分析概述
判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为
未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及
经济管理学科中都有广泛的应用。
1.什么是判别分析
所谓的判别分析是根据观测到的某些指标对所研究的对象进行分类的一种
多元统计分析方法。判别分析在主要目的是识别一个个体所属类别的情况下有着
广泛的应用。潜在的应用包括预测产品的成功或失败,决定学生是否别录取,按
职业兴趣对学生分组,确定某人信用风险的种类,预测一个公司是否成功。这些
都可以通过判别分析来实现。
2.判别分析的特点
判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,
总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,
只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
3.判别分析用用的领域
判别分析的应用领域非常广泛,例如:
(1)用户和非用户;
(2)经常购买者和非经常购买者;
(3)新用户、流失用户和忠实用户;
(4)忠诚用户和非忠诚用户;
(5)新产品早期使用者和后期使用者;
(6)消费者心目中喜欢的品牌和不喜欢的品牌;
(7)消费者对我们的品牌和竞争品牌的不同属性偏好;
(8)偏好图;
(9)市场细分;
(10)新产品开发等;
4.判别分析与聚类分析的比较
判别分析和聚类分析是不同的,很多人不知道两者的区别,为更好阐明两者的区
别在此做出比较:
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的
分析过程。
(1)基本思想不同
聚类分析的基本思想。我们所研究的样品或指标( 变量) 之间存在程度不同
的相似性( 亲疏关系) , 于是根据一批样品的多个观测指标, 具体找出一些能
够度量样品或指标之间相似程度的统计量, 以这些统计量作为划分类型的依据。
把一些相似程度较大的样品( 或指标) 聚合为一类, 把另外一些相似程度较大
的样品( 或指标) 又聚合为另一类; 关系密切的聚合到一个小的分类单位, 关
系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕。
判别分析的基本思想对已知分类的数据建立由数值指标构成的分类规则即
判别函数, 然后把这样的规则应用到未知分类的样本去分类。由基本思想可知,
在聚类分析中, 所有样品或个体所属类别是未知的, 类别的个数一般也是未知
的, 分析的依据就是原始数据, 没有任何事先的有关类别的信息可参考。
(2)对数据的要求不同
聚类分析并不熟一种纯粹的统计技术,其方法基本上与分布理论和显著性检
验无关一般不从样本推总体。在实际应用中,研究者实际上是将手中的数据视为
总体。与其说聚类分析是一种假设检验的方法,不如说它是建立假设的方法。
在判别分析中对于分布理论非常关注每一个类别都应取自一个多元正态总
体的样本,而且所有总体的协方差矩阵或相关矩阵假定都是相同的。如果不满足
正态总体的假定,则需要对非正态化数据作正态化变换;如果不满足协方差矩阵
相同的规定,则可能要采用非线性的判别函数,例如:二次判别函数等。
(3)使用目的不同
聚类分析一般比较适用于变量(样品)存在相关性的情况,如果所有变量(样
品)均不相关的话,那么聚类的结果将会非常差.
判别分析适用于分类数据的分析,及存在某一个变量描述的是样品属于哪个类.