你的位置:
首页
>
IT圈
>
一种改进的SMOTE过采样方法
2024年3月14日发(作者:寇梅风)
一种改进的SMOTE过采样方法
2011年第6期福建电脑145
一
种改进的SMOTE过采样方法
王晓娟1,2
(1.福建师范大学数学与计算机科学学院福建福州350007
2.福建省侨兴轻工学校福建福清350301)
【摘要】:本文在文献[1】的基础上提出了一种改进的SMOTE过采样方法,以少
数类样本为中心向外
扩展,直到遇到多数类样本,以此来确定半径,然后在该范围内进行随机地插值,用
该方法来解决不平衡数
据的分类问题,通过实验表明,该方法是可行的,有效的.
【关键词】:不平衡数据过采样SMOTEkOC
1,引言
目前.不平衡数据集的问题广泛存在于现实生活
中,在不平衡数据集中.某一类样本的数目明显少于其
他类样本的数目.对于不平衡数据集.传统的分类方法
结果明显偏向多数类.而往往少数类却是人们关注的
对象.如把入侵数据当成正常数据来处理,将可能造成
不可挽回的损失因此如何解决不平衡数据的分类问
题成为近年来数据挖掘的一个研究热点.
在本文中.尝试结合启发式和非启发式方法的优
点.对SMOTE方法进行了一定的改进.以提高对不平
衡类数据集的分类精度.本文第2部分对不平衡数据
的分类方法进行了简单的介绍.第3部分对改进的
SMOTE方法进行介绍.第4节对该方法进行实验并对
实验结果进行分析,第5部分进行总结.
2,不平衡数据分类方法的介绍
目前针对不平衡数据集的研究主要集中在以下几
个方面:数据层面(即重采样方法),算法层面(即算法
改进或开发新的算法),数据层面与算法层面的结合方
法(将采样方法与算法相结合)等.
在数据层面方法中分过采样,欠采样,过采样与欠
采样结合.采样方法中.有非启发式采样方法,如:随机
过采样fRandomover-sampling)与随机欠采样(Random
under—sampling).启发式的过采样方法有SMOTE[21,
Han等人在此基础上改进的Borderline—SMOTE网.Hien
等人于2009年改进的BorderlineOver—sampling(BOS)[~
等.启发式的欠采样方法有Tomeklinkst~,CNN[~,NCLm,
OSS(S~,IRUSt91等.而将过采样与欠采样的结合方法有
SMOn£+Tomek【砌,SMOTE+ENN【埘,CE—SMOTE+CE—
Undertnl等.在文献【1】中.通过实验得出一些有益的结
论.综合来讲.过采样方法较其他两种方法具有一定的
优势;而在过采样方法中.随机过采样方法效果较好,
但它具有很大的缺陷.就是容易引起数据过拟合的问
题;其他启发式的过采样方法,如:SMOTE[2],Border.
1ine-SMOTEt3],BOSt4~等方法,在某些数据集上效果良
好.
3,改进的SMOTE过采样方法
随机过采样(Randomover-sampling)方法属于非启
发式采样算法.将原有的样本数据进行随机地复制.因
此并不能增加新的少数类样本.容易导致过拟合现象
的出现,但通过实验我们可以看出.该算法也有自己的
优势所在.而SMOTE(SyntheticMinorityOver—sanl-.
plingTechnique)方法其主要思想是在距离较近的少数
类样本之间进行插值.产生新的少数类样本.增加少数
2024年3月14日发(作者:寇梅风)
一种改进的SMOTE过采样方法
2011年第6期福建电脑145
一
种改进的SMOTE过采样方法
王晓娟1,2
(1.福建师范大学数学与计算机科学学院福建福州350007
2.福建省侨兴轻工学校福建福清350301)
【摘要】:本文在文献[1】的基础上提出了一种改进的SMOTE过采样方法,以少
数类样本为中心向外
扩展,直到遇到多数类样本,以此来确定半径,然后在该范围内进行随机地插值,用
该方法来解决不平衡数
据的分类问题,通过实验表明,该方法是可行的,有效的.
【关键词】:不平衡数据过采样SMOTEkOC
1,引言
目前.不平衡数据集的问题广泛存在于现实生活
中,在不平衡数据集中.某一类样本的数目明显少于其
他类样本的数目.对于不平衡数据集.传统的分类方法
结果明显偏向多数类.而往往少数类却是人们关注的
对象.如把入侵数据当成正常数据来处理,将可能造成
不可挽回的损失因此如何解决不平衡数据的分类问
题成为近年来数据挖掘的一个研究热点.
在本文中.尝试结合启发式和非启发式方法的优
点.对SMOTE方法进行了一定的改进.以提高对不平
衡类数据集的分类精度.本文第2部分对不平衡数据
的分类方法进行了简单的介绍.第3部分对改进的
SMOTE方法进行介绍.第4节对该方法进行实验并对
实验结果进行分析,第5部分进行总结.
2,不平衡数据分类方法的介绍
目前针对不平衡数据集的研究主要集中在以下几
个方面:数据层面(即重采样方法),算法层面(即算法
改进或开发新的算法),数据层面与算法层面的结合方
法(将采样方法与算法相结合)等.
在数据层面方法中分过采样,欠采样,过采样与欠
采样结合.采样方法中.有非启发式采样方法,如:随机
过采样fRandomover-sampling)与随机欠采样(Random
under—sampling).启发式的过采样方法有SMOTE[21,
Han等人在此基础上改进的Borderline—SMOTE网.Hien
等人于2009年改进的BorderlineOver—sampling(BOS)[~
等.启发式的欠采样方法有Tomeklinkst~,CNN[~,NCLm,
OSS(S~,IRUSt91等.而将过采样与欠采样的结合方法有
SMOn£+Tomek【砌,SMOTE+ENN【埘,CE—SMOTE+CE—
Undertnl等.在文献【1】中.通过实验得出一些有益的结
论.综合来讲.过采样方法较其他两种方法具有一定的
优势;而在过采样方法中.随机过采样方法效果较好,
但它具有很大的缺陷.就是容易引起数据过拟合的问
题;其他启发式的过采样方法,如:SMOTE[2],Border.
1ine-SMOTEt3],BOSt4~等方法,在某些数据集上效果良
好.
3,改进的SMOTE过采样方法
随机过采样(Randomover-sampling)方法属于非启
发式采样算法.将原有的样本数据进行随机地复制.因
此并不能增加新的少数类样本.容易导致过拟合现象
的出现,但通过实验我们可以看出.该算法也有自己的
优势所在.而SMOTE(SyntheticMinorityOver—sanl-.
plingTechnique)方法其主要思想是在距离较近的少数
类样本之间进行插值.产生新的少数类样本.增加少数