2024年10月7日发(作者:富察以莲)
基于文本挖掘的投诉热点智能分类
夏海峰;陈军华
【摘 要】投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起
到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时
间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模
型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够
有效地进行投诉文本分类.
【期刊名称】《上海师范大学学报(自然科学版)》
【年(卷),期】2013(042)005
【总页数】6页(P470-475)
【关键词】文本挖掘;智能分类;投诉
【作 者】夏海峰;陈军华
【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息
与机电工程学院,上海200234
【正文语种】中 文
【中图分类】TP391.4
手机通话、短信、网络GPRS等服务作为电信行业的基本服务,时刻与用户紧密
联系着,提高服务质量任重而道远.首先从管理流程上来讲,目前客户投诉分析面
临很多挑战:投诉内容难分析.信息量大、非结构化,文本内容难分析,需要人工
逐条查阅,工作繁琐且效率低下;投诉点多难聚焦.仓库管理系统(WMS)中对投诉
分类固定粗放投诉散点多,投诉管理人员无法对投诉进行统一归类集中分析,只能
逐条分析.优化抓手难获取.对投诉原因分析少,无法及时了解客户对服务和产品
的不满意原因,造成对产品服务优化工作抓手获取难等.这些问题都影响了客户投
诉分析的质量.
为了解决这些问题,引入文本挖掘的理念和方法,探索了一套基于投诉文本的数据
挖掘模型,提出了投诉热点智能分类的概念,在原有的导航分类的基础上,利用投
诉文本数据,根据文本挖掘[1]的相关概念,采用SVM算法[2]、统计学知识,
最终创建投诉导航树.因为投诉分类种类过多,分词部分以“费用”相关投诉文本
为例,进行相应的研究工作.
1 相关概念
文本数据挖掘(Text Mining)[3]是指从文本数据中抽取有价值的信息和知识的计
算机处理技术.顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data
Mining).从这个意义上讲,文本数据挖掘是数据挖掘的一个分支.文本数据挖掘
是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成.文
本挖掘的关键技术主要包括以下几点:
(1)信息抽取.信息抽取是从自然语言文本中抽取预先指定的实体、关系、事件等
信息,形成结构化的数据并填入数据库的过程.信息抽取常用于改善信息检索,帮
助用户直接定位所需的信息,无需阅读文档的全部内容.
(2)文本分类.文本分类是利用计算机对文本集(或其他实体或物件)按照预先定义的
分类体系或标准进行自动分类标记.文本分类是采用基于主题对文档按主题进行自
动归类.投诉热点模型是基于主题的应用.
(3)文本聚类.文本聚类是基于“同类的文档相似度较大,而不同类的文档相似度
较小”理论,假设对文档集合进行有效地组织、摘要和导航,方便人们从文档集中
发现相关的信息.
(4)关联规则.关联规则是描述一个事物中某些属性同时出现的规律和模式.它的
核心是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和
特征项所隐含的寓意,藉此可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在
的有用的信息.
2 基于文本挖掘的文本分类过程和关键技术
2.1 投诉热点智能分类整体流程
选取最近1000条投诉分类文本作为模型的基础,按顺序进行3个阶段(图1)的操
作:预处理阶段、文本表达阶段、知识挖掘阶段,经过这3个阶段的处理之后,形
成最终的导航参考分类模型.
图1 投诉监控热点智能分类操作流程图
2.2 文本预处理
文本预处理的文档来源于客户投诉文本内容.投诉文本内容是典型的非结构化或半
结构化的数据,缺乏关系数据库中数据的结构化和组织性.因此,要对原始文档进
行预处理,使其转化为较为规整且能反应文档内容的特征表示.做简单的文档说
明:(a)整理已有的投诉文本内容;(b)提取投诉原因的分类;(c)信息训练集和测试集;(d)
进行特征选取,信息待分类投诉文本.
2.3 文本表达
文本表达的过程主要是对预处理出来的文档进行词法的分割、划分,最终提取出关
键词字段,具体的过程主要包含以下4个方面:
2.3.1 中文分词
中文分词指的是将一个汉字序列切分成一个一个单独的词.中文分词是文本挖掘的
基础,其处理过程就是分词算法,对于输入的一段中文,进过分词之后,能够达到
被电脑自动识别语义的效果.在中文分词阶段,作者采用的是中国科学技术研究所
研制的汉语词法分析系统(ICTCLAS)[4],具体的操作由以下几个部分构成:
(a)词典配置.配置用户字典文件userdict.txt和系统配置文件Configure.xml.
(b)结果验证.通过分割一段文字,来实际检验效果.“用户来电反映,之前通过
上海市世纪联华服务充值50元,但现用户发现未到账 .”,最后可划分为:“用
户/来电/反映,之前/通过/上海市/世纪联华/服务/充值/50元,但/现用户/发现/
未到账”.
(c)模型演练.通过对1000条投诉文本的演练,将经过分词处理的文本,进行统
计、汇总.去除其中部分特殊”高频“,主要包括常见的结构助词等等;同时去除
词频很小的一些划分词.通过以上方法获得了2000多个关键词,再通过人工的干
预,将具有相同意义的词语进行组合、合并,最终得到了897个的关键词.
2.3.2 权重赋值
TF-IDF(term frequency-inverse document frequency)[5-7]是一种用于信
息搜索和信息挖掘的常用加权技术.TF-IDF的主要思想是:如果某个词或短语在一
篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具
有很好的类别区分能力,适合用来分类.TF词频(Term Frequency)指的是某一个
给定的词语在该文件中出现的次数.IDF反文档频率(Inverse Document
Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有
很好的类别区分能力.
(a)计算词频.通过对897个关键词的词频的统计(公式1).
得到了每个关键词的TF值(如图2),TF值越大的话,也就说明了该词在文本中出
现的次数越多,也就意味着该词更加能代表文本所要表达的意思.
图2 关键词对应TF的值
(b)计算逆文档频率.选取1000条投诉文本的记录内容作为语料库(corpus),来
模拟出语言的使用环境,采用如下公式进行计算(公式2):
如果1个词语越常见,那么分母就越大,逆文档频率就越小越接近0.通过对897
个关键词的词频的统计(图3),计算出对应的IDF的值作为统计的依据.
(c)计算TF-IDF.TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言
中的出现次数成反比(公式3).所以,自动提取关键词的算法就是计算出文档的每
个词的TF-IDF值,然后按降序排列,取排在最前面的几个词(图4).
图3 关键词对应的IDF的值
图4 关键词对应的TF-IDF的值
2.3.3 特征选取
根据生成的TF-IDF排列倒序表,用尽可能少的词语表示文本,要求尽可能减少语
义丢失,能够将不同语义的文本区分开来.从训练集中初步梳理出各类别对应的特
征词,合并同义词.通过训练模型,测试集测试结果,调整特征词.在调整的过程
中主要注意以下两点:(a)消除没有区分度的特征词;(b)调整容易混淆的类.
最终给每个特定的类别定义其关键字,来加以区分(表1).
表1 不同类别的区分投诉类别1 投诉类别2 投诉类别3关键词 同义词基础通信
G3上网本上网问题 G3上网本无法上网 上网本/无法/慢 失败,不可,不行使用,
连接,登陆基础通信 G3上网本上网问题 G3上网本上网速度慢 上网本/上网/慢
速度,上网,页面很卡,困难
2.4 知识挖掘
知识挖掘的过程主要进行的是对分词出来的结果进行分类,形成具有区分度的不同
投诉类别.
2.4.1 LIBSVM 模型训练
LIBSVM[8]是台湾大学林智仁副教授等开发设计的一个简单、易于使用和快速
有效的SVM模式识别与回归的软件包.利用开源分类工具-LIBSVM,核函数采
用RBF函数进行模型训练,最后训练得到的模型文件*.range、*.model文件,
并且创建类别代码维表(表2),由于篇幅问题,只取其中的2条分类路径加以说明.
表2 类别代码维表投诉类别1 投诉类别2 投诉类别3预测码基础通信 G3上网本
上网问题 G3上网本上网信号差464基础通信 G3上网本上网问题 G3上网本无法
上网456
2.4.2 对新增投诉文本进行权值赋值和特征表示
新增的投诉文本(格式:投诉编号-投诉内容)进行相应的分词、权值赋值特征表示之
后,输入到LIBSVM软件之中进行比对,进行模型的预测和类别的输出(表3).
表3 测试文本输出结果预测编码 编号待分类投诉文本464 2012-06-17-2184
用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承认有问题,但无
法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快解决.456
2012-06-29-1517 用户来电反映所在地段无法连接上网,要求上门检测,请
查证并处理,谢谢!
2.4.3 预测类别与文本对应
将类别编码维表和测试文本输出结果表按照预测结果进行对应,将测试投诉文本对
应到3层投诉类别(表4).
表4 测试文本分类结果预测码 编号 投诉内容 第一层 第二层 第三层464 2012-
06-17-2184用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承
认有问题,但无法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快
解决.基础通信G3上网本上网问题G3上网本上网问题456 2012-06-29-
1517用户来电反映所在地段无法连接上网,要求上门检测,请查证并处理,谢谢!
基础通信G3上网本上网问题G3上网本无法上网
3 实验结果检测与分析
3.1 评估指标选择
目前有多种方法来评估文本挖掘,下面列出几种比较公认的评估方法和指标(表5).
表5 检测指标指标计算方法分类正确率 计算文本样本与待分类文本的概率得出分
类正确率查准率 正确分类的对象所占对象集的大小查全率 集合中所含指定类别的
对象数占实际目标类中对象数的比例F-score 查准率和查全率的调和均值(查全率
*查准率)/[(查全率+查准率)/2]
分类正确率主要针对分词技术,投诉热点智能分类采用的是目前普及率和好评率较
高的开源分词系统,因此不考虑分类正确率指标.同时,投诉热点模型主要创造并
演进了分类算法,在分类算法中不考虑查全率指标(查全率默认为100%),因此模
型的评估主要采用了查准率的指标(公式4).
Pi为正确分类的导航量,Bi为错误分类的导航量.
3.2 统计结果
采用本文作者所阐述的方法对不同类型的投诉文本进行处理,形成的三级导航路径,
将其与人工分类导航进行比对,进行准确率的统计(表6).
表6 准确率统计分类器 涵盖样本/% 准确率/%宽带882信号 15 80地址 9 89上
网 15 78订购 20 76费用 15 90其他样本 26 75总计98.8 81.4
4 结语
投诉热点智能监控模型主要应用了文本挖掘中的两类核心技术:文本分词技术和分
类技术.通过文本挖掘技术,以达到将投诉文本智能分类的目的.通过一个类型的
投诉导航文本的计算,已完成模型的生成,又随机取出几个投诉文本来进行检测,
说明了该方法的有效性,最后统计出了不同类型分类下的准备率.
常见的分类方法包括:最邻近分类(KNN)、特征选择方法、贝叶斯分类、支持向量
机(SVM)和基于关联的分类.着重讲述了基于SVM的文本分类的方法,在后期的
实践过程中,将综合其余的几种常见文本分类方法进行相关性的研究,不断地优化
当前设计模型,以达到更好的分类效果.
参考文献:
[1]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
[2]方辉,王倩.支持向量机的算法研究[J].长春师范大学学报:自然科学版,
2007,26(3):90-91.
[3]王兴起,王维才,谢宗晓等.文本挖掘技术在信息安全风险评估系统中的应
用研究[J].情报理论与实践,2013,36(4):107-110.
[4]夏天,樊孝忠.利用JNI实现 ICTCLAS系统的Java调用[J].计算机应
用,2004,24(2):178-182.
[5]徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工
程与应用,2005,41(1):181-184.
[6]景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TF-IDF及其改进
[J].广西师范大学学报:自然科学版,2003,21(1):142 -146.
[7]卢中宁,张保威.一种基于改进TF-IDF函数的文本分类方法[J].河南师
范大学学报:自然科学版,2012,40(6):158-160.
[8]吴其叶.科技查新的查准度和查全度与文献检索的查全率和查准率的差异
[J].现代情报,2003,23(9):8-9.
[9]朱培根,梅卫江,石秀锋等.基于LIBSVM代用燃料有效功率增量预测方法
的研究[J].石河子大学学报:自然科学版,2012,30(5):657 -660.
2024年10月7日发(作者:富察以莲)
基于文本挖掘的投诉热点智能分类
夏海峰;陈军华
【摘 要】投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起
到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时
间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模
型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够
有效地进行投诉文本分类.
【期刊名称】《上海师范大学学报(自然科学版)》
【年(卷),期】2013(042)005
【总页数】6页(P470-475)
【关键词】文本挖掘;智能分类;投诉
【作 者】夏海峰;陈军华
【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息
与机电工程学院,上海200234
【正文语种】中 文
【中图分类】TP391.4
手机通话、短信、网络GPRS等服务作为电信行业的基本服务,时刻与用户紧密
联系着,提高服务质量任重而道远.首先从管理流程上来讲,目前客户投诉分析面
临很多挑战:投诉内容难分析.信息量大、非结构化,文本内容难分析,需要人工
逐条查阅,工作繁琐且效率低下;投诉点多难聚焦.仓库管理系统(WMS)中对投诉
分类固定粗放投诉散点多,投诉管理人员无法对投诉进行统一归类集中分析,只能
逐条分析.优化抓手难获取.对投诉原因分析少,无法及时了解客户对服务和产品
的不满意原因,造成对产品服务优化工作抓手获取难等.这些问题都影响了客户投
诉分析的质量.
为了解决这些问题,引入文本挖掘的理念和方法,探索了一套基于投诉文本的数据
挖掘模型,提出了投诉热点智能分类的概念,在原有的导航分类的基础上,利用投
诉文本数据,根据文本挖掘[1]的相关概念,采用SVM算法[2]、统计学知识,
最终创建投诉导航树.因为投诉分类种类过多,分词部分以“费用”相关投诉文本
为例,进行相应的研究工作.
1 相关概念
文本数据挖掘(Text Mining)[3]是指从文本数据中抽取有价值的信息和知识的计
算机处理技术.顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data
Mining).从这个意义上讲,文本数据挖掘是数据挖掘的一个分支.文本数据挖掘
是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成.文
本挖掘的关键技术主要包括以下几点:
(1)信息抽取.信息抽取是从自然语言文本中抽取预先指定的实体、关系、事件等
信息,形成结构化的数据并填入数据库的过程.信息抽取常用于改善信息检索,帮
助用户直接定位所需的信息,无需阅读文档的全部内容.
(2)文本分类.文本分类是利用计算机对文本集(或其他实体或物件)按照预先定义的
分类体系或标准进行自动分类标记.文本分类是采用基于主题对文档按主题进行自
动归类.投诉热点模型是基于主题的应用.
(3)文本聚类.文本聚类是基于“同类的文档相似度较大,而不同类的文档相似度
较小”理论,假设对文档集合进行有效地组织、摘要和导航,方便人们从文档集中
发现相关的信息.
(4)关联规则.关联规则是描述一个事物中某些属性同时出现的规律和模式.它的
核心是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和
特征项所隐含的寓意,藉此可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在
的有用的信息.
2 基于文本挖掘的文本分类过程和关键技术
2.1 投诉热点智能分类整体流程
选取最近1000条投诉分类文本作为模型的基础,按顺序进行3个阶段(图1)的操
作:预处理阶段、文本表达阶段、知识挖掘阶段,经过这3个阶段的处理之后,形
成最终的导航参考分类模型.
图1 投诉监控热点智能分类操作流程图
2.2 文本预处理
文本预处理的文档来源于客户投诉文本内容.投诉文本内容是典型的非结构化或半
结构化的数据,缺乏关系数据库中数据的结构化和组织性.因此,要对原始文档进
行预处理,使其转化为较为规整且能反应文档内容的特征表示.做简单的文档说
明:(a)整理已有的投诉文本内容;(b)提取投诉原因的分类;(c)信息训练集和测试集;(d)
进行特征选取,信息待分类投诉文本.
2.3 文本表达
文本表达的过程主要是对预处理出来的文档进行词法的分割、划分,最终提取出关
键词字段,具体的过程主要包含以下4个方面:
2.3.1 中文分词
中文分词指的是将一个汉字序列切分成一个一个单独的词.中文分词是文本挖掘的
基础,其处理过程就是分词算法,对于输入的一段中文,进过分词之后,能够达到
被电脑自动识别语义的效果.在中文分词阶段,作者采用的是中国科学技术研究所
研制的汉语词法分析系统(ICTCLAS)[4],具体的操作由以下几个部分构成:
(a)词典配置.配置用户字典文件userdict.txt和系统配置文件Configure.xml.
(b)结果验证.通过分割一段文字,来实际检验效果.“用户来电反映,之前通过
上海市世纪联华服务充值50元,但现用户发现未到账 .”,最后可划分为:“用
户/来电/反映,之前/通过/上海市/世纪联华/服务/充值/50元,但/现用户/发现/
未到账”.
(c)模型演练.通过对1000条投诉文本的演练,将经过分词处理的文本,进行统
计、汇总.去除其中部分特殊”高频“,主要包括常见的结构助词等等;同时去除
词频很小的一些划分词.通过以上方法获得了2000多个关键词,再通过人工的干
预,将具有相同意义的词语进行组合、合并,最终得到了897个的关键词.
2.3.2 权重赋值
TF-IDF(term frequency-inverse document frequency)[5-7]是一种用于信
息搜索和信息挖掘的常用加权技术.TF-IDF的主要思想是:如果某个词或短语在一
篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具
有很好的类别区分能力,适合用来分类.TF词频(Term Frequency)指的是某一个
给定的词语在该文件中出现的次数.IDF反文档频率(Inverse Document
Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有
很好的类别区分能力.
(a)计算词频.通过对897个关键词的词频的统计(公式1).
得到了每个关键词的TF值(如图2),TF值越大的话,也就说明了该词在文本中出
现的次数越多,也就意味着该词更加能代表文本所要表达的意思.
图2 关键词对应TF的值
(b)计算逆文档频率.选取1000条投诉文本的记录内容作为语料库(corpus),来
模拟出语言的使用环境,采用如下公式进行计算(公式2):
如果1个词语越常见,那么分母就越大,逆文档频率就越小越接近0.通过对897
个关键词的词频的统计(图3),计算出对应的IDF的值作为统计的依据.
(c)计算TF-IDF.TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言
中的出现次数成反比(公式3).所以,自动提取关键词的算法就是计算出文档的每
个词的TF-IDF值,然后按降序排列,取排在最前面的几个词(图4).
图3 关键词对应的IDF的值
图4 关键词对应的TF-IDF的值
2.3.3 特征选取
根据生成的TF-IDF排列倒序表,用尽可能少的词语表示文本,要求尽可能减少语
义丢失,能够将不同语义的文本区分开来.从训练集中初步梳理出各类别对应的特
征词,合并同义词.通过训练模型,测试集测试结果,调整特征词.在调整的过程
中主要注意以下两点:(a)消除没有区分度的特征词;(b)调整容易混淆的类.
最终给每个特定的类别定义其关键字,来加以区分(表1).
表1 不同类别的区分投诉类别1 投诉类别2 投诉类别3关键词 同义词基础通信
G3上网本上网问题 G3上网本无法上网 上网本/无法/慢 失败,不可,不行使用,
连接,登陆基础通信 G3上网本上网问题 G3上网本上网速度慢 上网本/上网/慢
速度,上网,页面很卡,困难
2.4 知识挖掘
知识挖掘的过程主要进行的是对分词出来的结果进行分类,形成具有区分度的不同
投诉类别.
2.4.1 LIBSVM 模型训练
LIBSVM[8]是台湾大学林智仁副教授等开发设计的一个简单、易于使用和快速
有效的SVM模式识别与回归的软件包.利用开源分类工具-LIBSVM,核函数采
用RBF函数进行模型训练,最后训练得到的模型文件*.range、*.model文件,
并且创建类别代码维表(表2),由于篇幅问题,只取其中的2条分类路径加以说明.
表2 类别代码维表投诉类别1 投诉类别2 投诉类别3预测码基础通信 G3上网本
上网问题 G3上网本上网信号差464基础通信 G3上网本上网问题 G3上网本无法
上网456
2.4.2 对新增投诉文本进行权值赋值和特征表示
新增的投诉文本(格式:投诉编号-投诉内容)进行相应的分词、权值赋值特征表示之
后,输入到LIBSVM软件之中进行比对,进行模型的预测和类别的输出(表3).
表3 测试文本输出结果预测编码 编号待分类投诉文本464 2012-06-17-2184
用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承认有问题,但无
法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快解决.456
2012-06-29-1517 用户来电反映所在地段无法连接上网,要求上门检测,请
查证并处理,谢谢!
2.4.3 预测类别与文本对应
将类别编码维表和测试文本输出结果表按照预测结果进行对应,将测试投诉文本对
应到3层投诉类别(表4).
表4 测试文本分类结果预测码 编号 投诉内容 第一层 第二层 第三层464 2012-
06-17-2184用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承
认有问题,但无法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快
解决.基础通信G3上网本上网问题G3上网本上网问题456 2012-06-29-
1517用户来电反映所在地段无法连接上网,要求上门检测,请查证并处理,谢谢!
基础通信G3上网本上网问题G3上网本无法上网
3 实验结果检测与分析
3.1 评估指标选择
目前有多种方法来评估文本挖掘,下面列出几种比较公认的评估方法和指标(表5).
表5 检测指标指标计算方法分类正确率 计算文本样本与待分类文本的概率得出分
类正确率查准率 正确分类的对象所占对象集的大小查全率 集合中所含指定类别的
对象数占实际目标类中对象数的比例F-score 查准率和查全率的调和均值(查全率
*查准率)/[(查全率+查准率)/2]
分类正确率主要针对分词技术,投诉热点智能分类采用的是目前普及率和好评率较
高的开源分词系统,因此不考虑分类正确率指标.同时,投诉热点模型主要创造并
演进了分类算法,在分类算法中不考虑查全率指标(查全率默认为100%),因此模
型的评估主要采用了查准率的指标(公式4).
Pi为正确分类的导航量,Bi为错误分类的导航量.
3.2 统计结果
采用本文作者所阐述的方法对不同类型的投诉文本进行处理,形成的三级导航路径,
将其与人工分类导航进行比对,进行准确率的统计(表6).
表6 准确率统计分类器 涵盖样本/% 准确率/%宽带882信号 15 80地址 9 89上
网 15 78订购 20 76费用 15 90其他样本 26 75总计98.8 81.4
4 结语
投诉热点智能监控模型主要应用了文本挖掘中的两类核心技术:文本分词技术和分
类技术.通过文本挖掘技术,以达到将投诉文本智能分类的目的.通过一个类型的
投诉导航文本的计算,已完成模型的生成,又随机取出几个投诉文本来进行检测,
说明了该方法的有效性,最后统计出了不同类型分类下的准备率.
常见的分类方法包括:最邻近分类(KNN)、特征选择方法、贝叶斯分类、支持向量
机(SVM)和基于关联的分类.着重讲述了基于SVM的文本分类的方法,在后期的
实践过程中,将综合其余的几种常见文本分类方法进行相关性的研究,不断地优化
当前设计模型,以达到更好的分类效果.
参考文献:
[1]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
[2]方辉,王倩.支持向量机的算法研究[J].长春师范大学学报:自然科学版,
2007,26(3):90-91.
[3]王兴起,王维才,谢宗晓等.文本挖掘技术在信息安全风险评估系统中的应
用研究[J].情报理论与实践,2013,36(4):107-110.
[4]夏天,樊孝忠.利用JNI实现 ICTCLAS系统的Java调用[J].计算机应
用,2004,24(2):178-182.
[5]徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工
程与应用,2005,41(1):181-184.
[6]景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TF-IDF及其改进
[J].广西师范大学学报:自然科学版,2003,21(1):142 -146.
[7]卢中宁,张保威.一种基于改进TF-IDF函数的文本分类方法[J].河南师
范大学学报:自然科学版,2012,40(6):158-160.
[8]吴其叶.科技查新的查准度和查全度与文献检索的查全率和查准率的差异
[J].现代情报,2003,23(9):8-9.
[9]朱培根,梅卫江,石秀锋等.基于LIBSVM代用燃料有效功率增量预测方法
的研究[J].石河子大学学报:自然科学版,2012,30(5):657 -660.