基于文本挖掘的投诉热点智能分类-USB迷|专注于互联网分享

2024年10月7日发(作者：富察以莲)

基于文本挖掘的投诉热点智能分类

夏海峰;陈军华

【摘要】投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起

到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时

间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模

型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够

有效地进行投诉文本分类.

【期刊名称】《上海师范大学学报（自然科学版）》

【年(卷),期】2013(042)005

【总页数】6页(P470-475)

【关键词】文本挖掘;智能分类;投诉

【作者】夏海峰;陈军华

【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息

与机电工程学院,上海200234

【正文语种】中文

【中图分类】TP391.4

手机通话、短信、网络GPRS等服务作为电信行业的基本服务，时刻与用户紧密

联系着，提高服务质量任重而道远．首先从管理流程上来讲，目前客户投诉分析面

临很多挑战:投诉内容难分析．信息量大、非结构化，文本内容难分析，需要人工

逐条查阅，工作繁琐且效率低下;投诉点多难聚焦．仓库管理系统(WMS)中对投诉

分类固定粗放投诉散点多，投诉管理人员无法对投诉进行统一归类集中分析，只能

逐条分析．优化抓手难获取．对投诉原因分析少，无法及时了解客户对服务和产品

的不满意原因，造成对产品服务优化工作抓手获取难等．这些问题都影响了客户投

诉分析的质量．

为了解决这些问题，引入文本挖掘的理念和方法，探索了一套基于投诉文本的数据

挖掘模型，提出了投诉热点智能分类的概念，在原有的导航分类的基础上，利用投

诉文本数据，根据文本挖掘［1］的相关概念，采用SVM算法［2］、统计学知识，

最终创建投诉导航树．因为投诉分类种类过多，分词部分以“费用”相关投诉文本

为例，进行相应的研究工作．

1 相关概念

文本数据挖掘(Text Mining)［3］是指从文本数据中抽取有价值的信息和知识的计

算机处理技术．顾名思义，文本数据挖掘是从文本中进行数据挖掘(Data

Mining)．从这个意义上讲，文本数据挖掘是数据挖掘的一个分支．文本数据挖掘

是一个边缘学科，由机器学习、数理统计、自然语言处理等多种学科交叉形成．文

本挖掘的关键技术主要包括以下几点:

(1)信息抽取．信息抽取是从自然语言文本中抽取预先指定的实体、关系、事件等

信息，形成结构化的数据并填入数据库的过程．信息抽取常用于改善信息检索，帮

助用户直接定位所需的信息，无需阅读文档的全部内容．

(2)文本分类．文本分类是利用计算机对文本集(或其他实体或物件)按照预先定义的

分类体系或标准进行自动分类标记．文本分类是采用基于主题对文档按主题进行自

动归类．投诉热点模型是基于主题的应用．

(3)文本聚类．文本聚类是基于“同类的文档相似度较大，而不同类的文档相似度

较小”理论，假设对文档集合进行有效地组织、摘要和导航，方便人们从文档集中

发现相关的信息．

(4)关联规则．关联规则是描述一个事物中某些属性同时出现的规律和模式．它的

核心是将各种信息载体中的共现信息定量化的分析方法，以揭示信息的内容关联和

特征项所隐含的寓意，藉此可以发现研究对象之间的亲疏关系，挖掘隐含的或潜在

的有用的信息．

2 基于文本挖掘的文本分类过程和关键技术

2．1 投诉热点智能分类整体流程

选取最近1000条投诉分类文本作为模型的基础，按顺序进行3个阶段(图1)的操

作:预处理阶段、文本表达阶段、知识挖掘阶段，经过这3个阶段的处理之后，形

成最终的导航参考分类模型．

图1 投诉监控热点智能分类操作流程图

2．2 文本预处理

文本预处理的文档来源于客户投诉文本内容．投诉文本内容是典型的非结构化或半

结构化的数据，缺乏关系数据库中数据的结构化和组织性．因此，要对原始文档进

行预处理，使其转化为较为规整且能反应文档内容的特征表示．做简单的文档说

明:(a)整理已有的投诉文本内容;(b)提取投诉原因的分类;(c)信息训练集和测试集;(d)

进行特征选取，信息待分类投诉文本．

2．3 文本表达

文本表达的过程主要是对预处理出来的文档进行词法的分割、划分，最终提取出关

键词字段，具体的过程主要包含以下4个方面:

2．3．1 中文分词

中文分词指的是将一个汉字序列切分成一个一个单独的词．中文分词是文本挖掘的

基础，其处理过程就是分词算法，对于输入的一段中文，进过分词之后，能够达到

被电脑自动识别语义的效果．在中文分词阶段，作者采用的是中国科学技术研究所

研制的汉语词法分析系统(ICTCLAS)［4］，具体的操作由以下几个部分构成:

(a)词典配置．配置用户字典文件userdict．txt和系统配置文件Configure．xml．

(b)结果验证．通过分割一段文字，来实际检验效果．“用户来电反映，之前通过

上海市世纪联华服务充值50元，但现用户发现未到账．”，最后可划分为:“用

户/来电/反映，之前/通过/上海市/世纪联华/服务/充值/50元，但/现用户/发现/

未到账”．

(c)模型演练．通过对1000条投诉文本的演练，将经过分词处理的文本，进行统

计、汇总．去除其中部分特殊”高频“，主要包括常见的结构助词等等;同时去除

词频很小的一些划分词．通过以上方法获得了2000多个关键词，再通过人工的干

预，将具有相同意义的词语进行组合、合并，最终得到了897个的关键词．

2．3．2 权重赋值

TF-IDF(term frequency-inverse document frequency)［5－7］是一种用于信

息搜索和信息挖掘的常用加权技术．TF-IDF的主要思想是:如果某个词或短语在一

篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具

有很好的类别区分能力，适合用来分类．TF词频(Term Frequency)指的是某一个

给定的词语在该文件中出现的次数．IDF反文档频率(Inverse Document

Frequency)的主要思想是:如果包含词条的文档越少，IDF越大，则说明词条具有

很好的类别区分能力．

(a)计算词频．通过对897个关键词的词频的统计(公式1)．

得到了每个关键词的TF值(如图2)，TF值越大的话，也就说明了该词在文本中出

现的次数越多，也就意味着该词更加能代表文本所要表达的意思．

图2 关键词对应TF的值

(b)计算逆文档频率．选取1000条投诉文本的记录内容作为语料库(corpus)，来

模拟出语言的使用环境，采用如下公式进行计算(公式2):

如果1个词语越常见，那么分母就越大，逆文档频率就越小越接近0．通过对897

个关键词的词频的统计(图3)，计算出对应的IDF的值作为统计的依据．

(c)计算TF-IDF．TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言

中的出现次数成反比(公式3)．所以，自动提取关键词的算法就是计算出文档的每

个词的TF-IDF值，然后按降序排列，取排在最前面的几个词(图4)．

图3 关键词对应的IDF的值

图4 关键词对应的TF-IDF的值

2．3．3 特征选取

根据生成的TF-IDF排列倒序表，用尽可能少的词语表示文本，要求尽可能减少语

义丢失，能够将不同语义的文本区分开来．从训练集中初步梳理出各类别对应的特

征词，合并同义词．通过训练模型，测试集测试结果，调整特征词．在调整的过程

中主要注意以下两点:(a)消除没有区分度的特征词;(b)调整容易混淆的类．

最终给每个特定的类别定义其关键字，来加以区分(表1)．

表1 不同类别的区分投诉类别1 投诉类别2 投诉类别3关键词同义词基础通信

G3上网本上网问题 G3上网本无法上网上网本/无法/慢失败，不可，不行使用，

连接，登陆基础通信 G3上网本上网问题 G3上网本上网速度慢上网本/上网/慢

速度，上网，页面很卡，困难

2．4 知识挖掘

知识挖掘的过程主要进行的是对分词出来的结果进行分类，形成具有区分度的不同

投诉类别．

2．4．1 LIBSVM 模型训练

LIBSVM［8］是台湾大学林智仁副教授等开发设计的一个简单、易于使用和快速

有效的SVM模式识别与回归的软件包．利用开源分类工具－LIBSVM，核函数采

用RBF函数进行模型训练，最后训练得到的模型文件*．range、*．model文件，

并且创建类别代码维表(表2)，由于篇幅问题，只取其中的2条分类路径加以说明．

表2 类别代码维表投诉类别1 投诉类别2 投诉类别3预测码基础通信 G3上网本

上网问题 G3上网本上网信号差464基础通信 G3上网本上网问题 G3上网本无法

上网456

2．4．2 对新增投诉文本进行权值赋值和特征表示

新增的投诉文本(格式:投诉编号－投诉内容)进行相应的分词、权值赋值特征表示之

后，输入到LIBSVM软件之中进行比对，进行模型的预测和类别的输出(表3)．

表3 测试文本输出结果预测编码编号待分类投诉文本464 2012－06－17－2184

用户反应在浦东南泉北路588号地区信号差问题．交涉后对方承认有问题，但无

法解决，只同意延长一个月使用时间．消费者不予接受，求助尽快解决．456

2012－06－29－1517 用户来电反映所在地段无法连接上网，要求上门检测，请

查证并处理，谢谢!

2．4．3 预测类别与文本对应

将类别编码维表和测试文本输出结果表按照预测结果进行对应，将测试投诉文本对

应到3层投诉类别(表4)．

表4 测试文本分类结果预测码编号投诉内容第一层第二层第三层464 2012－

06－17－2184用户反应在浦东南泉北路588号地区信号差问题．交涉后对方承

认有问题，但无法解决，只同意延长一个月使用时间．消费者不予接受，求助尽快

解决．基础通信G3上网本上网问题G3上网本上网问题456 2012－06－29－

1517用户来电反映所在地段无法连接上网，要求上门检测，请查证并处理，谢谢!

基础通信G3上网本上网问题G3上网本无法上网

3 实验结果检测与分析

3．1 评估指标选择

目前有多种方法来评估文本挖掘，下面列出几种比较公认的评估方法和指标(表5)．

表5 检测指标指标计算方法分类正确率计算文本样本与待分类文本的概率得出分

类正确率查准率正确分类的对象所占对象集的大小查全率集合中所含指定类别的

对象数占实际目标类中对象数的比例F－score 查准率和查全率的调和均值(查全率

*查准率)/［(查全率+查准率)/2］

分类正确率主要针对分词技术，投诉热点智能分类采用的是目前普及率和好评率较

高的开源分词系统，因此不考虑分类正确率指标．同时，投诉热点模型主要创造并

演进了分类算法，在分类算法中不考虑查全率指标(查全率默认为100%)，因此模

型的评估主要采用了查准率的指标(公式4)．

Pi为正确分类的导航量，Bi为错误分类的导航量．

3．2 统计结果

采用本文作者所阐述的方法对不同类型的投诉文本进行处理，形成的三级导航路径，

将其与人工分类导航进行比对，进行准确率的统计(表6)．

表6 准确率统计分类器涵盖样本/% 准确率/%宽带882信号 15 80地址 9 89上

网 15 78订购 20 76费用 15 90其他样本 26 75总计98．8 81．4

4 结语

投诉热点智能监控模型主要应用了文本挖掘中的两类核心技术:文本分词技术和分

类技术．通过文本挖掘技术，以达到将投诉文本智能分类的目的．通过一个类型的

投诉导航文本的计算，已完成模型的生成，又随机取出几个投诉文本来进行检测，

说明了该方法的有效性，最后统计出了不同类型分类下的准备率．

常见的分类方法包括:最邻近分类(KNN)、特征选择方法、贝叶斯分类、支持向量

机(SVM)和基于关联的分类．着重讲述了基于SVM的文本分类的方法，在后期的

实践过程中，将综合其余的几种常见文本分类方法进行相关性的研究，不断地优化

当前设计模型，以达到更好的分类效果．

参考文献:

［1］范明，孟小峰．数据挖掘概念与技术［M］．北京:机械工业出版社，2001．

［2］方辉，王倩．支持向量机的算法研究［J］．长春师范大学学报:自然科学版，

2007，26(3):90－91．

［3］王兴起，王维才，谢宗晓等．文本挖掘技术在信息安全风险评估系统中的应

用研究［J］．情报理论与实践，2013，36(4):107－110．

［4］夏天，樊孝忠．利用JNI实现 ICTCLAS系统的Java调用［J］．计算机应

用，2004，24(2):178－182．

［5］徐凤亚，罗振声．文本自动分类中特征权重算法的改进研究［J］．计算机工

程与应用，2005，41(1):181－184．

［6］景丽萍，黄厚宽，石洪波．用于文本挖掘的特征选择方法TF-IDF及其改进

［J］．广西师范大学学报:自然科学版，2003，21(1):142 －146．

［7］卢中宁，张保威．一种基于改进TF-IDF函数的文本分类方法［J］．河南师

范大学学报:自然科学版，2012，40(6):158－160．

［8］吴其叶．科技查新的查准度和查全度与文献检索的查全率和查准率的差异

［J］．现代情报，2003，23(9):8－9．

［9］朱培根，梅卫江，石秀锋等．基于LIBSVM代用燃料有效功率增量预测方法

的研究［J］．石河子大学学报:自然科学版，2012，30(5):657 －660．

2024年10月7日发(作者：富察以莲)

基于文本挖掘的投诉热点智能分类

夏海峰;陈军华

【摘要】投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起

到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时

间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模

型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够

有效地进行投诉文本分类.

【期刊名称】《上海师范大学学报（自然科学版）》

【年(卷),期】2013(042)005

【总页数】6页(P470-475)

【关键词】文本挖掘;智能分类;投诉

【作者】夏海峰;陈军华

【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息

与机电工程学院,上海200234

【正文语种】中文

【中图分类】TP391.4

手机通话、短信、网络GPRS等服务作为电信行业的基本服务，时刻与用户紧密

联系着，提高服务质量任重而道远．首先从管理流程上来讲，目前客户投诉分析面

临很多挑战:投诉内容难分析．信息量大、非结构化，文本内容难分析，需要人工

逐条查阅，工作繁琐且效率低下;投诉点多难聚焦．仓库管理系统(WMS)中对投诉

分类固定粗放投诉散点多，投诉管理人员无法对投诉进行统一归类集中分析，只能

逐条分析．优化抓手难获取．对投诉原因分析少，无法及时了解客户对服务和产品

的不满意原因，造成对产品服务优化工作抓手获取难等．这些问题都影响了客户投

诉分析的质量．

为了解决这些问题，引入文本挖掘的理念和方法，探索了一套基于投诉文本的数据

挖掘模型，提出了投诉热点智能分类的概念，在原有的导航分类的基础上，利用投

诉文本数据，根据文本挖掘［1］的相关概念，采用SVM算法［2］、统计学知识，

最终创建投诉导航树．因为投诉分类种类过多，分词部分以“费用”相关投诉文本

为例，进行相应的研究工作．

1 相关概念

文本数据挖掘(Text Mining)［3］是指从文本数据中抽取有价值的信息和知识的计

算机处理技术．顾名思义，文本数据挖掘是从文本中进行数据挖掘(Data

Mining)．从这个意义上讲，文本数据挖掘是数据挖掘的一个分支．文本数据挖掘

是一个边缘学科，由机器学习、数理统计、自然语言处理等多种学科交叉形成．文

本挖掘的关键技术主要包括以下几点:

(1)信息抽取．信息抽取是从自然语言文本中抽取预先指定的实体、关系、事件等

信息，形成结构化的数据并填入数据库的过程．信息抽取常用于改善信息检索，帮

助用户直接定位所需的信息，无需阅读文档的全部内容．

(2)文本分类．文本分类是利用计算机对文本集(或其他实体或物件)按照预先定义的

分类体系或标准进行自动分类标记．文本分类是采用基于主题对文档按主题进行自

动归类．投诉热点模型是基于主题的应用．

(3)文本聚类．文本聚类是基于“同类的文档相似度较大，而不同类的文档相似度

较小”理论，假设对文档集合进行有效地组织、摘要和导航，方便人们从文档集中

发现相关的信息．

(4)关联规则．关联规则是描述一个事物中某些属性同时出现的规律和模式．它的

核心是将各种信息载体中的共现信息定量化的分析方法，以揭示信息的内容关联和

特征项所隐含的寓意，藉此可以发现研究对象之间的亲疏关系，挖掘隐含的或潜在

的有用的信息．

2 基于文本挖掘的文本分类过程和关键技术

2．1 投诉热点智能分类整体流程

选取最近1000条投诉分类文本作为模型的基础，按顺序进行3个阶段(图1)的操

作:预处理阶段、文本表达阶段、知识挖掘阶段，经过这3个阶段的处理之后，形

成最终的导航参考分类模型．

图1 投诉监控热点智能分类操作流程图

2．2 文本预处理

文本预处理的文档来源于客户投诉文本内容．投诉文本内容是典型的非结构化或半

结构化的数据，缺乏关系数据库中数据的结构化和组织性．因此，要对原始文档进

行预处理，使其转化为较为规整且能反应文档内容的特征表示．做简单的文档说

明:(a)整理已有的投诉文本内容;(b)提取投诉原因的分类;(c)信息训练集和测试集;(d)

进行特征选取，信息待分类投诉文本．

2．3 文本表达

文本表达的过程主要是对预处理出来的文档进行词法的分割、划分，最终提取出关

键词字段，具体的过程主要包含以下4个方面:

2．3．1 中文分词

中文分词指的是将一个汉字序列切分成一个一个单独的词．中文分词是文本挖掘的

基础，其处理过程就是分词算法，对于输入的一段中文，进过分词之后，能够达到

被电脑自动识别语义的效果．在中文分词阶段，作者采用的是中国科学技术研究所

研制的汉语词法分析系统(ICTCLAS)［4］，具体的操作由以下几个部分构成:

(a)词典配置．配置用户字典文件userdict．txt和系统配置文件Configure．xml．

(b)结果验证．通过分割一段文字，来实际检验效果．“用户来电反映，之前通过

上海市世纪联华服务充值50元，但现用户发现未到账．”，最后可划分为:“用

户/来电/反映，之前/通过/上海市/世纪联华/服务/充值/50元，但/现用户/发现/

未到账”．

(c)模型演练．通过对1000条投诉文本的演练，将经过分词处理的文本，进行统

计、汇总．去除其中部分特殊”高频“，主要包括常见的结构助词等等;同时去除

词频很小的一些划分词．通过以上方法获得了2000多个关键词，再通过人工的干

预，将具有相同意义的词语进行组合、合并，最终得到了897个的关键词．

2．3．2 权重赋值

TF-IDF(term frequency-inverse document frequency)［5－7］是一种用于信

息搜索和信息挖掘的常用加权技术．TF-IDF的主要思想是:如果某个词或短语在一

篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具

有很好的类别区分能力，适合用来分类．TF词频(Term Frequency)指的是某一个

给定的词语在该文件中出现的次数．IDF反文档频率(Inverse Document

Frequency)的主要思想是:如果包含词条的文档越少，IDF越大，则说明词条具有

很好的类别区分能力．

(a)计算词频．通过对897个关键词的词频的统计(公式1)．

得到了每个关键词的TF值(如图2)，TF值越大的话，也就说明了该词在文本中出

现的次数越多，也就意味着该词更加能代表文本所要表达的意思．

图2 关键词对应TF的值

(b)计算逆文档频率．选取1000条投诉文本的记录内容作为语料库(corpus)，来

模拟出语言的使用环境，采用如下公式进行计算(公式2):

如果1个词语越常见，那么分母就越大，逆文档频率就越小越接近0．通过对897

个关键词的词频的统计(图3)，计算出对应的IDF的值作为统计的依据．

(c)计算TF-IDF．TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言

中的出现次数成反比(公式3)．所以，自动提取关键词的算法就是计算出文档的每

个词的TF-IDF值，然后按降序排列，取排在最前面的几个词(图4)．

图3 关键词对应的IDF的值

图4 关键词对应的TF-IDF的值

2．3．3 特征选取

根据生成的TF-IDF排列倒序表，用尽可能少的词语表示文本，要求尽可能减少语

义丢失，能够将不同语义的文本区分开来．从训练集中初步梳理出各类别对应的特

征词，合并同义词．通过训练模型，测试集测试结果，调整特征词．在调整的过程

中主要注意以下两点:(a)消除没有区分度的特征词;(b)调整容易混淆的类．

最终给每个特定的类别定义其关键字，来加以区分(表1)．

表1 不同类别的区分投诉类别1 投诉类别2 投诉类别3关键词同义词基础通信

G3上网本上网问题 G3上网本无法上网上网本/无法/慢失败，不可，不行使用，

连接，登陆基础通信 G3上网本上网问题 G3上网本上网速度慢上网本/上网/慢

速度，上网，页面很卡，困难

2．4 知识挖掘

知识挖掘的过程主要进行的是对分词出来的结果进行分类，形成具有区分度的不同

投诉类别．

2．4．1 LIBSVM 模型训练

LIBSVM［8］是台湾大学林智仁副教授等开发设计的一个简单、易于使用和快速

有效的SVM模式识别与回归的软件包．利用开源分类工具－LIBSVM，核函数采

用RBF函数进行模型训练，最后训练得到的模型文件*．range、*．model文件，

并且创建类别代码维表(表2)，由于篇幅问题，只取其中的2条分类路径加以说明．

表2 类别代码维表投诉类别1 投诉类别2 投诉类别3预测码基础通信 G3上网本

上网问题 G3上网本上网信号差464基础通信 G3上网本上网问题 G3上网本无法

上网456

2．4．2 对新增投诉文本进行权值赋值和特征表示

新增的投诉文本(格式:投诉编号－投诉内容)进行相应的分词、权值赋值特征表示之

后，输入到LIBSVM软件之中进行比对，进行模型的预测和类别的输出(表3)．

表3 测试文本输出结果预测编码编号待分类投诉文本464 2012－06－17－2184

用户反应在浦东南泉北路588号地区信号差问题．交涉后对方承认有问题，但无

法解决，只同意延长一个月使用时间．消费者不予接受，求助尽快解决．456

2012－06－29－1517 用户来电反映所在地段无法连接上网，要求上门检测，请

查证并处理，谢谢!

2．4．3 预测类别与文本对应

将类别编码维表和测试文本输出结果表按照预测结果进行对应，将测试投诉文本对

应到3层投诉类别(表4)．

表4 测试文本分类结果预测码编号投诉内容第一层第二层第三层464 2012－

06－17－2184用户反应在浦东南泉北路588号地区信号差问题．交涉后对方承

认有问题，但无法解决，只同意延长一个月使用时间．消费者不予接受，求助尽快

解决．基础通信G3上网本上网问题G3上网本上网问题456 2012－06－29－

1517用户来电反映所在地段无法连接上网，要求上门检测，请查证并处理，谢谢!

基础通信G3上网本上网问题G3上网本无法上网

3 实验结果检测与分析

3．1 评估指标选择

目前有多种方法来评估文本挖掘，下面列出几种比较公认的评估方法和指标(表5)．

表5 检测指标指标计算方法分类正确率计算文本样本与待分类文本的概率得出分

类正确率查准率正确分类的对象所占对象集的大小查全率集合中所含指定类别的

对象数占实际目标类中对象数的比例F－score 查准率和查全率的调和均值(查全率

*查准率)/［(查全率+查准率)/2］

分类正确率主要针对分词技术，投诉热点智能分类采用的是目前普及率和好评率较

高的开源分词系统，因此不考虑分类正确率指标．同时，投诉热点模型主要创造并

演进了分类算法，在分类算法中不考虑查全率指标(查全率默认为100%)，因此模

型的评估主要采用了查准率的指标(公式4)．

Pi为正确分类的导航量，Bi为错误分类的导航量．

3．2 统计结果

采用本文作者所阐述的方法对不同类型的投诉文本进行处理，形成的三级导航路径，

将其与人工分类导航进行比对，进行准确率的统计(表6)．

表6 准确率统计分类器涵盖样本/% 准确率/%宽带882信号 15 80地址 9 89上

网 15 78订购 20 76费用 15 90其他样本 26 75总计98．8 81．4

4 结语

投诉热点智能监控模型主要应用了文本挖掘中的两类核心技术:文本分词技术和分

类技术．通过文本挖掘技术，以达到将投诉文本智能分类的目的．通过一个类型的

投诉导航文本的计算，已完成模型的生成，又随机取出几个投诉文本来进行检测，

说明了该方法的有效性，最后统计出了不同类型分类下的准备率．

常见的分类方法包括:最邻近分类(KNN)、特征选择方法、贝叶斯分类、支持向量

机(SVM)和基于关联的分类．着重讲述了基于SVM的文本分类的方法，在后期的

实践过程中，将综合其余的几种常见文本分类方法进行相关性的研究，不断地优化

当前设计模型，以达到更好的分类效果．

参考文献:

［1］范明，孟小峰．数据挖掘概念与技术［M］．北京:机械工业出版社，2001．

［2］方辉，王倩．支持向量机的算法研究［J］．长春师范大学学报:自然科学版，

2007，26(3):90－91．

［3］王兴起，王维才，谢宗晓等．文本挖掘技术在信息安全风险评估系统中的应

用研究［J］．情报理论与实践，2013，36(4):107－110．

［4］夏天，樊孝忠．利用JNI实现 ICTCLAS系统的Java调用［J］．计算机应

用，2004，24(2):178－182．

［5］徐凤亚，罗振声．文本自动分类中特征权重算法的改进研究［J］．计算机工

程与应用，2005，41(1):181－184．

［6］景丽萍，黄厚宽，石洪波．用于文本挖掘的特征选择方法TF-IDF及其改进

［J］．广西师范大学学报:自然科学版，2003，21(1):142 －146．

［7］卢中宁，张保威．一种基于改进TF-IDF函数的文本分类方法［J］．河南师

范大学学报:自然科学版，2012，40(6):158－160．

［8］吴其叶．科技查新的查准度和查全度与文献检索的查全率和查准率的差异

［J］．现代情报，2003，23(9):8－9．

［9］朱培根，梅卫江，石秀锋等．基于LIBSVM代用燃料有效功率增量预测方法

的研究［J］．石河子大学学报:自然科学版，2012，30(5):657 －660．

USB迷 | 专注于互联网分享

基于文本挖掘的投诉热点智能分类

与本文相关的文章

评论列表 (0)