最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

基于文本挖掘的投诉热点智能分类

IT圈 admin 35浏览 0评论

2024年10月7日发(作者:富察以莲)

基于文本挖掘的投诉热点智能分类

夏海峰;陈军华

【摘 要】投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起

到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时

间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模

型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够

有效地进行投诉文本分类.

【期刊名称】《上海师范大学学报(自然科学版)》

【年(卷),期】2013(042)005

【总页数】6页(P470-475)

【关键词】文本挖掘;智能分类;投诉

【作 者】夏海峰;陈军华

【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息

与机电工程学院,上海200234

【正文语种】中 文

【中图分类】TP391.4

手机通话、短信、网络GPRS等服务作为电信行业的基本服务,时刻与用户紧密

联系着,提高服务质量任重而道远.首先从管理流程上来讲,目前客户投诉分析面

临很多挑战:投诉内容难分析.信息量大、非结构化,文本内容难分析,需要人工

逐条查阅,工作繁琐且效率低下;投诉点多难聚焦.仓库管理系统(WMS)中对投诉

分类固定粗放投诉散点多,投诉管理人员无法对投诉进行统一归类集中分析,只能

逐条分析.优化抓手难获取.对投诉原因分析少,无法及时了解客户对服务和产品

的不满意原因,造成对产品服务优化工作抓手获取难等.这些问题都影响了客户投

诉分析的质量.

为了解决这些问题,引入文本挖掘的理念和方法,探索了一套基于投诉文本的数据

挖掘模型,提出了投诉热点智能分类的概念,在原有的导航分类的基础上,利用投

诉文本数据,根据文本挖掘[1]的相关概念,采用SVM算法[2]、统计学知识,

最终创建投诉导航树.因为投诉分类种类过多,分词部分以“费用”相关投诉文本

为例,进行相应的研究工作.

1 相关概念

文本数据挖掘(Text Mining)[3]是指从文本数据中抽取有价值的信息和知识的计

算机处理技术.顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data

Mining).从这个意义上讲,文本数据挖掘是数据挖掘的一个分支.文本数据挖掘

是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成.文

本挖掘的关键技术主要包括以下几点:

(1)信息抽取.信息抽取是从自然语言文本中抽取预先指定的实体、关系、事件等

信息,形成结构化的数据并填入数据库的过程.信息抽取常用于改善信息检索,帮

助用户直接定位所需的信息,无需阅读文档的全部内容.

(2)文本分类.文本分类是利用计算机对文本集(或其他实体或物件)按照预先定义的

分类体系或标准进行自动分类标记.文本分类是采用基于主题对文档按主题进行自

动归类.投诉热点模型是基于主题的应用.

(3)文本聚类.文本聚类是基于“同类的文档相似度较大,而不同类的文档相似度

较小”理论,假设对文档集合进行有效地组织、摘要和导航,方便人们从文档集中

发现相关的信息.

(4)关联规则.关联规则是描述一个事物中某些属性同时出现的规律和模式.它的

核心是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和

特征项所隐含的寓意,藉此可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在

的有用的信息.

2 基于文本挖掘的文本分类过程和关键技术

2.1 投诉热点智能分类整体流程

选取最近1000条投诉分类文本作为模型的基础,按顺序进行3个阶段(图1)的操

作:预处理阶段、文本表达阶段、知识挖掘阶段,经过这3个阶段的处理之后,形

成最终的导航参考分类模型.

图1 投诉监控热点智能分类操作流程图

2.2 文本预处理

文本预处理的文档来源于客户投诉文本内容.投诉文本内容是典型的非结构化或半

结构化的数据,缺乏关系数据库中数据的结构化和组织性.因此,要对原始文档进

行预处理,使其转化为较为规整且能反应文档内容的特征表示.做简单的文档说

明:(a)整理已有的投诉文本内容;(b)提取投诉原因的分类;(c)信息训练集和测试集;(d)

进行特征选取,信息待分类投诉文本.

2.3 文本表达

文本表达的过程主要是对预处理出来的文档进行词法的分割、划分,最终提取出关

键词字段,具体的过程主要包含以下4个方面:

2.3.1 中文分词

中文分词指的是将一个汉字序列切分成一个一个单独的词.中文分词是文本挖掘的

基础,其处理过程就是分词算法,对于输入的一段中文,进过分词之后,能够达到

被电脑自动识别语义的效果.在中文分词阶段,作者采用的是中国科学技术研究所

研制的汉语词法分析系统(ICTCLAS)[4],具体的操作由以下几个部分构成:

(a)词典配置.配置用户字典文件userdict.txt和系统配置文件Configure.xml.

(b)结果验证.通过分割一段文字,来实际检验效果.“用户来电反映,之前通过

上海市世纪联华服务充值50元,但现用户发现未到账 .”,最后可划分为:“用

户/来电/反映,之前/通过/上海市/世纪联华/服务/充值/50元,但/现用户/发现/

未到账”.

(c)模型演练.通过对1000条投诉文本的演练,将经过分词处理的文本,进行统

计、汇总.去除其中部分特殊”高频“,主要包括常见的结构助词等等;同时去除

词频很小的一些划分词.通过以上方法获得了2000多个关键词,再通过人工的干

预,将具有相同意义的词语进行组合、合并,最终得到了897个的关键词.

2.3.2 权重赋值

TF-IDF(term frequency-inverse document frequency)[5-7]是一种用于信

息搜索和信息挖掘的常用加权技术.TF-IDF的主要思想是:如果某个词或短语在一

篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具

有很好的类别区分能力,适合用来分类.TF词频(Term Frequency)指的是某一个

给定的词语在该文件中出现的次数.IDF反文档频率(Inverse Document

Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有

很好的类别区分能力.

(a)计算词频.通过对897个关键词的词频的统计(公式1).

得到了每个关键词的TF值(如图2),TF值越大的话,也就说明了该词在文本中出

现的次数越多,也就意味着该词更加能代表文本所要表达的意思.

图2 关键词对应TF的值

(b)计算逆文档频率.选取1000条投诉文本的记录内容作为语料库(corpus),来

模拟出语言的使用环境,采用如下公式进行计算(公式2):

如果1个词语越常见,那么分母就越大,逆文档频率就越小越接近0.通过对897

个关键词的词频的统计(图3),计算出对应的IDF的值作为统计的依据.

(c)计算TF-IDF.TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言

中的出现次数成反比(公式3).所以,自动提取关键词的算法就是计算出文档的每

个词的TF-IDF值,然后按降序排列,取排在最前面的几个词(图4).

图3 关键词对应的IDF的值

图4 关键词对应的TF-IDF的值

2.3.3 特征选取

根据生成的TF-IDF排列倒序表,用尽可能少的词语表示文本,要求尽可能减少语

义丢失,能够将不同语义的文本区分开来.从训练集中初步梳理出各类别对应的特

征词,合并同义词.通过训练模型,测试集测试结果,调整特征词.在调整的过程

中主要注意以下两点:(a)消除没有区分度的特征词;(b)调整容易混淆的类.

最终给每个特定的类别定义其关键字,来加以区分(表1).

表1 不同类别的区分投诉类别1 投诉类别2 投诉类别3关键词 同义词基础通信

G3上网本上网问题 G3上网本无法上网 上网本/无法/慢 失败,不可,不行使用,

连接,登陆基础通信 G3上网本上网问题 G3上网本上网速度慢 上网本/上网/慢

速度,上网,页面很卡,困难

2.4 知识挖掘

知识挖掘的过程主要进行的是对分词出来的结果进行分类,形成具有区分度的不同

投诉类别.

2.4.1 LIBSVM 模型训练

LIBSVM[8]是台湾大学林智仁副教授等开发设计的一个简单、易于使用和快速

有效的SVM模式识别与回归的软件包.利用开源分类工具-LIBSVM,核函数采

用RBF函数进行模型训练,最后训练得到的模型文件*.range、*.model文件,

并且创建类别代码维表(表2),由于篇幅问题,只取其中的2条分类路径加以说明.

表2 类别代码维表投诉类别1 投诉类别2 投诉类别3预测码基础通信 G3上网本

上网问题 G3上网本上网信号差464基础通信 G3上网本上网问题 G3上网本无法

上网456

2.4.2 对新增投诉文本进行权值赋值和特征表示

新增的投诉文本(格式:投诉编号-投诉内容)进行相应的分词、权值赋值特征表示之

后,输入到LIBSVM软件之中进行比对,进行模型的预测和类别的输出(表3).

表3 测试文本输出结果预测编码 编号待分类投诉文本464 2012-06-17-2184

用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承认有问题,但无

法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快解决.456

2012-06-29-1517 用户来电反映所在地段无法连接上网,要求上门检测,请

查证并处理,谢谢!

2.4.3 预测类别与文本对应

将类别编码维表和测试文本输出结果表按照预测结果进行对应,将测试投诉文本对

应到3层投诉类别(表4).

表4 测试文本分类结果预测码 编号 投诉内容 第一层 第二层 第三层464 2012-

06-17-2184用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承

认有问题,但无法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快

解决.基础通信G3上网本上网问题G3上网本上网问题456 2012-06-29-

1517用户来电反映所在地段无法连接上网,要求上门检测,请查证并处理,谢谢!

基础通信G3上网本上网问题G3上网本无法上网

3 实验结果检测与分析

3.1 评估指标选择

目前有多种方法来评估文本挖掘,下面列出几种比较公认的评估方法和指标(表5).

表5 检测指标指标计算方法分类正确率 计算文本样本与待分类文本的概率得出分

类正确率查准率 正确分类的对象所占对象集的大小查全率 集合中所含指定类别的

对象数占实际目标类中对象数的比例F-score 查准率和查全率的调和均值(查全率

*查准率)/[(查全率+查准率)/2]

分类正确率主要针对分词技术,投诉热点智能分类采用的是目前普及率和好评率较

高的开源分词系统,因此不考虑分类正确率指标.同时,投诉热点模型主要创造并

演进了分类算法,在分类算法中不考虑查全率指标(查全率默认为100%),因此模

型的评估主要采用了查准率的指标(公式4).

Pi为正确分类的导航量,Bi为错误分类的导航量.

3.2 统计结果

采用本文作者所阐述的方法对不同类型的投诉文本进行处理,形成的三级导航路径,

将其与人工分类导航进行比对,进行准确率的统计(表6).

表6 准确率统计分类器 涵盖样本/% 准确率/%宽带882信号 15 80地址 9 89上

网 15 78订购 20 76费用 15 90其他样本 26 75总计98.8 81.4

4 结语

投诉热点智能监控模型主要应用了文本挖掘中的两类核心技术:文本分词技术和分

类技术.通过文本挖掘技术,以达到将投诉文本智能分类的目的.通过一个类型的

投诉导航文本的计算,已完成模型的生成,又随机取出几个投诉文本来进行检测,

说明了该方法的有效性,最后统计出了不同类型分类下的准备率.

常见的分类方法包括:最邻近分类(KNN)、特征选择方法、贝叶斯分类、支持向量

机(SVM)和基于关联的分类.着重讲述了基于SVM的文本分类的方法,在后期的

实践过程中,将综合其余的几种常见文本分类方法进行相关性的研究,不断地优化

当前设计模型,以达到更好的分类效果.

参考文献:

[1]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[2]方辉,王倩.支持向量机的算法研究[J].长春师范大学学报:自然科学版,

2007,26(3):90-91.

[3]王兴起,王维才,谢宗晓等.文本挖掘技术在信息安全风险评估系统中的应

用研究[J].情报理论与实践,2013,36(4):107-110.

[4]夏天,樊孝忠.利用JNI实现 ICTCLAS系统的Java调用[J].计算机应

用,2004,24(2):178-182.

[5]徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工

程与应用,2005,41(1):181-184.

[6]景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TF-IDF及其改进

[J].广西师范大学学报:自然科学版,2003,21(1):142 -146.

[7]卢中宁,张保威.一种基于改进TF-IDF函数的文本分类方法[J].河南师

范大学学报:自然科学版,2012,40(6):158-160.

[8]吴其叶.科技查新的查准度和查全度与文献检索的查全率和查准率的差异

[J].现代情报,2003,23(9):8-9.

[9]朱培根,梅卫江,石秀锋等.基于LIBSVM代用燃料有效功率增量预测方法

的研究[J].石河子大学学报:自然科学版,2012,30(5):657 -660.

2024年10月7日发(作者:富察以莲)

基于文本挖掘的投诉热点智能分类

夏海峰;陈军华

【摘 要】投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起

到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时

间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模

型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够

有效地进行投诉文本分类.

【期刊名称】《上海师范大学学报(自然科学版)》

【年(卷),期】2013(042)005

【总页数】6页(P470-475)

【关键词】文本挖掘;智能分类;投诉

【作 者】夏海峰;陈军华

【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息

与机电工程学院,上海200234

【正文语种】中 文

【中图分类】TP391.4

手机通话、短信、网络GPRS等服务作为电信行业的基本服务,时刻与用户紧密

联系着,提高服务质量任重而道远.首先从管理流程上来讲,目前客户投诉分析面

临很多挑战:投诉内容难分析.信息量大、非结构化,文本内容难分析,需要人工

逐条查阅,工作繁琐且效率低下;投诉点多难聚焦.仓库管理系统(WMS)中对投诉

分类固定粗放投诉散点多,投诉管理人员无法对投诉进行统一归类集中分析,只能

逐条分析.优化抓手难获取.对投诉原因分析少,无法及时了解客户对服务和产品

的不满意原因,造成对产品服务优化工作抓手获取难等.这些问题都影响了客户投

诉分析的质量.

为了解决这些问题,引入文本挖掘的理念和方法,探索了一套基于投诉文本的数据

挖掘模型,提出了投诉热点智能分类的概念,在原有的导航分类的基础上,利用投

诉文本数据,根据文本挖掘[1]的相关概念,采用SVM算法[2]、统计学知识,

最终创建投诉导航树.因为投诉分类种类过多,分词部分以“费用”相关投诉文本

为例,进行相应的研究工作.

1 相关概念

文本数据挖掘(Text Mining)[3]是指从文本数据中抽取有价值的信息和知识的计

算机处理技术.顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data

Mining).从这个意义上讲,文本数据挖掘是数据挖掘的一个分支.文本数据挖掘

是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成.文

本挖掘的关键技术主要包括以下几点:

(1)信息抽取.信息抽取是从自然语言文本中抽取预先指定的实体、关系、事件等

信息,形成结构化的数据并填入数据库的过程.信息抽取常用于改善信息检索,帮

助用户直接定位所需的信息,无需阅读文档的全部内容.

(2)文本分类.文本分类是利用计算机对文本集(或其他实体或物件)按照预先定义的

分类体系或标准进行自动分类标记.文本分类是采用基于主题对文档按主题进行自

动归类.投诉热点模型是基于主题的应用.

(3)文本聚类.文本聚类是基于“同类的文档相似度较大,而不同类的文档相似度

较小”理论,假设对文档集合进行有效地组织、摘要和导航,方便人们从文档集中

发现相关的信息.

(4)关联规则.关联规则是描述一个事物中某些属性同时出现的规律和模式.它的

核心是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和

特征项所隐含的寓意,藉此可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在

的有用的信息.

2 基于文本挖掘的文本分类过程和关键技术

2.1 投诉热点智能分类整体流程

选取最近1000条投诉分类文本作为模型的基础,按顺序进行3个阶段(图1)的操

作:预处理阶段、文本表达阶段、知识挖掘阶段,经过这3个阶段的处理之后,形

成最终的导航参考分类模型.

图1 投诉监控热点智能分类操作流程图

2.2 文本预处理

文本预处理的文档来源于客户投诉文本内容.投诉文本内容是典型的非结构化或半

结构化的数据,缺乏关系数据库中数据的结构化和组织性.因此,要对原始文档进

行预处理,使其转化为较为规整且能反应文档内容的特征表示.做简单的文档说

明:(a)整理已有的投诉文本内容;(b)提取投诉原因的分类;(c)信息训练集和测试集;(d)

进行特征选取,信息待分类投诉文本.

2.3 文本表达

文本表达的过程主要是对预处理出来的文档进行词法的分割、划分,最终提取出关

键词字段,具体的过程主要包含以下4个方面:

2.3.1 中文分词

中文分词指的是将一个汉字序列切分成一个一个单独的词.中文分词是文本挖掘的

基础,其处理过程就是分词算法,对于输入的一段中文,进过分词之后,能够达到

被电脑自动识别语义的效果.在中文分词阶段,作者采用的是中国科学技术研究所

研制的汉语词法分析系统(ICTCLAS)[4],具体的操作由以下几个部分构成:

(a)词典配置.配置用户字典文件userdict.txt和系统配置文件Configure.xml.

(b)结果验证.通过分割一段文字,来实际检验效果.“用户来电反映,之前通过

上海市世纪联华服务充值50元,但现用户发现未到账 .”,最后可划分为:“用

户/来电/反映,之前/通过/上海市/世纪联华/服务/充值/50元,但/现用户/发现/

未到账”.

(c)模型演练.通过对1000条投诉文本的演练,将经过分词处理的文本,进行统

计、汇总.去除其中部分特殊”高频“,主要包括常见的结构助词等等;同时去除

词频很小的一些划分词.通过以上方法获得了2000多个关键词,再通过人工的干

预,将具有相同意义的词语进行组合、合并,最终得到了897个的关键词.

2.3.2 权重赋值

TF-IDF(term frequency-inverse document frequency)[5-7]是一种用于信

息搜索和信息挖掘的常用加权技术.TF-IDF的主要思想是:如果某个词或短语在一

篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具

有很好的类别区分能力,适合用来分类.TF词频(Term Frequency)指的是某一个

给定的词语在该文件中出现的次数.IDF反文档频率(Inverse Document

Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有

很好的类别区分能力.

(a)计算词频.通过对897个关键词的词频的统计(公式1).

得到了每个关键词的TF值(如图2),TF值越大的话,也就说明了该词在文本中出

现的次数越多,也就意味着该词更加能代表文本所要表达的意思.

图2 关键词对应TF的值

(b)计算逆文档频率.选取1000条投诉文本的记录内容作为语料库(corpus),来

模拟出语言的使用环境,采用如下公式进行计算(公式2):

如果1个词语越常见,那么分母就越大,逆文档频率就越小越接近0.通过对897

个关键词的词频的统计(图3),计算出对应的IDF的值作为统计的依据.

(c)计算TF-IDF.TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言

中的出现次数成反比(公式3).所以,自动提取关键词的算法就是计算出文档的每

个词的TF-IDF值,然后按降序排列,取排在最前面的几个词(图4).

图3 关键词对应的IDF的值

图4 关键词对应的TF-IDF的值

2.3.3 特征选取

根据生成的TF-IDF排列倒序表,用尽可能少的词语表示文本,要求尽可能减少语

义丢失,能够将不同语义的文本区分开来.从训练集中初步梳理出各类别对应的特

征词,合并同义词.通过训练模型,测试集测试结果,调整特征词.在调整的过程

中主要注意以下两点:(a)消除没有区分度的特征词;(b)调整容易混淆的类.

最终给每个特定的类别定义其关键字,来加以区分(表1).

表1 不同类别的区分投诉类别1 投诉类别2 投诉类别3关键词 同义词基础通信

G3上网本上网问题 G3上网本无法上网 上网本/无法/慢 失败,不可,不行使用,

连接,登陆基础通信 G3上网本上网问题 G3上网本上网速度慢 上网本/上网/慢

速度,上网,页面很卡,困难

2.4 知识挖掘

知识挖掘的过程主要进行的是对分词出来的结果进行分类,形成具有区分度的不同

投诉类别.

2.4.1 LIBSVM 模型训练

LIBSVM[8]是台湾大学林智仁副教授等开发设计的一个简单、易于使用和快速

有效的SVM模式识别与回归的软件包.利用开源分类工具-LIBSVM,核函数采

用RBF函数进行模型训练,最后训练得到的模型文件*.range、*.model文件,

并且创建类别代码维表(表2),由于篇幅问题,只取其中的2条分类路径加以说明.

表2 类别代码维表投诉类别1 投诉类别2 投诉类别3预测码基础通信 G3上网本

上网问题 G3上网本上网信号差464基础通信 G3上网本上网问题 G3上网本无法

上网456

2.4.2 对新增投诉文本进行权值赋值和特征表示

新增的投诉文本(格式:投诉编号-投诉内容)进行相应的分词、权值赋值特征表示之

后,输入到LIBSVM软件之中进行比对,进行模型的预测和类别的输出(表3).

表3 测试文本输出结果预测编码 编号待分类投诉文本464 2012-06-17-2184

用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承认有问题,但无

法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快解决.456

2012-06-29-1517 用户来电反映所在地段无法连接上网,要求上门检测,请

查证并处理,谢谢!

2.4.3 预测类别与文本对应

将类别编码维表和测试文本输出结果表按照预测结果进行对应,将测试投诉文本对

应到3层投诉类别(表4).

表4 测试文本分类结果预测码 编号 投诉内容 第一层 第二层 第三层464 2012-

06-17-2184用户反应在浦东南泉北路588号地区信号差问题.交涉后对方承

认有问题,但无法解决,只同意延长一个月使用时间.消费者不予接受,求助尽快

解决.基础通信G3上网本上网问题G3上网本上网问题456 2012-06-29-

1517用户来电反映所在地段无法连接上网,要求上门检测,请查证并处理,谢谢!

基础通信G3上网本上网问题G3上网本无法上网

3 实验结果检测与分析

3.1 评估指标选择

目前有多种方法来评估文本挖掘,下面列出几种比较公认的评估方法和指标(表5).

表5 检测指标指标计算方法分类正确率 计算文本样本与待分类文本的概率得出分

类正确率查准率 正确分类的对象所占对象集的大小查全率 集合中所含指定类别的

对象数占实际目标类中对象数的比例F-score 查准率和查全率的调和均值(查全率

*查准率)/[(查全率+查准率)/2]

分类正确率主要针对分词技术,投诉热点智能分类采用的是目前普及率和好评率较

高的开源分词系统,因此不考虑分类正确率指标.同时,投诉热点模型主要创造并

演进了分类算法,在分类算法中不考虑查全率指标(查全率默认为100%),因此模

型的评估主要采用了查准率的指标(公式4).

Pi为正确分类的导航量,Bi为错误分类的导航量.

3.2 统计结果

采用本文作者所阐述的方法对不同类型的投诉文本进行处理,形成的三级导航路径,

将其与人工分类导航进行比对,进行准确率的统计(表6).

表6 准确率统计分类器 涵盖样本/% 准确率/%宽带882信号 15 80地址 9 89上

网 15 78订购 20 76费用 15 90其他样本 26 75总计98.8 81.4

4 结语

投诉热点智能监控模型主要应用了文本挖掘中的两类核心技术:文本分词技术和分

类技术.通过文本挖掘技术,以达到将投诉文本智能分类的目的.通过一个类型的

投诉导航文本的计算,已完成模型的生成,又随机取出几个投诉文本来进行检测,

说明了该方法的有效性,最后统计出了不同类型分类下的准备率.

常见的分类方法包括:最邻近分类(KNN)、特征选择方法、贝叶斯分类、支持向量

机(SVM)和基于关联的分类.着重讲述了基于SVM的文本分类的方法,在后期的

实践过程中,将综合其余的几种常见文本分类方法进行相关性的研究,不断地优化

当前设计模型,以达到更好的分类效果.

参考文献:

[1]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[2]方辉,王倩.支持向量机的算法研究[J].长春师范大学学报:自然科学版,

2007,26(3):90-91.

[3]王兴起,王维才,谢宗晓等.文本挖掘技术在信息安全风险评估系统中的应

用研究[J].情报理论与实践,2013,36(4):107-110.

[4]夏天,樊孝忠.利用JNI实现 ICTCLAS系统的Java调用[J].计算机应

用,2004,24(2):178-182.

[5]徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工

程与应用,2005,41(1):181-184.

[6]景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TF-IDF及其改进

[J].广西师范大学学报:自然科学版,2003,21(1):142 -146.

[7]卢中宁,张保威.一种基于改进TF-IDF函数的文本分类方法[J].河南师

范大学学报:自然科学版,2012,40(6):158-160.

[8]吴其叶.科技查新的查准度和查全度与文献检索的查全率和查准率的差异

[J].现代情报,2003,23(9):8-9.

[9]朱培根,梅卫江,石秀锋等.基于LIBSVM代用燃料有效功率增量预测方法

的研究[J].石河子大学学报:自然科学版,2012,30(5):657 -660.

发布评论

评论列表 (0)

  1. 暂无评论