最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

面向Web日志的语义聚类算法

IT圈 admin 22浏览 0评论

2024年5月6日发(作者:勇绚)

维普资讯

第24卷第7期 

计算机应用研究 

V01.24 N0.7 

2007年7月 

Application Research of Computers 

July 2007 

面向Web日志的语义聚类算法术 

潘钧 

(扬州大学信息工程学院,江苏扬州225009) 

摘要:由于现有的Web日志缺少明显语义,提出一种语义Web日志模型——swLM,并给出基于该模型的网 

页和用户聚类算法。通过日志概念的语义距离定量计算来聚类网页和用户,奠定了Web个性化服务的基础。 

性能测试实验证明,该模型具有较好的整体性能,能有效地进行网页和用户聚类。 

关键词:Web日志;挖掘;语义;本体 

中图分类号:TP311 文献标志码:A 文章编号:1001—3695(2007)07—0267—03 

Semantic Clustering Algorithm Oriented to Web Log 

PAN Jun 

(School of Information Engineering,Yangzhou University,Yangzhou ¨225009,China) 

Abstract:Existed Web logs were lack of semantics obviously.To improved the efficiency and accuracy of Web mining,a se— 

mantic Web log model SWLM was presented,and two algorithms based on this model was given to cluster pages and users. 

Then,the semantic information could be mining from the Web log,and the semantic distances of log concepts could be compu— 

ted.The test experiment shows that this model has better performance and clusters pages and users effectively.Those results 

can facilitate personalized services and user modeling. 

Key words:Web log;mining;semantic;ontology 

web日志挖掘属于Web使用挖掘。它通过挖掘相关的 基于这三个方面。在数据预处理阶段,文献[5]提出了挖掘异 

Web日志记录,来发现用户访问Web页面的模式,通过分析日 常数据的方法和途径。文献[6]提出了基于最大前向引用的事 

志记录中的规律,识别用户的忠实度、喜好、满意度,发现潜在 

务辨识。在模式发现阶段,文献[7]把服务器日志载人数据立 

用户,增强站点的服务竞争力。但是,现有的Web日志挖掘是 

方体结构,执行OLAP。文献[8]使用Markov模型生成序列模 

基于语法的数据挖掘,舍弃了数据之间丰富的语义关联信 

式,用于Web预取和系统优化;在模式分析阶段,如WebWatcher 

息 0 。为了使Web上的信息具有计算机可理解的形式语义, 

跟踪用户的浏览行为,辨识出用户可能感兴趣的链接并推荐给 

满足智能软件代理(Agent)对www上异构和分布信息的有 

用户。对每个用户,WebWatcher先对其兴趣进行简单的描述, 

效访问及检索 ,在XML2000的会议上,Berners—Lee提出语义 

然后基于该用户的浏览行为和具有相似兴趣的其他用户的浏览 

Web及其层次关系——基于XML和RDF/RDFS,并在此之上 

行为学习该用户的兴趣。但是现阶段的研究大多都是基于语法 

构建本体(Ontology)和逻辑推理规则,以完成基于语义的知识 

的日志挖掘,随着语义Web的逐渐升温 ,把语义知识和领域 

表示和推理,从而能够被计算机所理解和处理。本体提供了语 

本体集成到Web日志挖掘中去已经成为可能。 

义Web上一切对象和行为描述的词汇集合,同时又是Web上 

数据的解释模板。 

2 语义Web日志模型——SWLM 

基于本体的语义Web日志首先定义一个描述概念集,即 

2.1 语义日志模型 

建立符合学科领域要求、用开放语言描述的概念集体系(On— 

基于本体的领域建模的中心任务是建立可共享的领域词 

toloyg Systems),利用概念集体系对Web日志的内容进行语义 

标注或语义挖掘,形成基于语义的日志元数据。在此基础上, 

汇集。 

利用概念集中语义定义、语义关系定义和推理规则,实现基于 

定义1 领域本体(Domain Ontologies)可以定义为一个四 

元组: 

语义的Web日志挖掘,如用户聚类 。 

O={C,R,,,AS} 

1 相关工作 

其中,C和尺分别为概念集合和角色集合。在形式本体中它们 

的定义和描述表现为公理集合,包括等价公理和包含公理。等 

Web日志挖掘是Web挖掘的重要内容之一,也是当前数据 价公理又叫做术语定义,包含公理用于描述概念层次或概念体 

挖掘研究的一个热点问题。Web日志挖掘通常分为数据预处 

系;等价公理可以转换为包含公理。,是领域内个体的集合。 

理、模式发现和模式分析三个阶段 。现有的大量研究工作均 

C、R、,可以统称为领域术语集合 。As是领域断言集合,是 

收稿日期:2006 06—01;修返15t期:2006—08—03 基金项目:国家自然科学基金资助项目(70471090,70472005);江苏省自然科学基金资 

助项目(BK2005046) 

作者简介:潘钧(1966一),女,江苏江都人,实验师,主要研究方向为数据挖掘及语义Web(jpan@yzu.edu cn) 

维普资讯

268・ 计算机应用研究 2007生 

概念和角色到个体映射关系的集合。 

在语义Web中,日志属性的解释是基于本体的。考虑到 

Web的开放性、动态性和分布性,需要对分布式的本体进行集 

成、合并与映射等工作。 

定义2 本体集合及词汇表(Ontologies Set and Voeabu— 

lary)。Web上一组本体的集合,记做: 

OS={0 Ii∈,} 

个语义对象组成,分别计算对应的单个语义对象的相似度;然 

后利用式(2)加权求和得到整个查询字符串的相似度,它也就 

代表了动态网页的语义相似度。利用这个相似度可以对动态 

网页按照一定的算法进行聚类,也可以根据不同用户的语义事 

务的相似度按照一定算法来对用户进行聚类。这样用户在查 

询相关网页时可以根据用户的查询信息对用户进行实时推荐 

语义相似度相对较高的网页,也可以对有较高语义相似度的用 

户进行类似推荐。 

m 

其中,,={iI 1≤i≤n,n E N};n表示本体数量,具体的 又是特 

定本体的指标。 

如果采用V(0 )表示本体0 的词汇, (0 )、馏(0 )、 

VI(0 )分别表示本体0 的概念词汇、角色词汇和个体词汇,则 

Sim(Tl, )= 

…, 1 

SemSim(Ol,O2)/(ITl I ITl I) (2) 

下面给出利用语义相似进行网页聚类和用户聚类的两个 

有 

V(0 )= (C )U (R )U (, ) 

V(os)={uI"∈V(0 ),0 ∈OS} 

定义3语义Web日志模型(Semantic Web Log Mode1)一 

个语义Web日志可以用下列三元组描述: 

SWL(P,O,LOI) 

其中,SWL为语义Web日志的名字;P是Web日志属性集合; 

O是支持SWL的本体;LOI是Web日志属性在本地的解释。 

般说来,在Web的分布式环境中,本体是随着客户端访问传 

输的。 

2.2 基于本体的语义相似度计算 

在一个相应的本体概念层次树中,计算两个语义对象相似 

问题,应该主要考虑以下三个问题: 

(1)距离。这是主要的衡量标准,通常层次树中距离越远 

的语义对象其差异越大,即相似度就越小;距离越近的语义对 

象其差异越小,即相似度就越大。这是直观上容易得到的。 

(2)深度。路径长度相同的两个节点,如果位于概念层次 

的越底层,其语义距离较大。比如动物和植物、哺乳动物和爬 

行动物,这两对概念间的路径长度在一概念层次树中均是2。 

但前一对词处于语义树的较高层,因此认为其语义距离较大, 

后一对词处于语义树的较低层,其语义距离更小。 

(3)区域密度。路径长度相同的两个节点,如果位于概念 

层次树中高密度区域,其语义距离应大于位于低密度区域。本 

体中概念描述的粗细程度不均。假设某些区域概念的描述极 

其详尽,而有些区域的概念描述又较粗疏,所以加入了概念层 

次树区域密度对语义距离的影响。 

综合上面影响语义相似的主要因素,给出基于本体的语义 

相似度计算公式: 

Ser ̄Sim(0l,02)=[ X( l+f )]/{[Dis(0l,02)+ ]Xmax(I l— 

I, )} (1) 

3基于SWLM的网页聚类与用户聚类算法 

对于一个包括一定数量的静态页面和大量的根据用户查 

询请求动态生成页面的网站来说,它的Log中含有大量的语义 

信息。针对这些语义信息,用计算事务语义相似度的方法来对 

oLg记录进行处理。为此,必须建立一个Web与用户的交互模 

型,利用这个交互模型来处理语义。 

根据式(1)可以在概念层次树结构中判断两个语义对象 

的相似度。对于一个产生动态网页的查询字符串由一个或多 

算法: 

算法1 利用语义相似进行网页聚类的算法 

输入:网页集合{Pl,P2,P3,…,P },阈值0 

输出:语义相似类Cl={Pl ,P2 ,…,P },C2=}Pl”,P2” 

P },…,Ck={Pl ,P2 ,…,P。 } 

算法描述: 

P;=<noun。><verb。> 

for(i=1;i<=n;i++) 

{f0r(.i=1;j<=n;j++) 

{use式(1)tofigure out Sim(<nounl>,<nounl>) 

Sim(<verb,>,<verb.>) 

use式(2)to fiugre out Sim(P.,P.) 

if Sim(P。,P1)>=0,then put Pl into C。 

} 

算法2利用语义相似进行用户聚类的算法 

输入:语义事务集合T={T。,T2,…,T }和阈值0 

输出:用户集合Ul={Tl ,T2 ,…,T },U2={Tl ,T2 

T },…,Uk={Tl ,T2 ,…,T } 

算法描述: 

设T={Pl,P2,P3,…,P。} 

用算法1得到网页集合cl,c2,…,ck 

a:0: 

f0r(i=1;i<:n;i++) 

{for(J:1;j<=n;j++) 

{if P ∈Ti and PJ∈Tj and PI,PJ∈C then a+=1;} 

if a/n>:0 ,then put Tj into U。 

l 

4实验及分析 

使用www.anima1.net网站的Web服务器的日志文件来测 

试算法和公式。为了加以对比,也使用传统的基于关键词匹配 

的方法来聚类网页和用户。选取网站日志文件2005年1月1 

日00:00:00~1月31日23:59:59所有的访问信息。共有 

12 345个不同的IP对123 456个网页进行了1 234 567次访 

问。以其中的102 354个由查询字符串生成的动态网页为测 

试源,并从中抽出了123 561次有效的会话过程。首先,用本 

体来描述整个站点的名词和动词,然后再通过把用于产生动态 

页面的查询词语集映射到相应的概念层次。根据公式计算对 

应词语的语义相似度,然后再利用算法对这些动态网页聚类, 

从而为用户提供推荐。 

search.php?key animal+call+ny 

Classl:search.php?key:bird+have+wing 

esarch.php?key=bird 

search.php?key:eagle・・・ 

search.php?key:wild+animals 

Class2:search.php?key=swan 

search.php?key crane… 

Class3:search.php?key:animals+salvation 

search.php?key animals protect 

维普资讯

第7期 潘钧:面向Web日志的语义聚类算法 ・269・ 

分别用本文中的算法和基于关键词匹配的算法进行用户 

键词匹配的不足。随着语义网的兴起,语义知识越来越多地受 

和网页聚类测试,并对聚类结果进行比较。图1给出了使用本 到人们的关注和利用。该算法只是阐述了一个可利用的方向, 

文算法和使用关键词匹配算法结果的比较。其中, 轴表示类 算法的效率问题、静态网页的语义表示问题等都是下一步的研 

的数量,Y轴表示每一类的数量。从结果中可以清楚地看出, 究重点。 

使用基于关键词匹配的算法聚类,几乎大部分的用户都独自成 

参考文献: 

为一个类。这样显然忽视了用户之间的相似性和共性。表1 

[1]HAN J,KAMBER M.数据挖掘:概念与技术[M].范明,盂小峰, 

给出的是使用本文算法聚类的部分结果。从表1可以明显看 

等译.北京:机械工业出版社,2001:44l-443. 

出,如果使用基于关键词匹配的方法聚类,那么很多具有相似 

[2]王继成,潘金责,张福炎.Web文本挖掘技术研究[J].计算机研 

内容的网页均要被划分在不同的类中。而使用本文算法把页 

究与发展,1998,37(5):513・5加. 

面合理地分成相应数目的类,每个类的页面之间的确存在着相 

[3]王实.高文,李锦涛,Web数据挖掘[J].计算机科学,2000,21 

似的内容,可以一并推荐给用户。 

(4):28-31. 

40 

[4]CHEN Hsinchun,CHUNG Wingyan,JENNIFER J,et a1.Crime data 

30 

mining:a general framework and some examples[J].IEEE Comput- 

er,2004,37(4):50-56. 

20 

10 

_- 

[5]HAUCK R V,CHEN H.Coplink:a case of intelligent analysis and 

-_

-__ 

O 

- 

knowledge management[C]//Proc of the International Conference on 

Information Systems.Noah Carolina,USA:[s.n.],1999:15-28. 

图1 用户语法聚类和语义聚类结果比较图 

[6] AGRAWAL R,GEHRKE J,GUNOPULOS D.Automatic sub space 

表1 页面聚类结果统计表 

clustering ofhigh dimensional data for data mining applications[C]// 

Proc of International Conference on Management of Data.New York: 

ACM Press,1998:95-105. 

[7]CANNATARO M,COMITO C、A data mining ontology for grid pro— 

gramming[C]//The i st International Workshop oi1 Semantics in Peer- 

to-Peer and Grid Computing[C].Budapest,Hungary:[s.n.],2003: 

5结束语 

113.134"

. 

[8]MEHTA M,AGAWAL R,RISSANEN J.SLIQ:a fast scalable classi— 

对于大部分由用户的查询生成动态网页的网站来说,采用 

iter ofr data mining[C]//Proc of the 5th International Conference on 

本文的公式和算法来聚类网页及用户,向用户推荐相关的感兴 

Extending Datbaase Technology(EDBT).Avignon,Frnace:[s.n.], 

趣的网页是合理有效的。该算法和公式克服了传统的只是关 

l996:18.32. 

(上接第266页)太网的大规模分布式网络化控制随着计算机、 

part I:analysis[J].ASME Journal of Dynamic Systems,Measu- 

通信、控制技术的飞速发展而成为工业自动化领域不可逆转的 

rement and Control,1988,110(4):367-373. 

发展趋势。然而当工业以太网以总线型拓扑结构实现时,通常 

[3]JOACHIM F.PROFINET-Scalbale factory communication for all印- 

会出现大量交换机级联的情况,从而降低了网络化控制系统的 

plication[C]//Proc of IEEE Intenrational Workshop on Factoyr Corn- 

性能和稳定性。本文研究了一类采用全双工以太网连接,通过 

munication System.[s.1.]:[s.n.],2004. 

级联交换机构成类似工业控制领域中常见的总线型拓扑结构 

[4]MILLS D L.Executive summary-computer network time synchroniza— 

的网络化控制系统。首先分析了系统的结构特征,并通过实验 

tion[EB/OL].[2003].http://www.eecis.ude1.edu/~mills/ex- 

ec.html#intor. 

详细分析了其网络时延特性;之后讨论了此类控制结构在基于 

[5]徐皑冬,王宏,邢志浩.工业以太网实时通信技术[J].信息与控 

时间的系统分析和设计过程中的时钟误差成因;最后结合精确 

制,2005,34(1):60-65. 

时钟同步协议,给出了一种基于边界时钟和旁路时钟的时钟同 

[6] ANS ̄IEEE Std.1588-2002.IEEE standard for a precision clock 

步实现模式,用于此类网络化控制系统的时钟同步方法的实 

synchronization protocol for networked measurement and control sys- 

施。关于网络化控制系统的时钟同步还有许多研究内容。例 

tems[S].[S.1.]:[s.n.],2002. 

如本文是在假设传输链路双向对称的情况下讨论时钟同步问 

[7]WEIBEL H.High precision clock synchronization according to IEEE 

题,而实际应用中,尤其是网络负载很大时,这种情况几乎很难 

1588 implementation and performance issues[C]//The Embedded 

实现。此外大规模分布式混杂网络化控制系统(如工业现场 

World 2005 Conference[C].[s.1.]:[s.n.],2005. 

中同时存在现场总线、工业以太网构成的异构网络化控制系 

[8]CRISTIAN F.A probabilistic approach to distirbuted clcok synchroni- 

统)的分布式时钟同步问题还存在许多理论和实践工作,有待 

zation[J].Distributed Computing,1998,3:146—158. 

进一步研究。 

[9]ARVIND K.Probabilistic clcok synchronization in distirbuted system 

[J].IEEE Transactions on Parallel and Distributed Systems, 

参考文献: 

l994,5(5):474—487. 

[1]WALSH G C,YE H,BUSHELL L G.Stbaility analysis of networked 

[10]JASPERNEITE J,SHEHAB K,WEBER K.Enhancements to the time 

control systems[C]//Proc of American Control Conference.[S.1.]: 

synchronization smnd ̄d IEEE 1588 for a system of cascaded bridges 

[s.i1.],1999:2876—2880. 

[C]//The 5th IEEE International Workshop on Factory Communica- 

[2]HALEVI Y,RAY A.Integrated communication and control systems: 

tion Systems-【s.1.]:[s.n.],2004. 

2024年5月6日发(作者:勇绚)

维普资讯

第24卷第7期 

计算机应用研究 

V01.24 N0.7 

2007年7月 

Application Research of Computers 

July 2007 

面向Web日志的语义聚类算法术 

潘钧 

(扬州大学信息工程学院,江苏扬州225009) 

摘要:由于现有的Web日志缺少明显语义,提出一种语义Web日志模型——swLM,并给出基于该模型的网 

页和用户聚类算法。通过日志概念的语义距离定量计算来聚类网页和用户,奠定了Web个性化服务的基础。 

性能测试实验证明,该模型具有较好的整体性能,能有效地进行网页和用户聚类。 

关键词:Web日志;挖掘;语义;本体 

中图分类号:TP311 文献标志码:A 文章编号:1001—3695(2007)07—0267—03 

Semantic Clustering Algorithm Oriented to Web Log 

PAN Jun 

(School of Information Engineering,Yangzhou University,Yangzhou ¨225009,China) 

Abstract:Existed Web logs were lack of semantics obviously.To improved the efficiency and accuracy of Web mining,a se— 

mantic Web log model SWLM was presented,and two algorithms based on this model was given to cluster pages and users. 

Then,the semantic information could be mining from the Web log,and the semantic distances of log concepts could be compu— 

ted.The test experiment shows that this model has better performance and clusters pages and users effectively.Those results 

can facilitate personalized services and user modeling. 

Key words:Web log;mining;semantic;ontology 

web日志挖掘属于Web使用挖掘。它通过挖掘相关的 基于这三个方面。在数据预处理阶段,文献[5]提出了挖掘异 

Web日志记录,来发现用户访问Web页面的模式,通过分析日 常数据的方法和途径。文献[6]提出了基于最大前向引用的事 

志记录中的规律,识别用户的忠实度、喜好、满意度,发现潜在 

务辨识。在模式发现阶段,文献[7]把服务器日志载人数据立 

用户,增强站点的服务竞争力。但是,现有的Web日志挖掘是 

方体结构,执行OLAP。文献[8]使用Markov模型生成序列模 

基于语法的数据挖掘,舍弃了数据之间丰富的语义关联信 

式,用于Web预取和系统优化;在模式分析阶段,如WebWatcher 

息 0 。为了使Web上的信息具有计算机可理解的形式语义, 

跟踪用户的浏览行为,辨识出用户可能感兴趣的链接并推荐给 

满足智能软件代理(Agent)对www上异构和分布信息的有 

用户。对每个用户,WebWatcher先对其兴趣进行简单的描述, 

效访问及检索 ,在XML2000的会议上,Berners—Lee提出语义 

然后基于该用户的浏览行为和具有相似兴趣的其他用户的浏览 

Web及其层次关系——基于XML和RDF/RDFS,并在此之上 

行为学习该用户的兴趣。但是现阶段的研究大多都是基于语法 

构建本体(Ontology)和逻辑推理规则,以完成基于语义的知识 

的日志挖掘,随着语义Web的逐渐升温 ,把语义知识和领域 

表示和推理,从而能够被计算机所理解和处理。本体提供了语 

本体集成到Web日志挖掘中去已经成为可能。 

义Web上一切对象和行为描述的词汇集合,同时又是Web上 

数据的解释模板。 

2 语义Web日志模型——SWLM 

基于本体的语义Web日志首先定义一个描述概念集,即 

2.1 语义日志模型 

建立符合学科领域要求、用开放语言描述的概念集体系(On— 

基于本体的领域建模的中心任务是建立可共享的领域词 

toloyg Systems),利用概念集体系对Web日志的内容进行语义 

标注或语义挖掘,形成基于语义的日志元数据。在此基础上, 

汇集。 

利用概念集中语义定义、语义关系定义和推理规则,实现基于 

定义1 领域本体(Domain Ontologies)可以定义为一个四 

元组: 

语义的Web日志挖掘,如用户聚类 。 

O={C,R,,,AS} 

1 相关工作 

其中,C和尺分别为概念集合和角色集合。在形式本体中它们 

的定义和描述表现为公理集合,包括等价公理和包含公理。等 

Web日志挖掘是Web挖掘的重要内容之一,也是当前数据 价公理又叫做术语定义,包含公理用于描述概念层次或概念体 

挖掘研究的一个热点问题。Web日志挖掘通常分为数据预处 

系;等价公理可以转换为包含公理。,是领域内个体的集合。 

理、模式发现和模式分析三个阶段 。现有的大量研究工作均 

C、R、,可以统称为领域术语集合 。As是领域断言集合,是 

收稿日期:2006 06—01;修返15t期:2006—08—03 基金项目:国家自然科学基金资助项目(70471090,70472005);江苏省自然科学基金资 

助项目(BK2005046) 

作者简介:潘钧(1966一),女,江苏江都人,实验师,主要研究方向为数据挖掘及语义Web(jpan@yzu.edu cn) 

维普资讯

268・ 计算机应用研究 2007生 

概念和角色到个体映射关系的集合。 

在语义Web中,日志属性的解释是基于本体的。考虑到 

Web的开放性、动态性和分布性,需要对分布式的本体进行集 

成、合并与映射等工作。 

定义2 本体集合及词汇表(Ontologies Set and Voeabu— 

lary)。Web上一组本体的集合,记做: 

OS={0 Ii∈,} 

个语义对象组成,分别计算对应的单个语义对象的相似度;然 

后利用式(2)加权求和得到整个查询字符串的相似度,它也就 

代表了动态网页的语义相似度。利用这个相似度可以对动态 

网页按照一定的算法进行聚类,也可以根据不同用户的语义事 

务的相似度按照一定算法来对用户进行聚类。这样用户在查 

询相关网页时可以根据用户的查询信息对用户进行实时推荐 

语义相似度相对较高的网页,也可以对有较高语义相似度的用 

户进行类似推荐。 

m 

其中,,={iI 1≤i≤n,n E N};n表示本体数量,具体的 又是特 

定本体的指标。 

如果采用V(0 )表示本体0 的词汇, (0 )、馏(0 )、 

VI(0 )分别表示本体0 的概念词汇、角色词汇和个体词汇,则 

Sim(Tl, )= 

…, 1 

SemSim(Ol,O2)/(ITl I ITl I) (2) 

下面给出利用语义相似进行网页聚类和用户聚类的两个 

有 

V(0 )= (C )U (R )U (, ) 

V(os)={uI"∈V(0 ),0 ∈OS} 

定义3语义Web日志模型(Semantic Web Log Mode1)一 

个语义Web日志可以用下列三元组描述: 

SWL(P,O,LOI) 

其中,SWL为语义Web日志的名字;P是Web日志属性集合; 

O是支持SWL的本体;LOI是Web日志属性在本地的解释。 

般说来,在Web的分布式环境中,本体是随着客户端访问传 

输的。 

2.2 基于本体的语义相似度计算 

在一个相应的本体概念层次树中,计算两个语义对象相似 

问题,应该主要考虑以下三个问题: 

(1)距离。这是主要的衡量标准,通常层次树中距离越远 

的语义对象其差异越大,即相似度就越小;距离越近的语义对 

象其差异越小,即相似度就越大。这是直观上容易得到的。 

(2)深度。路径长度相同的两个节点,如果位于概念层次 

的越底层,其语义距离较大。比如动物和植物、哺乳动物和爬 

行动物,这两对概念间的路径长度在一概念层次树中均是2。 

但前一对词处于语义树的较高层,因此认为其语义距离较大, 

后一对词处于语义树的较低层,其语义距离更小。 

(3)区域密度。路径长度相同的两个节点,如果位于概念 

层次树中高密度区域,其语义距离应大于位于低密度区域。本 

体中概念描述的粗细程度不均。假设某些区域概念的描述极 

其详尽,而有些区域的概念描述又较粗疏,所以加入了概念层 

次树区域密度对语义距离的影响。 

综合上面影响语义相似的主要因素,给出基于本体的语义 

相似度计算公式: 

Ser ̄Sim(0l,02)=[ X( l+f )]/{[Dis(0l,02)+ ]Xmax(I l— 

I, )} (1) 

3基于SWLM的网页聚类与用户聚类算法 

对于一个包括一定数量的静态页面和大量的根据用户查 

询请求动态生成页面的网站来说,它的Log中含有大量的语义 

信息。针对这些语义信息,用计算事务语义相似度的方法来对 

oLg记录进行处理。为此,必须建立一个Web与用户的交互模 

型,利用这个交互模型来处理语义。 

根据式(1)可以在概念层次树结构中判断两个语义对象 

的相似度。对于一个产生动态网页的查询字符串由一个或多 

算法: 

算法1 利用语义相似进行网页聚类的算法 

输入:网页集合{Pl,P2,P3,…,P },阈值0 

输出:语义相似类Cl={Pl ,P2 ,…,P },C2=}Pl”,P2” 

P },…,Ck={Pl ,P2 ,…,P。 } 

算法描述: 

P;=<noun。><verb。> 

for(i=1;i<=n;i++) 

{f0r(.i=1;j<=n;j++) 

{use式(1)tofigure out Sim(<nounl>,<nounl>) 

Sim(<verb,>,<verb.>) 

use式(2)to fiugre out Sim(P.,P.) 

if Sim(P。,P1)>=0,then put Pl into C。 

} 

算法2利用语义相似进行用户聚类的算法 

输入:语义事务集合T={T。,T2,…,T }和阈值0 

输出:用户集合Ul={Tl ,T2 ,…,T },U2={Tl ,T2 

T },…,Uk={Tl ,T2 ,…,T } 

算法描述: 

设T={Pl,P2,P3,…,P。} 

用算法1得到网页集合cl,c2,…,ck 

a:0: 

f0r(i=1;i<:n;i++) 

{for(J:1;j<=n;j++) 

{if P ∈Ti and PJ∈Tj and PI,PJ∈C then a+=1;} 

if a/n>:0 ,then put Tj into U。 

l 

4实验及分析 

使用www.anima1.net网站的Web服务器的日志文件来测 

试算法和公式。为了加以对比,也使用传统的基于关键词匹配 

的方法来聚类网页和用户。选取网站日志文件2005年1月1 

日00:00:00~1月31日23:59:59所有的访问信息。共有 

12 345个不同的IP对123 456个网页进行了1 234 567次访 

问。以其中的102 354个由查询字符串生成的动态网页为测 

试源,并从中抽出了123 561次有效的会话过程。首先,用本 

体来描述整个站点的名词和动词,然后再通过把用于产生动态 

页面的查询词语集映射到相应的概念层次。根据公式计算对 

应词语的语义相似度,然后再利用算法对这些动态网页聚类, 

从而为用户提供推荐。 

search.php?key animal+call+ny 

Classl:search.php?key:bird+have+wing 

esarch.php?key=bird 

search.php?key:eagle・・・ 

search.php?key:wild+animals 

Class2:search.php?key=swan 

search.php?key crane… 

Class3:search.php?key:animals+salvation 

search.php?key animals protect 

维普资讯

第7期 潘钧:面向Web日志的语义聚类算法 ・269・ 

分别用本文中的算法和基于关键词匹配的算法进行用户 

键词匹配的不足。随着语义网的兴起,语义知识越来越多地受 

和网页聚类测试,并对聚类结果进行比较。图1给出了使用本 到人们的关注和利用。该算法只是阐述了一个可利用的方向, 

文算法和使用关键词匹配算法结果的比较。其中, 轴表示类 算法的效率问题、静态网页的语义表示问题等都是下一步的研 

的数量,Y轴表示每一类的数量。从结果中可以清楚地看出, 究重点。 

使用基于关键词匹配的算法聚类,几乎大部分的用户都独自成 

参考文献: 

为一个类。这样显然忽视了用户之间的相似性和共性。表1 

[1]HAN J,KAMBER M.数据挖掘:概念与技术[M].范明,盂小峰, 

给出的是使用本文算法聚类的部分结果。从表1可以明显看 

等译.北京:机械工业出版社,2001:44l-443. 

出,如果使用基于关键词匹配的方法聚类,那么很多具有相似 

[2]王继成,潘金责,张福炎.Web文本挖掘技术研究[J].计算机研 

内容的网页均要被划分在不同的类中。而使用本文算法把页 

究与发展,1998,37(5):513・5加. 

面合理地分成相应数目的类,每个类的页面之间的确存在着相 

[3]王实.高文,李锦涛,Web数据挖掘[J].计算机科学,2000,21 

似的内容,可以一并推荐给用户。 

(4):28-31. 

40 

[4]CHEN Hsinchun,CHUNG Wingyan,JENNIFER J,et a1.Crime data 

30 

mining:a general framework and some examples[J].IEEE Comput- 

er,2004,37(4):50-56. 

20 

10 

_- 

[5]HAUCK R V,CHEN H.Coplink:a case of intelligent analysis and 

-_

-__ 

O 

- 

knowledge management[C]//Proc of the International Conference on 

Information Systems.Noah Carolina,USA:[s.n.],1999:15-28. 

图1 用户语法聚类和语义聚类结果比较图 

[6] AGRAWAL R,GEHRKE J,GUNOPULOS D.Automatic sub space 

表1 页面聚类结果统计表 

clustering ofhigh dimensional data for data mining applications[C]// 

Proc of International Conference on Management of Data.New York: 

ACM Press,1998:95-105. 

[7]CANNATARO M,COMITO C、A data mining ontology for grid pro— 

gramming[C]//The i st International Workshop oi1 Semantics in Peer- 

to-Peer and Grid Computing[C].Budapest,Hungary:[s.n.],2003: 

5结束语 

113.134"

. 

[8]MEHTA M,AGAWAL R,RISSANEN J.SLIQ:a fast scalable classi— 

对于大部分由用户的查询生成动态网页的网站来说,采用 

iter ofr data mining[C]//Proc of the 5th International Conference on 

本文的公式和算法来聚类网页及用户,向用户推荐相关的感兴 

Extending Datbaase Technology(EDBT).Avignon,Frnace:[s.n.], 

趣的网页是合理有效的。该算法和公式克服了传统的只是关 

l996:18.32. 

(上接第266页)太网的大规模分布式网络化控制随着计算机、 

part I:analysis[J].ASME Journal of Dynamic Systems,Measu- 

通信、控制技术的飞速发展而成为工业自动化领域不可逆转的 

rement and Control,1988,110(4):367-373. 

发展趋势。然而当工业以太网以总线型拓扑结构实现时,通常 

[3]JOACHIM F.PROFINET-Scalbale factory communication for all印- 

会出现大量交换机级联的情况,从而降低了网络化控制系统的 

plication[C]//Proc of IEEE Intenrational Workshop on Factoyr Corn- 

性能和稳定性。本文研究了一类采用全双工以太网连接,通过 

munication System.[s.1.]:[s.n.],2004. 

级联交换机构成类似工业控制领域中常见的总线型拓扑结构 

[4]MILLS D L.Executive summary-computer network time synchroniza— 

的网络化控制系统。首先分析了系统的结构特征,并通过实验 

tion[EB/OL].[2003].http://www.eecis.ude1.edu/~mills/ex- 

ec.html#intor. 

详细分析了其网络时延特性;之后讨论了此类控制结构在基于 

[5]徐皑冬,王宏,邢志浩.工业以太网实时通信技术[J].信息与控 

时间的系统分析和设计过程中的时钟误差成因;最后结合精确 

制,2005,34(1):60-65. 

时钟同步协议,给出了一种基于边界时钟和旁路时钟的时钟同 

[6] ANS ̄IEEE Std.1588-2002.IEEE standard for a precision clock 

步实现模式,用于此类网络化控制系统的时钟同步方法的实 

synchronization protocol for networked measurement and control sys- 

施。关于网络化控制系统的时钟同步还有许多研究内容。例 

tems[S].[S.1.]:[s.n.],2002. 

如本文是在假设传输链路双向对称的情况下讨论时钟同步问 

[7]WEIBEL H.High precision clock synchronization according to IEEE 

题,而实际应用中,尤其是网络负载很大时,这种情况几乎很难 

1588 implementation and performance issues[C]//The Embedded 

实现。此外大规模分布式混杂网络化控制系统(如工业现场 

World 2005 Conference[C].[s.1.]:[s.n.],2005. 

中同时存在现场总线、工业以太网构成的异构网络化控制系 

[8]CRISTIAN F.A probabilistic approach to distirbuted clcok synchroni- 

统)的分布式时钟同步问题还存在许多理论和实践工作,有待 

zation[J].Distributed Computing,1998,3:146—158. 

进一步研究。 

[9]ARVIND K.Probabilistic clcok synchronization in distirbuted system 

[J].IEEE Transactions on Parallel and Distributed Systems, 

参考文献: 

l994,5(5):474—487. 

[1]WALSH G C,YE H,BUSHELL L G.Stbaility analysis of networked 

[10]JASPERNEITE J,SHEHAB K,WEBER K.Enhancements to the time 

control systems[C]//Proc of American Control Conference.[S.1.]: 

synchronization smnd ̄d IEEE 1588 for a system of cascaded bridges 

[s.i1.],1999:2876—2880. 

[C]//The 5th IEEE International Workshop on Factory Communica- 

[2]HALEVI Y,RAY A.Integrated communication and control systems: 

tion Systems-【s.1.]:[s.n.],2004. 

发布评论

评论列表 (0)

  1. 暂无评论