2024年4月2日发(作者:柏小蕊)
REGION INFO
数字地方
基于查询子意图进行匹配的多样性搜索创新研究
◆
严国莉 王保林 王新增 王胜利
摘要:
互联网快速发展,信息技术日新月异,人们已进入了一个信息爆炸的时代。人们获取的知识
只是知识库里很小的一部分,网页搜索是必然发生的事情。多样性搜索已经逐渐成为提高网页搜索效率
和用户满意度的一个重要因素。论文提出了一种基于查询子意图进行匹配的多样性搜索创新研究算法。
该算法首先根据网页检索日志构建用户的行为模型,然后根据用户输入的查询词,挖掘出用户的查询子
意图。同时,基于查询结果的关键词对传统查询结果重排序。最后将排序后的结果和用户查询子意图进
行匹配,挖掘出满足用户需要的搜索结果,并排序展现给用户,从而给用户提供了多样化的搜索结果。
关键词:
信息检索;搜索引擎;多样性检索;查询子意图;创新研究
一、前言
信息爆炸的时代,任何人都离不开搜索引擎。打开任何一个
搜索引擎,输入“笔记本”一词,立马出现了很多与“笔记本”相
关的主题。仔细看列出的搜索结果中,有各类笔记本电脑,有用来
做文字记录的本子,也有以笔记本命名的各类网络论坛。互联网用
户量巨大,就意味着每个用户的信息需求千差万别。即使同一个用
户、不同时间段、输入同样的查询词,其希望的查询结果也是各种
各样。所以,不同用户,需求不同;相同用户,需求也不同。如何
让搜索结果满足用户的需要是互联网思维的核心问题。
网络时代我们不用担心信息被扔进垃圾堆而永远丢失,它们
一定都被存在某处。我们所接触到的信息库自身越来越像个垃圾
堆,无论何时要找什么,总发现暂时没用的信息远远多过有用的
信息。哪些信息是有用的?哪些信息和用户需求真正相关?哪些
信息是用户可以信赖的?因此,要对现有信息进行提取和加工,
成为对我们有用的信息。
搜索引擎是信息获取的重要工具。但搜索引擎的结果要切实
满足用户的需求,需要将搜索结果多样化,基于以下原因:一是
用户数量巨大,意味着搜索引擎要处理大量用户的查询意图,即
不同用户对信息的需求;二是即使同一个查询词,不同的用户也
意味着有不同的查询需求,如上文提到的“笔记本”一词的搜索;
三是由于用户的惰性,输入的检索词非常简洁,而且呈现越来越
短的趋势
[1]
;四是受查询长度的限制,用户所输入的查询词往往
不能全面的代表其真实需求
[2]
,同一个查询之下可能涵盖多个不
同的子意图
[3]
。因此,搜索引擎很难从搜索词本身获取用户查询
意图的详细信息。而用户在搜索引擎中输入搜索词时,希望搜索
结果能满足用户的搜索意图。用户和查询结果之间的矛盾如何解
决?用户关注的话题是什么?用户真正想要的结果是什么?如何
在浩瀚的搜索结果中,找到满足用户意图的搜索结果?如何使搜
索引擎在尽可能靠前的位置返回能满足用户需求信息的网页,从
而使用户也能快速得到想要的搜索结果? 为此,研究者们提出了
多样化检索的方法,并进行多样性搜索的研究
[4-8]
。
本文的研究问题就是:可否为用户提供一个小规模的多样性
搜索结果,用户通过阅读这一子集,就可能掌握全部搜索结果中的
绝大多数内容,同时多样性子集内的信息冗余尽量小。因此,本文
利用数据挖掘技术,提出了一种基于用户查询子意图进行匹配的多
样性搜索算法,从而为用户提供多样性搜索结果。该算法首先建立
了用户行为模型,然后挖掘出用户查询子意图,最后将原始搜索结
果和用户查询子意图匹配,获取用户的多样性搜索结果。
二、文献综述
本文研究了基于查询子意图的多样性搜索算法。文中先梳理
相关理论,对相关文献进行综述。基于前人的研究,提出本文的
理论贡献。
(一)搜索引擎
信息检索技术随着人们对信息的需求而产生,用于帮助人们
从海量信息中更快速更准确地获得满足信息需求的一门技术。搜
索引擎是获取互联网海量信息的重要工具。用户在搜索引擎中输
入要查询的内容,搜索引擎会返回与查询词相关的结果。目前,
很多搜索引擎都取得了巨大的商业成功。主流的搜索引擎有谷歌
(google)、百度(baidu)、必应(bing)、搜狐(sohu)等。国内
还有360搜索、搜狗、有道搜索、阿里云搜索、盘古搜索等。这
不仅体现了信息检索巨大的商业价值,同时也促进了信息检索技
术的快速发展。
(二)查询子意图
不同用户的查询要求不一样;同样的用户,不同时间地点输
入的查询需求不一样。用户的查询需求即为查询子意图。查询子意
图就是用户希望通过搜索引擎查询到的搜索结果。子意图实际上是
对用户搜索内容的挖掘,发现隐含在当前查询下的不同子意图。
挖掘查询子意图的方法有如下几类:一是从搜索日志中进行
挖掘
[9-10]
;二是从文档集合中进行挖掘
[11]
;三是利用第三方资源
进行挖掘
[12]
,如维基百科、Word Net、知网等;四是直接利用一些
主流搜索引擎提供的结果作为原始查询的候选子查询
[13]
。
(三)多样性搜索
多样性检索是禁忌搜索(Tabu Search-TS)中一种。TS是一种
应用广泛的解决组合优化问题的全局优化算法。禁忌搜索分集中
性搜索(intensification)和多样性搜索(diversification)。集中性搜索策
略用于加强对当前搜索到的优良解的领域做进一步得更为充分的
搜索。多样性搜索则用于拓宽搜索区域,尤其是未知区域,特别
是当搜索陷于局部最优时,多样性搜索可改变搜索的方向,跳出
局部最优,从而实现全局优化。
随着大数据的井喷式发展,多样化问题受到重视
[14-15]
,越
来越多的学者和搜索引擎公司进行了多样化搜索的研究
[6-8,16]
。
Carbonell和Goldstein(1998)提出的MMR方法在保持文档与用户
查询相关性的同时,减少了结果文档的冗余度
[4]
。Zhai等(2003)
提出基于语言模型框架,对搜索到的结果文档的多样性和相关性
进行平衡
[17]
。Gollapudihe 和Sharma(2009)提出采用公理化的方法
对多样性问题进行描述和分析,并提出了三个优化目标,把其中
信息系统工程 │ 2019.9.20
19
REGION INFO
数字地方
两个目标还原为离散问题,用2种优化算法MMD和MSD进行求
解
[18]
。Zhu等(2007)提出了Grasshopper算法,把集中性、多样
性和优先性统一在吸收马尔马夫随机游走的框架下进行优化
[19]
。
Yue和Joachims(2008)提出一种监督式的结构学习方法SVM,通
过学习得到单个词的重要性,然后选择最优的结果文档子集覆盖
最多的重要的词,让排序结果多样化
[20]
。Agrawal等(2009)在已
知查询和文档的类别信息的情况下,通过最大化在列表前K个文
档中找到至少一个相关文档的可能性达到多样化的效果
[16]
。Santos
等(2010)提出多样化框架xQuad,显式对查询词蕴含的子查询进
行建模,然后通过估计结果文档与子查询的相关度进行结果多样
化
[7]
。He等(2011)提出了一种基于查询特有集群和排序的结果
多样化的框架,在这个框架里,多样性被限制文档中,这些文档
包含了高比例的相关性
[21]
。实证结果表明提出的框架提高了现有
的几种多样性方法的表现。该框架还产生了一个简单而有效的簇
为基础的多样化。
本文基于多样化搜索理论,提出了一种基于查询子意图进行
匹配的多样性搜索算法。
三、设计方法
传统的信息检索分两条主线:前台用户输入查询词,搜索引
擎分析用户的搜索条件;后台抓取各类文档,建立文档库,并建
立文档索引,方便前台搜索。传统的搜索模型如图1所示:
文档集合建立索引文档索引
用户查询检索系统
查询结果
图1 传统搜索模型
利用传统搜索模型搜索出的结果太多,往往需要的信息隐藏
在靠后的网页中,常常满足不了用户需求。因此,需要对传统搜
索模型进行改进。
本文提出了基于查询子意图进行匹配的多样性搜索算法。该
算法首先根据网页查询日志获取用户的行为模型,然后根据用户
输入的查询词,对用户进行分类,挖掘出用户的查询子意图,并
赋予一定的权重。同时,基于查询结果的关键词对初始查询结果
按关键词进行重排序,最后将排序后的查询结果和加权后的用户
查询子意图进行匹配,建立多样性搜索子集,从而挖掘出满足用
户需要的搜索结果,并重新排序,展现给用户使用,从而给用户
提供了多样化的搜索结果,其整体框架如图2所示:
用户查询日志用户行为模型查询子意图
子意图
权重预测
匹配子意图
用户查询
传统查询初始
模型查询结果
关键词排序
重新输出查询结果
图2 基于查询子意图的多样性搜索算法整体框架
20
信息系统工程 │ 2019.9.20
(一)构建用户行为模型
根据用户查询日志,构建用户行为模型。用户查询日志中
记录了用户查询、点击文档的URL、Session、用户ID等信息。
这些信息包含了大量的用户行为。搜索日志数据可以从百度获
取。数据获取后,进行预处理,去除比较远的数据点和异常的
数据点等,减少冗余,然后采用聚类算法,构建用户行为模型,
其算法如图3所示:
输入数据数据预处理聚类聚类结果检验输出结果
图3 聚类算法
根据用户行为,将用户进行聚类。假设,根据不同的搜索行
为,能区别出用户属于哪种类型。具有相似行为的用户的背景相
同。文中采用K-Means聚类,主要有两步分类过程。第一步,分
析已知数据情况,建立一个分类模型以描述已知数据属性与给定
类别之间的对应关系,该分类模型也被称作分类器训练集。第二
步,利用所获得的分类模型(分类器),对新数据的类别进行预测。
具体算法如下:
第一步:选择k个点作为初始中心;
第二步:将数据划分到最近的中心;
第三步:重新计算每个簇的中心;
第四步:重新计算数据到k个中心的聚类,将数据划分到距
离最近的中心;
第五步:重新回到步骤三,直至划分结果不再变化。
采用聚类分析方法,将用户分入不同的类型中,尽量类间最
大,类内最小,从而构建用户行为模型。输入用户信息时,能根
据用户行为模型,快速地将用户分类,获取用户特征。
(二)挖掘查询子意图
当用户输入搜索词进行检索时,挖掘出用户的查询子意图。
获取用户子意图有三种方式:
第一种:从用户搜索日志挖掘;
第二种:从返回的搜索文档去挖掘;
第三种:从第三方搜索引擎去挖掘。
本文选择第一种,从用户日志去挖掘。文中,用户行为模型
由用户搜索日志建立,根据用户行为模型,根据用户ID,可将用
户归为某类,从而得到这类用户的属性特征。将用户搜索词与用
户特性比较,挖掘出用户当前的查询子意图。
查询子意图分析出来后,要结合当前的其他具体因素,如时
间、当时社会情况等,对子意图进行加权处理,赋予一定的权重值。
(三)原始查询结果排序
对用户的输入,后台分两条线进行,一条线挖掘查询子意图,
另一条线则对传统查询结果按关键词排序。
用户输入查询词后,后台检索系统会运行、检索并输出原始
查询结果。对原始查询结果,可进行文本分析,结合用户输入的
查询词,采用欧式距离方法,挖掘出文本中的关键词,然后根据
关键词重新对传统查询结果进行排序。如果与关键词相差很远的
查询结果项,直接舍弃,减少后续信息的冗余度。
欧式距离公式如下:
Euclidean distance:=
(四)匹配查询子意图
挖掘用户查询子意图的同时,已对原始查询结果进行了排序。
接着,将排序后的查询结果和用户的查询子意图进行匹配。匹配时,
考虑查询结果和子意图之间的相关性,计算两者的相关度。相关
性是指信息检索系统针对用户的查询,从文档集中检出的文档与
查询之间的一种匹配关系。相关性排序是指在检索到的结果集合
中能够优先提供最具有价值的结果给用户,这体现了搜索检索工
具质量的一个重要指标。具体匹配算法如下:
第一步:采用关联分析,分析排序后原始查询结果和用户子
意图的关联性。不相关的,则将查询结果舍弃,不显示;相关的,
则进入第二步。
第二步:分析相关项的距离,采用欧式距离,提取数据信息,
计算两者的距离。距离越近的,查询结果越靠前。距离超过一定
阈值,查询结果靠后,甚至可以不显示。
第三步:重复第一、二步,直到分析完排序后的查询结果。
由此,经过了两次冗余信息处理,两次查询结果排序,得到
了基于用户查询子意图的多样性搜索结果。
四、结语
本文基于多样性搜索理论,提出了一种新的基于查询子意
图的网页搜索结果多样化算法。该算法首先根据用户搜索日志,
建立了用户行为模型。当用户输入查询词后,根据用户行为模型,
挖掘出用户的查询子意图。同时,根据用户搜索词,将原始查
询结果按照关键词排序。然后将排序后的原始查询结果和用户
查询子意图进行匹配,计算两者的相关性。最后,根据相关性,
对查询结果重新排序,从而建立了用户多样性搜索结果,满足
用户的搜索要求。
本算法的不足是面对的对象有限。构建用户行为模型时,
针对网上注册用户,信息全面,分析透彻。但对初次使用用户
和使用频率不高的用户,构建模型的数据信息缺乏,由此挖掘
子意图时信息不充分。后续,需要利用大数据技术,结合其他
搜索引擎信息,获取更广大用户的特性信息,建立全面准确的
用户行为模型库。另外,查询结果和查询子意图的匹配算法还
有待于后续深入研究。后续,本文将对算法进行细化和用数据
进行实验验证。
H
参考文献
[1]Glover F,Laguna M. (1997).Tabu :Kluwer Academic
publishers.
[2]Agrawal, R., Gollapudi, S., Halverson, A., & Ieong, S. (2009). Diversifying
search results, Proceedings of the Second ACM International Conference on Web
Search and Data Mining (pp. 5-14). Barcelona, Spain: ACM.
[3]Clarke C L A, Kolla M, Vechtomova O.(2009).An Effectiveness Measure for
Ambiguous and Underspecified Queries[C]. The 2nd International Conference on the
Theory of Information Retrieval: 188-199.
[4]Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based
reranking for reordering documents and producing summaries, Proceedings of the
21st annual international ACM SIGIR conference on Research and development in
information retrieval (pp. 335-336). Melbourne, Australia: ACM.
[5]Clarke, C. L. A., Kolla, M., Cormack, G. V., Vechtomova, O., Ashkan, A.,
Büttcher, S., et al. (2008). Novelty and diversity in information retrieval evaluation,
REGION INFO
数字地方
Proceedings of the 31st annual international ACM SIGIR conference on Research and
development in information retrieval (pp. 659-666). Singapore, Singapore: ACM.
[6]Rafiei D,Bharat K,Shukla A.(2010).Diversifying Web search :Proc.
Of the ACM WWW h:ACM Press.781-790.
[7]Santos, R., Macdonald, C., & Ounis, I. (2010). Selectively diversifying web
search results, Proceedings of the 19th ACM international conference on Information
and knowledge management (pp. 1179-1188). Toronto, ON, Canada: ACM.
[8]Santos RL,Macdonald C,Ounis I.(2011).Intent-Aware search result
:Proc. of the ACM SIGIR g:ACM Press.595-604.
[9]Konig A C, Gamon M, Wu Q. (2009).Click-through Prediction for
News Queries[C].Proceedings of the 32nd Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval: 347-354.
[10]Park H K, Cho I H, Ji S Y, et al.(2011). An Empirical Study on Web Search
Behavior through the Investigation of a User-Clustered Query Session[C]. Modeling
and Using Context - 7th International and Interdisciplinary Conference: 233-245.
[11]Jansen B J, Booth D L, (2008).Spink A. Determining the informational,
navigational, and transactional intent of Web queries[C]. Information Processing and
Management: 1251-1266.
[12]Khoury R.(2010). Exploiting Wikipedia in Query Understanding
Systems[C]. 2010 5th International Conference on Digital Information Management:
292-297.
[13]Santos RLT,Peng J,Macdonald C,et al.(2010). Explicit search result
diversification through sub-queries [C]∥ Procee- dings of the 32nd European
Conference on Information Retrieval. Berlin / Heidelberg: Springer-Verlag: 87- 99.
[14]Bennett P N,Carterette B,Chapelle O,et al.(2008). Beyond
binary relevance: preferences,diversity,and set-level judg- ments [J]. ACM
SIGIR Forum, 42(2) : 53-58.
[15]Radlinski F,Carterette B,Bennett P N,et al.(2009). Redundan-
cy,diversity and interdependent document relevance [J]. ACM SIGIR Forum, 43(2)
:46-52.Swaminathan A,Mathew C,(2008).Kirovski ial pages[R].
Redmond: Microsoft Research.
[16]Agrawal R, Gollapudi S, Halverson A, et al. (2009).Diversifying Search
Results[C].The 2nd ACM International Conference on Web Search and Data
Mining:5-14.
[17]Zhai Chenxiang,Cohen W W,Lafferty J.(2003). Beyond inde-
pendent relevance: methods and evaluation metrics for subtopic retrieval [C]
∥Proceedings of the 26th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval. New York: ACM: 10-17.
[18]Gollapudi S,Sharma A.(2009). An axiomatic approach for result
diversification [C]∥Proceedings of the 18th International Conference on World
Wide Web. New York: ACM: 381-390.
[19]Zhu Xiaojin,Goldberg A B,Van Gael J,et al.(2007). Improving
diversity in ranking using absorbing random walks [C]∥ Proceedings of Human
Language Technologies: the Annual Conference of the North American Chapter of the
Associa- tion for Computational Linguistics.Rochester: NAACL: 97-104.
[20]Yue Y,Joachims T.(2008). Predicting diverse subsets using struc- tural
svms [C]∥ Proceedings of the 25th International Conference on Machine Learning.
New York: ACM: 1224-1231.
[21]He, J., Meij, E., & Rijke, M. d. (2011). Result diversification based on
query-specific cluster ranking. Journal of the American Society for Information Science
and Technology, 62(3), 550-571.
(作者单位:严国莉、王保林,中国人民大学商学院;严国莉,
中国中钢集团有限公司;王新增,青岛黄海学院;王胜利,国家
开发投资集团有限公司)
信息系统工程 │ 2019.9.20
21
2024年4月2日发(作者:柏小蕊)
REGION INFO
数字地方
基于查询子意图进行匹配的多样性搜索创新研究
◆
严国莉 王保林 王新增 王胜利
摘要:
互联网快速发展,信息技术日新月异,人们已进入了一个信息爆炸的时代。人们获取的知识
只是知识库里很小的一部分,网页搜索是必然发生的事情。多样性搜索已经逐渐成为提高网页搜索效率
和用户满意度的一个重要因素。论文提出了一种基于查询子意图进行匹配的多样性搜索创新研究算法。
该算法首先根据网页检索日志构建用户的行为模型,然后根据用户输入的查询词,挖掘出用户的查询子
意图。同时,基于查询结果的关键词对传统查询结果重排序。最后将排序后的结果和用户查询子意图进
行匹配,挖掘出满足用户需要的搜索结果,并排序展现给用户,从而给用户提供了多样化的搜索结果。
关键词:
信息检索;搜索引擎;多样性检索;查询子意图;创新研究
一、前言
信息爆炸的时代,任何人都离不开搜索引擎。打开任何一个
搜索引擎,输入“笔记本”一词,立马出现了很多与“笔记本”相
关的主题。仔细看列出的搜索结果中,有各类笔记本电脑,有用来
做文字记录的本子,也有以笔记本命名的各类网络论坛。互联网用
户量巨大,就意味着每个用户的信息需求千差万别。即使同一个用
户、不同时间段、输入同样的查询词,其希望的查询结果也是各种
各样。所以,不同用户,需求不同;相同用户,需求也不同。如何
让搜索结果满足用户的需要是互联网思维的核心问题。
网络时代我们不用担心信息被扔进垃圾堆而永远丢失,它们
一定都被存在某处。我们所接触到的信息库自身越来越像个垃圾
堆,无论何时要找什么,总发现暂时没用的信息远远多过有用的
信息。哪些信息是有用的?哪些信息和用户需求真正相关?哪些
信息是用户可以信赖的?因此,要对现有信息进行提取和加工,
成为对我们有用的信息。
搜索引擎是信息获取的重要工具。但搜索引擎的结果要切实
满足用户的需求,需要将搜索结果多样化,基于以下原因:一是
用户数量巨大,意味着搜索引擎要处理大量用户的查询意图,即
不同用户对信息的需求;二是即使同一个查询词,不同的用户也
意味着有不同的查询需求,如上文提到的“笔记本”一词的搜索;
三是由于用户的惰性,输入的检索词非常简洁,而且呈现越来越
短的趋势
[1]
;四是受查询长度的限制,用户所输入的查询词往往
不能全面的代表其真实需求
[2]
,同一个查询之下可能涵盖多个不
同的子意图
[3]
。因此,搜索引擎很难从搜索词本身获取用户查询
意图的详细信息。而用户在搜索引擎中输入搜索词时,希望搜索
结果能满足用户的搜索意图。用户和查询结果之间的矛盾如何解
决?用户关注的话题是什么?用户真正想要的结果是什么?如何
在浩瀚的搜索结果中,找到满足用户意图的搜索结果?如何使搜
索引擎在尽可能靠前的位置返回能满足用户需求信息的网页,从
而使用户也能快速得到想要的搜索结果? 为此,研究者们提出了
多样化检索的方法,并进行多样性搜索的研究
[4-8]
。
本文的研究问题就是:可否为用户提供一个小规模的多样性
搜索结果,用户通过阅读这一子集,就可能掌握全部搜索结果中的
绝大多数内容,同时多样性子集内的信息冗余尽量小。因此,本文
利用数据挖掘技术,提出了一种基于用户查询子意图进行匹配的多
样性搜索算法,从而为用户提供多样性搜索结果。该算法首先建立
了用户行为模型,然后挖掘出用户查询子意图,最后将原始搜索结
果和用户查询子意图匹配,获取用户的多样性搜索结果。
二、文献综述
本文研究了基于查询子意图的多样性搜索算法。文中先梳理
相关理论,对相关文献进行综述。基于前人的研究,提出本文的
理论贡献。
(一)搜索引擎
信息检索技术随着人们对信息的需求而产生,用于帮助人们
从海量信息中更快速更准确地获得满足信息需求的一门技术。搜
索引擎是获取互联网海量信息的重要工具。用户在搜索引擎中输
入要查询的内容,搜索引擎会返回与查询词相关的结果。目前,
很多搜索引擎都取得了巨大的商业成功。主流的搜索引擎有谷歌
(google)、百度(baidu)、必应(bing)、搜狐(sohu)等。国内
还有360搜索、搜狗、有道搜索、阿里云搜索、盘古搜索等。这
不仅体现了信息检索巨大的商业价值,同时也促进了信息检索技
术的快速发展。
(二)查询子意图
不同用户的查询要求不一样;同样的用户,不同时间地点输
入的查询需求不一样。用户的查询需求即为查询子意图。查询子意
图就是用户希望通过搜索引擎查询到的搜索结果。子意图实际上是
对用户搜索内容的挖掘,发现隐含在当前查询下的不同子意图。
挖掘查询子意图的方法有如下几类:一是从搜索日志中进行
挖掘
[9-10]
;二是从文档集合中进行挖掘
[11]
;三是利用第三方资源
进行挖掘
[12]
,如维基百科、Word Net、知网等;四是直接利用一些
主流搜索引擎提供的结果作为原始查询的候选子查询
[13]
。
(三)多样性搜索
多样性检索是禁忌搜索(Tabu Search-TS)中一种。TS是一种
应用广泛的解决组合优化问题的全局优化算法。禁忌搜索分集中
性搜索(intensification)和多样性搜索(diversification)。集中性搜索策
略用于加强对当前搜索到的优良解的领域做进一步得更为充分的
搜索。多样性搜索则用于拓宽搜索区域,尤其是未知区域,特别
是当搜索陷于局部最优时,多样性搜索可改变搜索的方向,跳出
局部最优,从而实现全局优化。
随着大数据的井喷式发展,多样化问题受到重视
[14-15]
,越
来越多的学者和搜索引擎公司进行了多样化搜索的研究
[6-8,16]
。
Carbonell和Goldstein(1998)提出的MMR方法在保持文档与用户
查询相关性的同时,减少了结果文档的冗余度
[4]
。Zhai等(2003)
提出基于语言模型框架,对搜索到的结果文档的多样性和相关性
进行平衡
[17]
。Gollapudihe 和Sharma(2009)提出采用公理化的方法
对多样性问题进行描述和分析,并提出了三个优化目标,把其中
信息系统工程 │ 2019.9.20
19
REGION INFO
数字地方
两个目标还原为离散问题,用2种优化算法MMD和MSD进行求
解
[18]
。Zhu等(2007)提出了Grasshopper算法,把集中性、多样
性和优先性统一在吸收马尔马夫随机游走的框架下进行优化
[19]
。
Yue和Joachims(2008)提出一种监督式的结构学习方法SVM,通
过学习得到单个词的重要性,然后选择最优的结果文档子集覆盖
最多的重要的词,让排序结果多样化
[20]
。Agrawal等(2009)在已
知查询和文档的类别信息的情况下,通过最大化在列表前K个文
档中找到至少一个相关文档的可能性达到多样化的效果
[16]
。Santos
等(2010)提出多样化框架xQuad,显式对查询词蕴含的子查询进
行建模,然后通过估计结果文档与子查询的相关度进行结果多样
化
[7]
。He等(2011)提出了一种基于查询特有集群和排序的结果
多样化的框架,在这个框架里,多样性被限制文档中,这些文档
包含了高比例的相关性
[21]
。实证结果表明提出的框架提高了现有
的几种多样性方法的表现。该框架还产生了一个简单而有效的簇
为基础的多样化。
本文基于多样化搜索理论,提出了一种基于查询子意图进行
匹配的多样性搜索算法。
三、设计方法
传统的信息检索分两条主线:前台用户输入查询词,搜索引
擎分析用户的搜索条件;后台抓取各类文档,建立文档库,并建
立文档索引,方便前台搜索。传统的搜索模型如图1所示:
文档集合建立索引文档索引
用户查询检索系统
查询结果
图1 传统搜索模型
利用传统搜索模型搜索出的结果太多,往往需要的信息隐藏
在靠后的网页中,常常满足不了用户需求。因此,需要对传统搜
索模型进行改进。
本文提出了基于查询子意图进行匹配的多样性搜索算法。该
算法首先根据网页查询日志获取用户的行为模型,然后根据用户
输入的查询词,对用户进行分类,挖掘出用户的查询子意图,并
赋予一定的权重。同时,基于查询结果的关键词对初始查询结果
按关键词进行重排序,最后将排序后的查询结果和加权后的用户
查询子意图进行匹配,建立多样性搜索子集,从而挖掘出满足用
户需要的搜索结果,并重新排序,展现给用户使用,从而给用户
提供了多样化的搜索结果,其整体框架如图2所示:
用户查询日志用户行为模型查询子意图
子意图
权重预测
匹配子意图
用户查询
传统查询初始
模型查询结果
关键词排序
重新输出查询结果
图2 基于查询子意图的多样性搜索算法整体框架
20
信息系统工程 │ 2019.9.20
(一)构建用户行为模型
根据用户查询日志,构建用户行为模型。用户查询日志中
记录了用户查询、点击文档的URL、Session、用户ID等信息。
这些信息包含了大量的用户行为。搜索日志数据可以从百度获
取。数据获取后,进行预处理,去除比较远的数据点和异常的
数据点等,减少冗余,然后采用聚类算法,构建用户行为模型,
其算法如图3所示:
输入数据数据预处理聚类聚类结果检验输出结果
图3 聚类算法
根据用户行为,将用户进行聚类。假设,根据不同的搜索行
为,能区别出用户属于哪种类型。具有相似行为的用户的背景相
同。文中采用K-Means聚类,主要有两步分类过程。第一步,分
析已知数据情况,建立一个分类模型以描述已知数据属性与给定
类别之间的对应关系,该分类模型也被称作分类器训练集。第二
步,利用所获得的分类模型(分类器),对新数据的类别进行预测。
具体算法如下:
第一步:选择k个点作为初始中心;
第二步:将数据划分到最近的中心;
第三步:重新计算每个簇的中心;
第四步:重新计算数据到k个中心的聚类,将数据划分到距
离最近的中心;
第五步:重新回到步骤三,直至划分结果不再变化。
采用聚类分析方法,将用户分入不同的类型中,尽量类间最
大,类内最小,从而构建用户行为模型。输入用户信息时,能根
据用户行为模型,快速地将用户分类,获取用户特征。
(二)挖掘查询子意图
当用户输入搜索词进行检索时,挖掘出用户的查询子意图。
获取用户子意图有三种方式:
第一种:从用户搜索日志挖掘;
第二种:从返回的搜索文档去挖掘;
第三种:从第三方搜索引擎去挖掘。
本文选择第一种,从用户日志去挖掘。文中,用户行为模型
由用户搜索日志建立,根据用户行为模型,根据用户ID,可将用
户归为某类,从而得到这类用户的属性特征。将用户搜索词与用
户特性比较,挖掘出用户当前的查询子意图。
查询子意图分析出来后,要结合当前的其他具体因素,如时
间、当时社会情况等,对子意图进行加权处理,赋予一定的权重值。
(三)原始查询结果排序
对用户的输入,后台分两条线进行,一条线挖掘查询子意图,
另一条线则对传统查询结果按关键词排序。
用户输入查询词后,后台检索系统会运行、检索并输出原始
查询结果。对原始查询结果,可进行文本分析,结合用户输入的
查询词,采用欧式距离方法,挖掘出文本中的关键词,然后根据
关键词重新对传统查询结果进行排序。如果与关键词相差很远的
查询结果项,直接舍弃,减少后续信息的冗余度。
欧式距离公式如下:
Euclidean distance:=
(四)匹配查询子意图
挖掘用户查询子意图的同时,已对原始查询结果进行了排序。
接着,将排序后的查询结果和用户的查询子意图进行匹配。匹配时,
考虑查询结果和子意图之间的相关性,计算两者的相关度。相关
性是指信息检索系统针对用户的查询,从文档集中检出的文档与
查询之间的一种匹配关系。相关性排序是指在检索到的结果集合
中能够优先提供最具有价值的结果给用户,这体现了搜索检索工
具质量的一个重要指标。具体匹配算法如下:
第一步:采用关联分析,分析排序后原始查询结果和用户子
意图的关联性。不相关的,则将查询结果舍弃,不显示;相关的,
则进入第二步。
第二步:分析相关项的距离,采用欧式距离,提取数据信息,
计算两者的距离。距离越近的,查询结果越靠前。距离超过一定
阈值,查询结果靠后,甚至可以不显示。
第三步:重复第一、二步,直到分析完排序后的查询结果。
由此,经过了两次冗余信息处理,两次查询结果排序,得到
了基于用户查询子意图的多样性搜索结果。
四、结语
本文基于多样性搜索理论,提出了一种新的基于查询子意
图的网页搜索结果多样化算法。该算法首先根据用户搜索日志,
建立了用户行为模型。当用户输入查询词后,根据用户行为模型,
挖掘出用户的查询子意图。同时,根据用户搜索词,将原始查
询结果按照关键词排序。然后将排序后的原始查询结果和用户
查询子意图进行匹配,计算两者的相关性。最后,根据相关性,
对查询结果重新排序,从而建立了用户多样性搜索结果,满足
用户的搜索要求。
本算法的不足是面对的对象有限。构建用户行为模型时,
针对网上注册用户,信息全面,分析透彻。但对初次使用用户
和使用频率不高的用户,构建模型的数据信息缺乏,由此挖掘
子意图时信息不充分。后续,需要利用大数据技术,结合其他
搜索引擎信息,获取更广大用户的特性信息,建立全面准确的
用户行为模型库。另外,查询结果和查询子意图的匹配算法还
有待于后续深入研究。后续,本文将对算法进行细化和用数据
进行实验验证。
H
参考文献
[1]Glover F,Laguna M. (1997).Tabu :Kluwer Academic
publishers.
[2]Agrawal, R., Gollapudi, S., Halverson, A., & Ieong, S. (2009). Diversifying
search results, Proceedings of the Second ACM International Conference on Web
Search and Data Mining (pp. 5-14). Barcelona, Spain: ACM.
[3]Clarke C L A, Kolla M, Vechtomova O.(2009).An Effectiveness Measure for
Ambiguous and Underspecified Queries[C]. The 2nd International Conference on the
Theory of Information Retrieval: 188-199.
[4]Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based
reranking for reordering documents and producing summaries, Proceedings of the
21st annual international ACM SIGIR conference on Research and development in
information retrieval (pp. 335-336). Melbourne, Australia: ACM.
[5]Clarke, C. L. A., Kolla, M., Cormack, G. V., Vechtomova, O., Ashkan, A.,
Büttcher, S., et al. (2008). Novelty and diversity in information retrieval evaluation,
REGION INFO
数字地方
Proceedings of the 31st annual international ACM SIGIR conference on Research and
development in information retrieval (pp. 659-666). Singapore, Singapore: ACM.
[6]Rafiei D,Bharat K,Shukla A.(2010).Diversifying Web search :Proc.
Of the ACM WWW h:ACM Press.781-790.
[7]Santos, R., Macdonald, C., & Ounis, I. (2010). Selectively diversifying web
search results, Proceedings of the 19th ACM international conference on Information
and knowledge management (pp. 1179-1188). Toronto, ON, Canada: ACM.
[8]Santos RL,Macdonald C,Ounis I.(2011).Intent-Aware search result
:Proc. of the ACM SIGIR g:ACM Press.595-604.
[9]Konig A C, Gamon M, Wu Q. (2009).Click-through Prediction for
News Queries[C].Proceedings of the 32nd Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval: 347-354.
[10]Park H K, Cho I H, Ji S Y, et al.(2011). An Empirical Study on Web Search
Behavior through the Investigation of a User-Clustered Query Session[C]. Modeling
and Using Context - 7th International and Interdisciplinary Conference: 233-245.
[11]Jansen B J, Booth D L, (2008).Spink A. Determining the informational,
navigational, and transactional intent of Web queries[C]. Information Processing and
Management: 1251-1266.
[12]Khoury R.(2010). Exploiting Wikipedia in Query Understanding
Systems[C]. 2010 5th International Conference on Digital Information Management:
292-297.
[13]Santos RLT,Peng J,Macdonald C,et al.(2010). Explicit search result
diversification through sub-queries [C]∥ Procee- dings of the 32nd European
Conference on Information Retrieval. Berlin / Heidelberg: Springer-Verlag: 87- 99.
[14]Bennett P N,Carterette B,Chapelle O,et al.(2008). Beyond
binary relevance: preferences,diversity,and set-level judg- ments [J]. ACM
SIGIR Forum, 42(2) : 53-58.
[15]Radlinski F,Carterette B,Bennett P N,et al.(2009). Redundan-
cy,diversity and interdependent document relevance [J]. ACM SIGIR Forum, 43(2)
:46-52.Swaminathan A,Mathew C,(2008).Kirovski ial pages[R].
Redmond: Microsoft Research.
[16]Agrawal R, Gollapudi S, Halverson A, et al. (2009).Diversifying Search
Results[C].The 2nd ACM International Conference on Web Search and Data
Mining:5-14.
[17]Zhai Chenxiang,Cohen W W,Lafferty J.(2003). Beyond inde-
pendent relevance: methods and evaluation metrics for subtopic retrieval [C]
∥Proceedings of the 26th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval. New York: ACM: 10-17.
[18]Gollapudi S,Sharma A.(2009). An axiomatic approach for result
diversification [C]∥Proceedings of the 18th International Conference on World
Wide Web. New York: ACM: 381-390.
[19]Zhu Xiaojin,Goldberg A B,Van Gael J,et al.(2007). Improving
diversity in ranking using absorbing random walks [C]∥ Proceedings of Human
Language Technologies: the Annual Conference of the North American Chapter of the
Associa- tion for Computational Linguistics.Rochester: NAACL: 97-104.
[20]Yue Y,Joachims T.(2008). Predicting diverse subsets using struc- tural
svms [C]∥ Proceedings of the 25th International Conference on Machine Learning.
New York: ACM: 1224-1231.
[21]He, J., Meij, E., & Rijke, M. d. (2011). Result diversification based on
query-specific cluster ranking. Journal of the American Society for Information Science
and Technology, 62(3), 550-571.
(作者单位:严国莉、王保林,中国人民大学商学院;严国莉,
中国中钢集团有限公司;王新增,青岛黄海学院;王胜利,国家
开发投资集团有限公司)
信息系统工程 │ 2019.9.20
21