机构地区: 中国科学院计算技术研究所
出 处: 《中文信息学报》 2009年第2期54-61,共8页
摘 要: 搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论:(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。 The session in query logs of web search denotes a sequential series of queries from a user when he is searching for certain information during a period of time. Correct session segmentation is a fundamental work for various researches such as searching activities analysis. Due to the unsystematic research on session at present, this paper redefines the conception of session and does several comparative studies. We conclude that (1) the statistical language model is not suitable for session segmentation because of the heavy data sparseness and (2) the decision tree method using multiple attributes can obtain very promising results. Evaluated at the session level, the decision tree based method achieves a F-measure up to 78.6%.
关 键 词: 计算机应用 中文信息处理 网络信息检索 查询日志 划分
领 域: [自动化与计算机技术] [自动化与计算机技术]