机构地区: 中国科学院计算技术研究所
出 处: 《计算机工程与应用》 2004年第33期126-128,183,共4页
摘 要: 文本检索会议(Trec)是信息检索领域一年一度的学术交流和系统评测活动,本届Trec的WebTrack任务由命名网页发现/主页发现子任务和主题提取子任务组成。笔者在上届Trec的基础上,根据不同的子任务的需求,使用了不同的方法。在命名网页发现子任务中,锚文本、网页标题与网页内容是最重要的资源,而Ulr的目录层数对主页发现子任务中主页的判别有重要作用。多检索系统的投票机制,能大幅提高主题提取子任务的性能。 Text retrieval conference is an important science communication and system evaluation activity in information retrieval field.In this year's web track task,there is two subtask:Named/Home page finding subtask and topic distillation sub task.We use different measures on different subtask for their different requirement.In the named page finding task,anchor text,title and the content of the web is the most important resource for retrieval,and for the home page finding task,the depth of path plays an important role for the determinant of home page.We also use a multiple systems vote mechanism on the topic distillation subtask,and get an obvious improvement.
关 键 词: 文本检索会议 命名网页发现 主页发现 主题提取 多检索系统投票机制
领 域: [自动化与计算机技术] [自动化与计算机技术]