帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

Web Track 2003技术报告
The Report of Web Track 2003

作  者: ; ; ;

机构地区: 中国科学院计算技术研究所

出  处: 《计算机工程与应用》 2004年第33期126-128,183,共4页

摘  要: 文本检索会议(Trec)是信息检索领域一年一度的学术交流和系统评测活动,本届Trec的WebTrack任务由命名网页发现/主页发现子任务和主题提取子任务组成。笔者在上届Trec的基础上,根据不同的子任务的需求,使用了不同的方法。在命名网页发现子任务中,锚文本、网页标题与网页内容是最重要的资源,而Ulr的目录层数对主页发现子任务中主页的判别有重要作用。多检索系统的投票机制,能大幅提高主题提取子任务的性能。 Text retrieval conference is an important science communication and system evaluation activity in information retrieval field.In this year's web track task,there is two subtask:Named/Home page finding subtask and topic distillation sub task.We use different measures on different subtask for their different requirement.In the named page finding task,anchor text,title and the content of the web is the most important resource for retrieval,and for the home page finding task,the depth of path plays an important role for the determinant of home page.We also use a multiple systems vote mechanism on the topic distillation subtask,and get an obvious improvement.

关 键 词: 文本检索会议 命名网页发现 主页发现 主题提取 多检索系统投票机制

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 宋海冰

相关机构对象

机构 五邑大学
机构 五邑大学管理学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊