帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于提取网站层次结构的网页分类方法
Web page classification based on extracting hierarchy from Web site

作  者: ; ; ;

机构地区: 华南理工大学计算机科学与工程学院

出  处: 《计算机应用》 2006年第5期1134-1136,共3页

摘  要: 网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。 Web page classification was one of the hot study problems in the domain of Internet Search currently. Now there were the classifiers based on text and the hyperlinks. But all these methods of classification only used the information of the pages without the information that was provided from the whole web site. In the article, there was a new arithmetic that simplifies the topology structure of the Web site and extracted the connotative hierarchy of the classification to build the classified tree, through which we could achieve the multi-level classification. This method has been applied to the system of intelligent searching and mining of electronic business successfully.

关 键 词: 网页分类 网站层次结构 聚类

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

相关机构对象

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊