导 师: 王若梅
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 随着信息技术尤其是internet相关技术的发展与成熟,人们已经进入一个信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴趣的信息。rss阅读器的出现无疑在一定程度上解决了这个问题。同时,使用web文档自动分类技术可以更加有效地组织和管理web资源,提高信息检索的效率,它目前已成为web挖掘的研究热点之一。 朴素贝叶斯分类模型以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。目前对于它的研究工作主要集中在探讨它的条件独立性假设和如何改善其性能方面。 本文利用加权朴素贝叶斯算法来改进其分类性能,同时考虑到传统权重计算方法tfidf存在一定的缺陷,提出了一种新的权重计算公式tf—idf—rtc,该方法将特征项与类别之间的关联性考虑到了权重计算公式里面,用来突出那些在类别中作用比较大的特征项,实验证明是可行的。 文中将rss技术与朴素贝叶斯分类算法进行了一个很好的结合,构建了一个自动发布系统。该系统利用rss技术收集信息源,对通过解析rss摘要得到的一些内容利用朴素贝叶斯分类算法进行信息条目的分类。该发布系统已应用于功能性纺织业界信息的收集与发布中。
分 类 号: [G354.4 TP301.6]
领 域: [文化科学] [自动化与计算机技术] [自动化与计算机技术]