帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于LDA高频词扩展的中文短文本分类
A New Method of Key words Extraction for Chinese Short-text Classification

作  者: ; ; ;

机构地区: 中山大学管理学院

出  处: 《现代图书情报技术》 2013年第6期42-48,共7页

摘  要: 针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法。 Short texts are different from traditional documents in their shortness and sparseness. Feature extension can ease the problem of high sparse in the vector space model, but feature extension inevitably introduces noise. To resolve the problem, this paper proposes a high - frequency words expansion method based on LDA. By extracting high - frequency words from each category as the feature space, using LDA to derive latent topics from the corpus, it extends the topic words into the short -text. Extensive experiments conducted on Chinese short messages and news titles show that the new method proposed for Chinese short - text classification can obtain a higher classification performance comparing with the conventional classification methods.

关 键 词: 短文本分类 高频词 特征扩展

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 马园艺
作者 邬英英
作者 何正国
作者 李利梅
作者 周凌燕

相关机构对象

机构 广东外语外贸大学
机构 中山大学
机构 暨南大学文学院
机构 华南师范大学经济与管理学院
机构 广东科学技术职业学院外国语学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊