中文会议: 第四届全国信息检索与内容安全学术会议论文集
会议日期: 2008-11-15
会议地点: 北京
主办单位: 中国中文信息学会
机构地区: 中国科学院计算技术研究所
出 处: 《第四届全国信息检索与内容安全学术会议》
摘 要: 极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法.目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果.本文依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适合于非平衡语料,也具有很好的扩展性.另外,文中解释说明了OCFS和基于类别分布差异的特征过滤方法是该框架的特例.基于该框架文中给出了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的宏平均和微平均F1效果都好于IG, CHI和OCFS.
分 类 号: [T]
领 域: [一般工业技术]