中文会议: 软件技术进展2003''全国软件与应用学术会议(NASAC)论文集
会议日期: 2003-10-01
会议地点: 北京
主办单位: 中国计算机学会
出版日期: 2003-11-01
出版地: 北京
机构地区: 华南理工大学
出 处: 《2003''全国软件与应用学术会议》
摘 要: 随着网络技术的发展,网络数据的存在形式越来越多,其中有很大一部分数据是以新闻组、讨论组、BBS和邮件列表的形式存在.上述这种数据称为Session数据,虽然它们现在的组织结构及体现的价值并不像网站那样直接,想念在不远的将来,我们很多重要的信息来源都离不开这些数据.为了降低对Session数据研究的复杂性,本研究以微软公司的PSS数据(一系列领域相关的邮件列表)为蓝本,分析了用传统文本分类学习方法研究Session数据的困难和不足之处以及探索用于处理Session数据新的研究方法的必要性.在上述前提下,本研究提出了两个层次的特征选择方法来改善性能.首先使用基于Session的特征选择模型(包括过滤无用邮件模型和基于Session摘要模型)对Session数据进行第一次处理,然后沿用传统的文本分类学习方法将Session数据视为普通的文本进行传统的特征选择.最后还提出了为Session中每封电子邮件标注关键词的应用.通过在原型系统上进行实验,验证了本研究提出的基于Session特征选择模型的有效性,并展望如何推广应用到更为复杂的Session数据类型上.
关 键 词: 特征选择 文本挖掘 文本分类 降维 事例检索 网络数据
领 域: [自动化与计算机技术] [自动化与计算机技术]