帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于Session的特征选择

中文会议: 软件技术进展2003''全国软件与应用学术会议(NASAC)论文集

会议日期: 2003-10-01

会议地点: 北京

主办单位: 中国计算机学会

出版日期: 2003-11-01

出版地: 北京

作  者: ; ; ;

机构地区: 华南理工大学

出  处: 《2003''全国软件与应用学术会议》

摘  要: 随着网络技术的发展,网络数据的存在形式越来越多,其中有很大一部分数据是以新闻组、讨论组、BBS和邮件列表的形式存在.上述这种数据称为Session数据,虽然它们现在的组织结构及体现的价值并不像网站那样直接,想念在不远的将来,我们很多重要的信息来源都离不开这些数据.为了降低对Session数据研究的复杂性,本研究以微软公司的PSS数据(一系列领域相关的邮件列表)为蓝本,分析了用传统文本分类学习方法研究Session数据的困难和不足之处以及探索用于处理Session数据新的研究方法的必要性.在上述前提下,本研究提出了两个层次的特征选择方法来改善性能.首先使用基于Session的特征选择模型(包括过滤无用邮件模型和基于Session摘要模型)对Session数据进行第一次处理,然后沿用传统的文本分类学习方法将Session数据视为普通的文本进行传统的特征选择.最后还提出了为Session中每封电子邮件标注关键词的应用.通过在原型系统上进行实验,验证了本研究提出的基于Session特征选择模型的有效性,并展望如何推广应用到更为复杂的Session数据类型上.

关 键 词: 特征选择 文本挖掘 文本分类 降维 事例检索 网络数据

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 卢禹
作者 廖剑锐
作者 沈元怿
作者 赵卫军
作者 李利梅

相关机构对象

机构 中山大学
机构 广东外语外贸大学
机构 中山大学资讯管理学院资讯管理系
机构 华南师范大学经济与管理学院
机构 华南理工大学工商管理学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊