文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

一种结合语义和TF-IDF模型的文本相似度量方法

收藏

中文会议： 2010年中国计算机大会论文集

会议日期： 2010-10-11

会议地点： 杭州

主办单位： 中国计算机学会

作　　者： ; ;

机构地区： 广东金融学院计算机科学与技术系

出　　处： 《2010年中国计算机大会》

摘　　要： 文本聚类大多采用TF-IDF方法把丈本建模为词频向量，利用余弦等相似度量方法计算文本之间的相似度，以此进行文本聚类.这些方法忽略了文本中词的语义信息，改进的基于语义的文本聚类方法则缺少文本之间相似度的定义，无法反映两篇文本之间的相似程度，聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息，提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理，然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度，结合文中提出的词项相似度加权树计算两篇文本之间的相似度，最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度，实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.

分类号： [TP3 TN9]

领　　域： [自动化与计算机技术] [电子电信]

相关作者

作者熊玲林: 作品数：2被引量：0; 供职机构：广东外语外贸大学国际商务英语学院; 发文主题：导游词;语域;前处理;文本;文本分析;汉英翻译;改写

作者宋华: 作品数：1被引量：1; 供职机构：暨南大学; 发文主题：语义启动;文本

作者张春芳: 作品数：1被引量：0; 供职机构：暨南大学文学院; 发文主题：电影;文本

作者李晓旸: 作品数：1被引量：0; 供职机构：广东外语外贸大学; 发文主题：体裁互文性;文本;消费者接受;广告

作者王艺霖: 作品数：4被引量：0; 供职机构：中山大学; 发文主题：个体化;拯救;社会;文本;习性;心灵;公共精神;公民教育;共同体;埃利亚斯;贝拉

相关机构对象

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构广东外语外贸大学: 作者数：8857; 发文主题：创业研究,法治,语言学,战略性技术,系统功能语法,行政体制改革,语言维度,词汇语法,部门行政职权,主语,语法,双语词典,私有财产权,行政行为,创业决策,企业动态能力,语态,下行,级差,网络营销,语言模式,企业,可持续发展,具体行政行为,公法保护,法律规制,创业者,绿色营销,行政权,文体学,电子商务,人际,行政诉讼,服务型政府,实证研究,行政法治,汉语,营销研究,行政法,司法审查,系统功能语言学,组织知识,行政主体,企业家决策,动态能力,文化,企业绩效,语篇,法治视野,语义,韩礼德,英汉大词典,绿色消费,风险感知,商务背景,廊桥遗梦,持续竞争优势,公共行政,行政相对人,

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构中山大学人文科学学院哲学系: 作者数：892; 发文主题：意识形态,认识论,陈白沙,道家思想,西方哲学,庄子,思想史,传统文化,制度文化,道家,人生哲学,哲学研究,西学,儒学,岭南文化,统治者,现代新儒家,论语,中国传统文化,正己,儒家思想,齐物论,宋明理学,哲学思想,民族主义,儒家文化,儒家,中国思想史,人生价值取向,封建社会,历史地位,哲学史,中国哲学史,孔子,儒家伦理,日常用语,洪秀全,适应性,中国哲学,哲学论证,

机构华南师范大学: 作者数：20338; 发文主题：教师成长,宏观经济,社会主义实践,中国梦,二重性质,马克思主义经济学,人生哲学,有效教学,中国货币政策,教育科研,克鲁格曼,教育叙事研究,教育研究,政治经济学,人民内部矛盾,新自由主义,校本教研,人性,哲学发展,课程改革,老师,教育行动研究,卢卡奇,学校教育,动物精神,马克思哲学,凯恩斯主义,人类社会发展规律,西方经济学,因果,教学研究,社会主义市场经济,中国共产党,教师,实证研究,诺贝尔经济学奖,教育现象学,英美文学,埃尔斯特,实证检验,校本教学研究,中国化马克思主义,社会主义建设规律,唯物史观,经济政策,社会存在本体论,异化,日常教学,社会主义发展道路,叙事研究,早期西方马克思主义,教学理念,马克思主义,人民币国际化,历史唯物主义,萨金特,教育叙事,世界货币,本体论,

相关领域作者

作者毕凌燕: 作品数：8被引量：28; 供职机构：华南理工大学; 发文主题：实证研究;电子商务专业;国内高校;营销;支持向量机;图像编码;汽车零部件;侵权犯罪;情感计算;情绪信息;主题识别;小波变换;效果评价模型;假冒产品;信息流;工作流授权模型;股价预测;股票市场预测;国际刑警组织;行为金融理论

作者王和勇: 作品数：6被引量：36; 供职机构：华南理工大学; 发文主题：数据分类;关联规则;指标体系;数据挖掘;主题发现;网络;文本;海量数据;核心用户;分形;高维数据;均值聚类;不平衡数据;不平衡数据集;大数据

作者杨涛: 作品数：42被引量：392; 供职机构：华南师范大学; 发文主题：实证研究;用户需求;网络信息计量学;文献计量学;图书馆;图书馆用户;网络影响因子;引文分析;用户;用户满意;用户认知;知识需求;搜索引擎;图书馆学教育;图书馆业务外包;图书馆专业;图书馆自助服务;电子图书;网络环境;还书

作者谢惠加: 作品数：9被引量：16; 供职机构：华南理工大学法学院; 发文主题：知识产权;加密研究;政府科技;私有财产权;损害赔偿制度;著作权法;著作权侵权;消费者权益保护法;厘清;利益分配机制;利益分享机制;联盟;科技成果转化;科技投入;技术观;法律实施;法院判决书;法制;版权法;版权作品

作者孟显勇: 作品数：9被引量：11; 供职机构：吉林大学珠海学院; 发文主题：电子现金;基于椭圆曲线;银行;数字签名;电子支付系统;椭圆曲线加密;椭圆曲线加密体制;神经网络;数据传输;数据稳定;双线性对;代理签密;签名方案;群盲签名;中文;椭圆曲线密码;无线传感网;离散对数;轮询机制;密码破译

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3