文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

基于Spark和DN-gram模型的定义抽取研究
Research on definition extraction based on Spark and DN-gram model

下载全文在线阅读

收藏

作　　者： (于洁）;

机构地区： 福建信息职业技术学院计算机工程系

出　　处： 《北京信息科技大学学报（自然科学版）》 2017年第4期64-68,74,共6页

摘　　要： 从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果。 The definition of the words extracted from the massive text of the Internet is of great significance to the automatic construction of the knowledge base. The semantic information carried by the N-gram language model is limited and easy to generate large amount of sparse data,so a DN-gram language model is proposed,which integrates the grammatical dependencies between context words on Ngram. The feature selection method applies the combination of word form and part of speech to reduce the impact of sparse data,instead of using word form only. TF-IDF is used to calculate the membership of definition for reducing the dimensionality of features. Under the Spark large data platform,the parallel definition extraction pipeline is employed to convert the Internet text into the eigenvector,using the random forest classifier to learn and train. The experiment has achieved good effect.

关键词： 知识发现文本分类定义抽取

相关作者

作者陈鸣中: 作品数：1被引量：1; 供职机构：广东工业大学管理学院; 发文主题：隐性知识;知识发现;知识提炼;知识挖掘;生产力

作者谷斌: 作品数：25被引量：68; 供职机构：华南理工大学; 发文主题：虚拟社区;知识共享;社会网络分析;聚类;大数据;影响因素;用户分类;用户价值;用户忠诚度;语义网;知识本体;知识创新能力;知识发现;知识共享绩效;知识管理研究;知识库;知识推送;知识组织;知识组织模型

作者廖晓: 作品数：1被引量：0; 供职机构：华南理工大学; 发文主题：知识发现;知识模式;网络建模;领先用户;分析方法;创新知识

作者黄家良: 作品数：9被引量：10; 供职机构：华南理工大学经济与贸易学院; 发文主题：虚拟社区;知识共享;社会网络分析;大数据;用户分类;用户价值;语义网;知识本体;知识发现;知识共享绩效;知识库;知识组织;社会关系;体系架构;电子商务;物流模式;管理创新;形式概念分析;行业监管体系

作者周雪华: 作品数：8被引量：16; 供职机构：佛山科学技术学院; 发文主题：数字图书馆;英语课外阅读;知识发现;图书馆导读;图书馆评估;图书情报学;网络著作权;文摘;信息发现;信息检索;信息哲学;信息资源建设策略;休闲阅读;概念化;布尔逻辑检索;大学生

相关机构对象

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构华南理工大学: 作者数：19075; 发文主题：模型,甲烷,订单农业,协商模型,零售商,供应链管理,绩效关系,供应链协调,制造商,催化剂,知识创新,关系承诺,利益分配,变质性物品,企业,技术创新,虚拟企业,知识分享,供应链协调模型,订货量,石墨烯,研究生教育,可控提前期,时变需求,实证研究,价格折扣,管理创新,信息共享,运营绩效,战略管理,货栈,协整关系研究,滞后支付,创新绩效,库存路径问题,订购,报童模型,信息不对称,创新型企业,销售商,内向型,博弈,甲醇电氧化,创新管理,直接甲醇燃料电池,外向型,智慧城市,风险规避,生命周期,车辆路径问题,供应链协作,供应链,员工创新行为,协整检验,动态面板,共性技术,德行领导,

机构暨南大学经济学院: 作者数：2642; 发文主题：大珠三角,粤港,经济增长,经济发展,一国两制,工业化,劳动密集型产业,劳动者,劳动力需求,中国经济特区,能源,低碳经济,哪里,先进制造业,所有制关系,劳动力供给,技术创新,企业,经济一体化,粤港澳经济合作,企业集群,泛珠三角,经济合作,人力资源,经济互动,框架,中国纺织品,澳门经济,粤港澳区域,中介服务体系,实证研究,区域经济一体化,制度经济学,粤港经贸合作,产业结构,珠江三角洲,中小企业,江浙,人力资本,正当,所有制理论,激励机制,资本主义私有制,劳动力市场,港澳,香港经济,服务业,香港制造业,珠三角,融资环境,城市化,香港经济转型,经济全球化,经济结构,

机构华南理工大学工商管理学院: 作者数：3266; 发文主题：统计量,随机前沿模型,农村劳动力迁移,随机前沿分析,管理层激励,实证研究,公司绩效,经济增长,抑价,产权性质,知识溢出效应,企业业绩,融资约束,实证分析,融资困境,商业银行,模拟,企业税负,知识外溢,中小企业,增长极,上市公司,融资决策,空间计量模型,并购绩效,企业研发投入,有效性,外商直接投资,成本控制,收敛,投资者法律保护,股权性质,农村劳动力,方法,企业,技术创新,认股权证,国有企业,技术并购,资本结构,股权激励,面板数据,政府干预,指标体系,公司治理,并购,

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

相关领域作者

作者庞菊香: 作品数：2被引量：2; 供职机构：广东海洋大学寸金学院; 发文主题：太极拳;抗衰老;心理障碍;健身;羞怯;胆怯;医疗保健功能;艺术体操教学

作者康秋实: 作品数：4被引量：1; 供职机构：华南理工大学; 发文主题：公众参与;法律援助;上市公司;司法解释;前见;解释学;信息披露制度;高管薪酬;高级管理人员薪酬

作者康超: 作品数：2被引量：0; 供职机构：中山大学; 发文主题：运动员心理训练;中国传统哲学;快乐体育

作者廖伟导: 作品数：2被引量：1; 供职机构：中国南方航空股份有限公司; 发文主题：融资;物权法;担保物权;浮动抵押;浮动抵押制度

作者廖刚: 作品数：1被引量：0; 供职机构：中山大学; 发文主题：银行贷款定价;实证检验;违约距离;信用风险;模型

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3