帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

VSM模型在文档结构识别中的应用
Application of VSM model to document structure identification

作  者: ; ; ;

机构地区: 北京信息科技大学计算机学院

出  处: 《北京信息科技大学学报(自然科学版)》 2011年第6期66-69,75,共5页

摘  要: 借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。 By referencing VSM model,the basic structure of document component is mapped into the characteristic vector.After normalization and weight assignment,the vector similarity between the standard document component structure and the structure of the document component to be identified can be calculated,thus the identification of whole document structure can be implemented.The method achieves vector formalization of document format.It is easily calculated,and has good expansibility.Applications such as automatic format checking or document understanding can be built on that basis.

关 键 词: 文档结构识别 向量空间模型 文档格式校验 文档理解

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 龚伟杰
作者 廖刚
作者 杨晓东
作者 汤良
作者 王晓晶

相关机构对象

机构 暨南大学
机构 华南理工大学
机构 暨南大学经济学院
机构 华南理工大学工商管理学院
机构 中山大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊