机构地区: 北京信息科技大学计算机学院
出 处: 《北京信息科技大学学报(自然科学版)》 2011年第6期66-69,75,共5页
摘 要: 借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。 By referencing VSM model,the basic structure of document component is mapped into the characteristic vector.After normalization and weight assignment,the vector similarity between the standard document component structure and the structure of the document component to be identified can be calculated,thus the identification of whole document structure can be implemented.The method achieves vector formalization of document format.It is easily calculated,and has good expansibility.Applications such as automatic format checking or document understanding can be built on that basis.
关 键 词: 文档结构识别 向量空间模型 文档格式校验 文档理解
领 域: [自动化与计算机技术] [自动化与计算机技术]