帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于XML的政府公文信息抽取中间件的设计与实现
Design and implementation of information extracting middleware for government archives based on XML technology

作  者: ; ;

机构地区: 深圳职业技术学院计算机工程学院软件工程系

出  处: 《计算机工程与设计》 2007年第5期1158-1160,共3页

摘  要: 超文本信息抽取是Internet信息重组的重要手段。通过对政府公文信息格式进行了研究,提出了一种基于XML的信息抽取中间件模型,通过基于串匹配与串频统计相结合的分词处理、利用遗传算法的词类标注以及基于改进的隐马尔科夫模型的XML模板自动填充,可以快速的对Internet上的政府公文信息进行信息重组,以供相关应用系统使用。 Information extraction is one of the most important way to reorganize the HTML text. Through researching on the format of government archives. The information extracting middleware module based on XML technology is given, step by word segmenting based on string match and string frequency stat, POS tagging based on heredity arithmetic theory, XML Template filling based on HMM model, that can reorganize the government archives with XML formatting rapidly.

关 键 词: 政府公文 信息抽取 中间件 分词处理 词类标注 模板填充

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 崔晶盈
作者 王仁强
作者 姜明宇
作者 姜文振
作者 詹佳佳

相关机构对象

机构 华南理工大学
机构 中山大学
机构 广东工业大学
机构 华南师范大学
机构 广州大学地理科学学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊