机构地区: 深圳职业技术学院计算机工程学院软件工程系
出 处: 《计算机工程与设计》 2007年第5期1158-1160,共3页
摘 要: 超文本信息抽取是Internet信息重组的重要手段。通过对政府公文信息格式进行了研究,提出了一种基于XML的信息抽取中间件模型,通过基于串匹配与串频统计相结合的分词处理、利用遗传算法的词类标注以及基于改进的隐马尔科夫模型的XML模板自动填充,可以快速的对Internet上的政府公文信息进行信息重组,以供相关应用系统使用。 Information extraction is one of the most important way to reorganize the HTML text. Through researching on the format of government archives. The information extracting middleware module based on XML technology is given, step by word segmenting based on string match and string frequency stat, POS tagging based on heredity arithmetic theory, XML Template filling based on HMM model, that can reorganize the government archives with XML formatting rapidly.
关 键 词: 政府公文 信息抽取 中间件 分词处理 词类标注 模板填充
领 域: [自动化与计算机技术] [自动化与计算机技术]