帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

TrigSigs:一种有效的非结构化记录关联合并算法
TrigSigs:an effective record linkage algorithm for unstructured data

作  者: ; ; ; ;

机构地区: 浙江大学计算机科学与技术学院

出  处: 《浙江大学学报(工学版)》 2010年第12期2284-2290,2308,共8页

摘  要: 为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升. A novel clustering algorithm named TrigSigs was proposed to overcome the problem of record linkage models for unstructured data from network.It focuses on mining the associations of hidden attributes as the signatures of objects in unstructured data by trigger-pair model.It can group tokens which help identify objects and filter out noise.Then it assigns weight to tokens properly which makes feature vectors more representative for identifying objects.After these steps,it gains fine-grained object-based clustering result from unstructured data.Experiments on real datasets show that this algorithm can filter out most noise and assign weight for features properly,and improves the clustering results greatly.

关 键 词: 记录关联合并 非结构化数据 触发对 属性关联度 信息分布集中度

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 朱维乔
作者 杨勇
作者 吴敏仪
作者 黄怀
作者 刘爱平

相关机构对象

机构 华南理工大学
机构 中山大学法学院
机构 佛山职业技术学院
机构 广东白云学院
机构 惠州学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊