导 师: 童调生;陈治平
学科专业: 081101
授予学位: 硕士
作 者: ;
机构地区: 湖南大学
摘 要: 随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,以有效地保留大的文本集合就成为了目前重要的研究课题。对文本进行有效管理的方法之一,就是将它们进行系统地分类,即文本自动分类问题。文本自动分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻自动分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。 本文详细分析了中文文本分类的模型构造及对应的分类算法,对常用的文本分类算法进行了评价/(主要有SVM方法、Boosting方法、Na/(?/)ve Bayes方法、KNN法、基于向量空间模型方法等/)。文本分类算法是一种监督式的学习方法,在对文本进行自动分类时,需要解决以下几个问题,如:获取训练文档集、建立文档表示模型、文档属性选择、选择分类算法和性能评估模型等。 本文对中文文本分类的分词技术进行了着重讨论。对于基于信息过滤的自动分类问题,使用字典分词并不是一个必须的过程,因而本文提出了基于2元语法短语标引的分词方法,它将设立切分标志法与基于词频统计的方法相结合,可以识别基于词典方法处理不了的词汇,如:人名、地名、专业术语等。由于这种方法获取信息简单,用此进行分类可使文档分类系统摆脱对复杂切词处理程序和庞大词典的依赖,因此可以替代基于字典的机械分词方法。 在第三章分词的基础之上,结合KNN,Na/(?/)ve Bayes和简单向量距离分类算法,建立了一个基于分词的自动分类系统。它运用基于2元语法短语标引的自动分词方法来抽取向量空间模型需要的特征词来表征文档的内容,并表示成向量。其中:分词模块由分词预处理与分词两部分所组成;然后,对向量的维数加以缩减,以降低系统的复杂度,同时提高分类的精度;最后结合新闻语料库/(文章采用网上下载的新闻语料库500篇,所有的新闻稿都由领域专家事先进行了分类,按照中图法分成政治、经济、军事等共十大类/)进行验证。实验结果表明了分词算法的有效性。 With the development of the Information Technology, especially the popularization of the Internet Applications, information on the Net increases exponentially. How to manage automatically the mass information to keep the volume texts is for the moment the important research task. One method of managing the texts efficiently is to classify them, namely, the problem of Text Classification. Text Automatic Classification is one of the important intelligent information processing, which is of great applications in such fields as news classification, E-conference, E-mail automatic classification and so on. In this paper, the model construction and methods of Chinese Text Classification are analyzed particularly, such as SVM, Boosting, KNN, and so on. Text Classification method requires to solve the problems, such as the obtainment of the training documents, the establishment of the expression modules, the selection of the classification methods, and so on, while classifying the documents. In this paper, the Word Segmentation technology of Chinese Text Classification is debated emphatically. And the method of Word Segmentation based on the phrase labeling of 2-gram syntax is put forward combining the method of setting separate-signs and the method based on the statistic of word-frequency, which can recognize the vocabularies which the method based on the dictionary can not manage. This method is easy to obtain information so that it can break away the independence on the dictionaries and Word Segmentation managing programs, it can replace the mechanical Word Segmentation methods on the dictionaries. Lastly, an automation classifying system is established combining the classifying methods of KNN, Naive Bayes and Simple Vector Space,which validates the efficiency of the Word Segmentation method.
关 键 词: 中文文本自动分类 分词 元语法短语标引 信息处理 最临近算法 朴素贝叶斯算法 简单向量距离法 语料库
分 类 号: [TP391.1]
领 域: [自动化与计算机技术] [自动化与计算机技术]