导 师: 蔡永铭
授予学位: 硕士
作 者: ();
机构地区: 广东药科大学
摘 要: 目的在我国,虽然胃癌是一种发病率和死亡率较高的恶性肿瘤,但是早期胃癌患者若即时接受根治性治疗,即手术切除,其术后5年生存率较高,因此加强早期胃癌的诊断筛查是挽救胃癌患者生命及提高患者生存质量的关键。目前我国早期胃癌检出率很低,亟待提高,以往提高早期胃癌检出率的方法大多是改良胃镜检查和病理组织活检等临床技术,这些技术对患者有一定的创伤,依从性低,普及率低,因此我国目前早期胃癌检出率很低。本研究的目的是根据胃病患者基本信息、饮食习惯、近期主要症状、疾病家族史、疾病既往史和血清学检查等多种非侵入性因素,采用数据挖掘方法建立早期胃癌风险预测模型,同时分析对早期胃癌风险预测有重要影响的因素,以期在有创的胃镜检查和病理组织活检之前辅助临床筛查早期胃癌风险,可进一步促进提高早期胃癌检出率。方法本研究的数据来源于与广东药科大学附属第一医院合作的科研项目。该项目收集了在广东地区30家医疗单位消化内科就诊的胃病患者的问卷调查、血清学检查和胃镜检查加病理组织活检数据。其中调查问卷内容主要涉及患者的基本信息、饮食习惯、近期主要症状、疾病家族史和疾病既往史。收集胃病患者的胃镜检查加病理组织活检结果数据,为早期胃癌诊断的“金标准”,并根据此结果划分患者早期胃癌风险类别。以问卷调查和血清学检查结果为预测指标,早期胃癌风险类别为分类目标,对收集的数据进行预处理,包括数据清洗,利用相关分析方法筛选与早期胃癌风险类别相关的预测指标,分割原始样本数据为训练集(70%)和测试集(30%),以及采用合成少数过采样技术(Synthetic Minority Oversampling Technique,SMOTE)处理训练集分类不平衡问题。根据C5.0决策树(C5.0 Decision Tree,C5.0DT)、树扩展的朴素贝叶斯网络(Tree