【关键词】 数据挖掘;关联规则;决策树;中医辨证
\cI0sc)h.~:o3T0中国论文网S)o\zEb 中医采用“望、闻、问、切”的诊断方法,并予以辨证施治,对慢性胃炎有很好的疗效。但是随着时间的流逝,一些宝贵的资源并没有被保存下来,老中医的经验是需要后人在实践的基础上不断领悟与总结方能表达的。需要从大量的临床资料中提炼出有价值、有共性的信息来帮助判断,从而达到辨证施治的目的。因而,笔者利用数据挖掘方法中的关联规则和决策树方法,以名老中医的胃炎病历信息为对象,对“症状”、“辨证”之间的潜在关系,以及根据“症状”如何判断是否能得到某一“辨证”做一初探。
中国论文网m%|;o
n i}1Ar)E;LS%Lu职称论文发表网 中国论文网#ln@y%cL!SS*[a 基于以上目的,笔者利用现有的中医胃炎病历作为样本数据,采用关联规则的方法建立实验模型,并给出实验分析的结果。在此基础上采用决策树方法,构建一棵判断是否为辨证“中虚气滞”的决策树。
4m!v
pa-k0G2sXx(j0中国论文网9jzf,|@6V6[@!i 1 基于关联规则方法的中医胃炎分析
)i&dXj*s|1QZ`5gZ0*u j'G{6BuDsr:~u{-@c0 关联规则是数据挖掘领域中最为常用和成熟的方法之一。关联规则的挖掘问题就是在给定的事务数据库中,找出满足最小支持度(minsup)和最小置信度(minconf)的关联规则。关联规则有如下优点:可以产生清晰有用的结果;支持间接数据挖掘;可以处理变长的数据;计算的消耗量是可以预见[1]。经典的关联规则挖掘算法[2]有:Apriori算法[3]、抽样算法、DIC算法。
中国论文网Y~*f)[PF0\!|*\;dPuaE/bg0 1.1 Apriori算法简介
9kP/j3C6Pd w
fg/H-g0中国论文网c{6d{ GlM Apriori算法先根据最小支持度,计算所有的1-项集(k-项集是含有k个项的项集),记为C1。找出所有满足支持度条件的1-项集,记为L1。然后根据L1确定候选2-项集的集合,记为C2。从C2找出所有满足支持度条件的2-项集,记为L2。依此类推,直到不再有候选项集。
pOX6^t&o%_p}$Q0 `Jo"c+B \W%L0 1.2 基于辨证“中虚气滞”关联规则的实验设计
中国论文网)hBGQw2wN中国论文网!t`|1@9mkt U 我们首先根据“疾病标准表”、“中医临床诊疗术语”和南京中医药大学提供的“中药材表”,对病历中出现的症状、辨证与处方进行规范化,将词义相同或相近的整理归类,统一、减少或简化其称谓,消除别名。比如,面色中既有“面黄少华”又有“面色萎黄”,将其统一纠正为“面色萎黄”。然而,用文字描述的数据不利于计算机接收和处理,用数字来表达可以大大简化工作的复杂度。我们采用数值化的方法来体现某一症状的有无,将症状看成是布尔变量。
W6j&dIB,n0 "z#I^2reXz0 我们从中医胃炎病历中筛选出辨证为“中虚气滞”的病历,利用关联规则的Apriori算法来探求症状与此辨证之间的关系。我们根据中医胃炎病历中所涉及到的症状、辨证、处方等数据,在ACCESS中构建数据库及相应的表。其中sample表(见表1)中存放的是样本数据,即中医病历中辨证为“中虚气滞”的病历。这里的每条记录代表辨证为“中虚气滞”的一条病历,分别由不同的症状构成。Symptom表(见表2)中存放的是中医胃炎病历中所涉及到的所有症状名称及其相应的编号。 表1 sample表(略)表2 symptom 表(略)
2l Y&T aH(@\x0中国论文网1N}W@
N9WY 利用VC6.0作为开发平台,从运行界面上输入支持度和辨证“中虚气滞”所涉及到的症状数目,根据Apriori算法运行程序,最后得到辨证“中虚气滞”与症状之间的关系。
中国论文网{!c0BkD职称论文发表网 中国论文网9]\'cI6E 1.3 基于辨证“中虚气滞”关联规则的实验结果分析
_~,mwsOh0A xu? J7mN
J+Z0 关联规则有两个评价标准:支持度和置信度。置信度描述的是包含A和B的事务数与包含A的事务数的百分比。由此可见,置信度度量规则的强度是我们关注的重点。以男性病历为例,最后得到最大频繁项集是{胃脘痞胀,舌苔薄(白),吞酸或泛酸,舌质红},以下列举部分结论以供分析。
中国论文网r#FvX$KG$_^OK7XG0 置信度:舌苔薄(白)=>中虚气滞(50%);舌质红=>中虚气滞(66%);胃脘痞胀∧舌苔薄(白)∧吞酸或泛酸∧舌质红=>中虚气滞(100%)。
9b*FI1V!gf#L+gG0 中国论文网b$Ko'LN$n'x9o 置信度表明:只有舌苔薄(白)这一症状时,辨证为“中虚气滞”的概率是50%;只有舌质红这一症状时,辨证为“中虚气滞”的概率是66%;症状胃脘痞胀,舌苔薄(白),吞酸或泛酸,舌质红同时出现的前提下,辨证为“中虚气滞”的概率是100%。
G3uT$g#Vi.R
j0中国论文网a V1U5kg%EQ 由女性病历分析,得到症状的两个最大频繁项集是{舌苔薄(白),脉细弦,口干(欲饮),胃脘隐痛}和{舌苔薄(白),脉细弦,胃脘嘈杂,舌质淡},以下列举部分结论以供分析。
'h${x5\xe:E/i0中国论文网5[h;B]6i-C;[S 置信度:舌苔薄(白)=>中虚气滞(22.2%);脉细弦=>中虚气滞(25%);胃脘隐痛=>中虚气滞(40%);口干(欲饮)=>中虚气滞(66.7%);舌苔薄(白)∧脉细弦=>中虚气滞(25%);胃脘隐痛∧舌苔薄(白)=>中虚气滞(50%);脉细弦∧胃脘隐痛=>中虚气滞(66.7%);脉细弦∧胃脘隐痛∧舌苔薄(白)=>中虚气滞(66.7%);舌苔薄(白)∧脉细∧口干(欲饮)∧胃脘隐痛=>中虚气滞(100%);舌苔薄(白)∧脉细∧舌质淡∧胃脘嘈杂=>中虚气滞(100%)。
FQWwF1u2|08q(m#z9q
{T4S/RE0 由实验结果可知,在单个症状出现的情况下,症状口干欲饮对于辨证“中虚气滞”的影响最大;当两个症状同时出现的情况下,症状脉细弦和胃脘隐痛能导致是辨证“中虚气滞”的可能性为66.7%,是其他几种两个症状同时出现的可能性中最大的。当同时出现舌苔薄(白)、脉细、口干(欲饮)、胃脘隐痛和舌苔薄(白)、脉细、舌质淡、胃脘嘈杂这2组症状时,都可判断辨证是“中虚气滞”。
中国论文网
AX Z ~,P中国论文网
W7OQJ#@*A-oov-g4f 由此可见,应用关联规则方法对中医胃炎病历进行分析确实能在一定程度上揭示辨证与症状对应的规律,从中提取有用知识,为临床及实验研究提供进一步探索的线索和目标。
z`xN3EX5g-K0中国论文网T'i(r}h1Z|W"j 2 基于决
策树方法的中医胃炎分析
K`og Y6[pLd+N0职称论文发表网 Z i5g|6A$g^'e0 决策树算法是目前应用最广泛的归纳推理算法之一[4],是一种逼近离散值函数的方法,通常用来形成分类器和预测模型[2]。决策树分类方法采用自顶向下的递归方式。从决策树的根到叶结点的一条路径就对应这一条合取规则,整棵决策树就对应着一组析取表达式规则。
中国论文网)|L8H f'D2|;r中国论文网 tAhdH#gY z(W 2.1 ID3算法简介
中国论文网3TB"@e0a 中国论文网z"~t
x)i{ ID3算法先确定每一个实例属性单独分类训练样例的能力,将分类能力最好的属性选做树的根结点。然后为根结点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支之下。重复整个过程,用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。由此可见,ID3算法总是选择分类能力最好的属性作为当前结点的测试属性。ID3算法选用信息增益作为选择最佳属性的度量标准。为了精确定义信息增益,先定义信息论中广泛使用的一个度量标准——熵。
中国论文网2{ Yv#T+r%Uf c4o}9n,].`ykS0 Entropy(S)=
中国论文网#[AZ:wnM!dw(dT2V 中国论文网-z;r$A*i yv9z 其中:S为某个目标概念的正反样例的样例集,P+是在S中的正例的比例,P-是在S中反例的比例。
~E
Cu|LO*u~0[.l7_Z-v:[%B&ht0一般情况,如果目标属性具有C个不同的值,那么S相对于C个状态的分类的熵定义为:Entropy(S)=
C2N!s}$d3EqA-S0 。