数据挖掘技术在学生成绩管理中的应用
2014年5月01日 13:22 作者:兆瑞琦 赵明辉
数据挖掘技术在学生成绩管理中的应用
`)J*M'LaI[0兆瑞琦 赵明辉
"|#z'D.?o0(辽宁轨道交通职业学院 沈阳 110036)中国论文网,WIY+}Sl
[摘 要]本文介绍首先数据挖掘技术的基本概念与决策树分析方法的基础上,通过数据挖掘技术将学生成绩进行分析处理构造决策树,并对结果进行分析。
dvX*j3k)}hD6z!@"W
E']0[关键词] 数据挖掘 决策树 数字化校园中国论文网
XX+fv'bh
数字化校园建设在不断深入的过程中,产生了大量的数据信息,数据库存中国论文网w/Qu
IxM
储的数据量也在日益增长。若仍以简单的数据统计方法,显然无法发现数据中
k}s6@q}!S0存在的关系和规则。通过数据挖掘技术能够从这些庞大的数据中,发现有用的
0M?N8Y
@!|6a?0信息。将学生的考试成绩通过数据挖掘技术进行合理的分析与处理,能够对学
}dO){e[qXX0生的学习成果进行评价,便于及时指导学生的教学行为。使考试成绩能够更有
:W-LmL!o,Q$c0效的反馈教学效果,沟通教学信息。
[^f6TG?01.数据挖掘技术
i2oM T7i|01.1 数据挖掘的基本概念中国论文网E-}
rq]%v:l)@*W*T
数据挖掘是通过分析不完整的、随机的、含有噪声的数据,从大量数据中寻中国论文网m*f6o&V9c
找其规律,挖掘潜在的信息和知识的过程。与传统的数据统计分析方法相比,数
cV D wFmVkg
t0据挖掘得到的结果具有未知性、有效性和实用性的特点,是一种深层次的数据中国论文网8y*R`2fL~
分析方法。中国论文网7uU#v3k+c!n2`
1.2 决策树技术中国论文网Y!Fh6L
G:P$l
决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。具有中国论文网xn
s4K*VZaA:G;o
分类精度高、生成模式简单、对噪声数据有很好的健壮性等优点。本文就是采用
H.v8z9xr TZ{D0决策树的分类算法,分析影响学生维修电工考试过关率的因素。中国论文网{"Frt`M
1.3 决策树属性选择度量
0s#z idyi0Kr[0决策树算法的核心是如何确定分枝准则。通常,在树的每一个节点上使用中国论文网
W0YCZ,C)Gg'in#Z
信息增益度量选择属性。选择具有最高增益(或最大熵压缩)的属性作为当前节
:tZ0aTx0点的测试属性。这个属性使其反映划分的最小随机性或“不纯性”,同时对结果
eiYC1P&i/k!FPHOeS0划分中样本的分类所需的信息量最小。这种理论方法使得在确保找到一棵简单中国论文网:X:E
fRO'z4^
的树的基础之上,对一个对象分类所需的期望测试数目达到最小。中国论文网f
zs%L_|"vN
2.决策树技术的应用中国论文网s9j!oemhI)O
2.1 希望解决的问题中国论文网 a2h0bpQ
近几年我校学生的维修电工考试成绩的及格率一直不高,在这里以我校11
1dv4mG
]
XQ&`+H0级、12级和这两个年级电气专业学生维修电工考试成绩为基础数据进行数据挖
J
MOi d
F9I$U0掘,希望从维修电工考试成绩和考试中涉及的各个学科学生学习成绩情况来分
TJ+D1_!R&GPB0析挖掘出影响学生学习成绩的因素。中国论文网p"m`
aA(p"z!i:Lt
2.2 数据准备中国论文网,U0tq-n*W)\,V:f_%b:\
1 数据清理中国论文网%x:zJDp~^4} F
对采集的数据信息进行观察可以发现,有些学生没有考试成绩(可能由于
y6k
~#P/c"_2m0某些原因没有参加考试)对于上述这种情况采用忽略元组的方法进行删除。当中国论文网 w1Y JP%oC0Q7a~
相对的空缺值较少时,也可采用采用人工填写的方法。
a8MZ$b*Ojw&U c02 数据转换
3w2z'dJ ] E0由于学生成绩属于连续值属性而决策树技术需要离散值属性,需将学生成中国论文网^(SY'RJR7u`
绩进行离散化处理。中国论文网'?%yN}v+f
对于维修电工技能考试成绩采用百分制,因为只关心维修电工考试成绩是中国论文网'aYA2u6zm(j+xL
否及格所以将学生维修电工分析表中成绩属性的所有值按大于等于60分、小于
vWB;`|-d1W9E-B060分划分成“及格”、
DKnK6U'jM(S0\0“不及格”两类。对于电工基础与电气控制,由于其知识点在中国论文网5N$A%x.f
{)w%Y)lYh
维修电工中所占的比重比较大,所以将其考试成绩分为“好”、中国论文网
C}$@`Y
“一般”、中国论文网
r;DTq:BG%P
“差”三中国论文网"A5eC8b c0h
类;对于电子技术期与电机拖动两门课程,由于其知识点在维修电工考试中所中国论文网9Sx+W
s%]FR
占比重较小,所以将其考试成绩分为“好”、中国论文网p$Wd'j7H
“一般”两类。中国论文网[ _Uvd#N0R[A8~To
3 数据归约中国论文网D1[ A$\&f
本次课题为了便于决策树模型的建立,删除了学生姓名、班级、英语等内容中国论文网&G`P6C2p
与电工考试关系不大的考试成绩,保留了与电工考试相关的四科考试成绩,作
[aSA2U2Al_0为四个属性建立成绩分类决策树模型的依据,生成学生成绩分析基本数据表。中国论文网
s^$heJI6R
2.3 利用ID3算法构造学生考试成绩分析决策树中国论文网'{7s(aRe5x CR
本文选择了其中与学生考试成绩属性相关四个属性作为建立成绩分析分中国论文网;Pu5MXP-C4v
Ph
类决策树模型的依据,以成绩及格作为分类属性。
$ND&_h:aXZ%f0具体的实现过程如下介绍:中国论文网2K6_2RD5]Foh#^K%C
(1)计算分类属性的信息量。中国论文网(h*R@9@.Ea1M;t
将样本按成绩是否及格分成2个类C1=“及格”,C2=“不及格”,其中S1=285,中国论文网W
x4NJ'|\2B.a:s
S2=215总计S=500。计算出对给定样本分类所需的期望信息:中国论文网U
i T1meg
1中国论文网AvW/HnD
2中国论文网3wtcWqw KQZ
2中国论文网k Sq9j7~ y
2
\'t-O(B'C8[0285
4GC|8`QAnK0285
)|pw+_n1z0215中国论文网V!NU;p"K$w{h
215
t6ttML)WV}0( ,
O0my%P;~_FP9I0)
;{-vzd4@+b0log中国论文网-m/X8RtK
log中国论文网b
~yfG
0.9858
ME!b,jwB0500中国论文网0\_G&tPA&@3\ nf
500中国论文网g2]B+z^;ec
500中国论文网 WKm5X|G
IH k
500
/?&xI)b+{;}G.uj{0I S S中国论文网.W-uyA-W.T'i([
中国论文网L1c!M:i)xp^.R
#G@R2R%ME0
,m#mJ
Y'A_a9~}u0(2)依次计算每个属性的期望量:
&C@d;a l/n8?0以计算“电气控制考试成绩”属性,该属性中有三个属性值为例,需要对每中国论文网/E'T2_/Sl1g
个属性值所划分的子集计算信息量。对于“气控制考试成绩”=“好”,类 “及格”
2|MCbD0有142个样本,类“不及格”有58个样本,则表示为(142,58);对于“电气控制考试中国论文网Oyv5^L-~G9GYKI
成绩”=“一般”,类“及格”有98个样本,类“不及格”有82个样本,则表示为(98,
GT0r+Vhv:_!g8k*t082)。对于“电气控制考试成绩”=“差”,类“及格”有45个样本,类“不及格”有75中国论文网FW*S `.TJ
个样本,则表示为(45,75)利用给出的公式,计算得到“电气控制考试成绩”属性
2~2h?g U`
pj+F0各个子集的信息量: