数据挖掘技术在学生成绩管理中的应用
2014年5月01日 13:22 作者:兆瑞琦 赵明辉
数据挖掘技术在学生成绩管理中的应用中国论文网FLG'?;J5R0V&Gh
兆瑞琦 赵明辉中国论文网&{^;aUE
(辽宁轨道交通职业学院 沈阳 110036)中国论文网.e:U:Q uDL(hvR.|
[摘 要]本文介绍首先数据挖掘技术的基本概念与决策树分析方法的基础上,通过数据挖掘技术将学生成绩进行分析处理构造决策树,并对结果进行分析。中国论文网(Ded6k#D.F+M;^
[关键词] 数据挖掘 决策树 数字化校园
{ n`-R{t0数字化校园建设在不断深入的过程中,产生了大量的数据信息,数据库存中国论文网o}?\lh1?'b4kG
储的数据量也在日益增长。若仍以简单的数据统计方法,显然无法发现数据中
"Z:n}_~ SV0存在的关系和规则。通过数据挖掘技术能够从这些庞大的数据中,发现有用的中国论文网Hhpo'bG&gxa[
信息。将学生的考试成绩通过数据挖掘技术进行合理的分析与处理,能够对学中国论文网%Gm~!d'O7xb
生的学习成果进行评价,便于及时指导学生的教学行为。使考试成绩能够更有
y~
G
RCY]0效的反馈教学效果,沟通教学信息。中国论文网_x@0K RSKC)Q
1.数据挖掘技术
'Y8I~f},V
j]3\01.1 数据挖掘的基本概念
/x$t&@
d1h/P|0数据挖掘是通过分析不完整的、随机的、含有噪声的数据,从大量数据中寻
x([4Z!Il{f'E'a0找其规律,挖掘潜在的信息和知识的过程。与传统的数据统计分析方法相比,数中国论文网^6?VP`z
据挖掘得到的结果具有未知性、有效性和实用性的特点,是一种深层次的数据中国论文网3r*k@7P3P~7g7c7[5s
分析方法。中国论文网 vu x9l Dp q i*mV"R7iZ
1.2 决策树技术
*Q-D.l*I:ks}e1e0决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。具有
+o g7]Kx9k Tv0分类精度高、生成模式简单、对噪声数据有很好的健壮性等优点。本文就是采用中国论文网:C^uMpjd
决策树的分类算法,分析影响学生维修电工考试过关率的因素。中国论文网s5A c G%t8E Gr$iK
1.3 决策树属性选择度量
E3^E(L_'Gs-~\0决策树算法的核心是如何确定分枝准则。通常,在树的每一个节点上使用
R;l
N5m5^i(zu^"l0信息增益度量选择属性。选择具有最高增益(或最大熵压缩)的属性作为当前节中国论文网
R1_
{j+au
点的测试属性。这个属性使其反映划分的最小随机性或“不纯性”,同时对结果
9I6z6K:a/W;X0划分中样本的分类所需的信息量最小。这种理论方法使得在确保找到一棵简单
8_$B#x3Q;Q Zq/M3F0的树的基础之上,对一个对象分类所需的期望测试数目达到最小。中国论文网PZH)_9D
2.决策树技术的应用中国论文网8P
q&t8J6R!n#U[
2.1 希望解决的问题中国论文网 w)V%r
kH"yR
n0k@
近几年我校学生的维修电工考试成绩的及格率一直不高,在这里以我校11
G$d$EW2t4B[qM ^0级、12级和这两个年级电气专业学生维修电工考试成绩为基础数据进行数据挖中国论文网
JpM1t*w,Ed7@
掘,希望从维修电工考试成绩和考试中涉及的各个学科学生学习成绩情况来分中国论文网i]g2c t
G9H
析挖掘出影响学生学习成绩的因素。
mz2nG^6R1GI;j02.2 数据准备中国论文网7G PAX*}d$d-t
1 数据清理中国论文网y,c _g)V2\4KW*d!aa
对采集的数据信息进行观察可以发现,有些学生没有考试成绩(可能由于中国论文网;f4hdz
[
某些原因没有参加考试)对于上述这种情况采用忽略元组的方法进行删除。当
)hLA f7J'Zo:g0相对的空缺值较少时,也可采用采用人工填写的方法。
w]Kok)m"zaI9C02 数据转换
/B9V;sn}H!ae0由于学生成绩属于连续值属性而决策树技术需要离散值属性,需将学生成
X-bd9ZeJ0绩进行离散化处理。中国论文网"AJ!DQ
f3Y E.T t
对于维修电工技能考试成绩采用百分制,因为只关心维修电工考试成绩是
G"V`F Mg,M&V0否及格所以将学生维修电工分析表中成绩属性的所有值按大于等于60分、小于中国论文网}
ZgnE(X4F3N
60分划分成“及格”、中国论文网"P'X;{[\n
“不及格”两类。对于电工基础与电气控制,由于其知识点在中国论文网DMmeE-dW"J@0N
维修电工中所占的比重比较大,所以将其考试成绩分为“好”、
E0V
_bG)R0“一般”、
jF8oi:b\X0“差”三
Xjz;n:kr ce2?0类;对于电子技术期与电机拖动两门课程,由于其知识点在维修电工考试中所
:T.G"X?Ab9[b0占比重较小,所以将其考试成绩分为“好”、中国论文网2{8^GPNZ)Xb*\x
“一般”两类。
;[.i3?c+j,E$c(i7Mq"X{03 数据归约中国论文网kW-RNB\{
本次课题为了便于决策树模型的建立,删除了学生姓名、班级、英语等内容
Yu2t*P}0与电工考试关系不大的考试成绩,保留了与电工考试相关的四科考试成绩,作
1}$n*j'Mj,E5k$|0为四个属性建立成绩分类决策树模型的依据,生成学生成绩分析基本数据表。中国论文网0\\/]-}[a:N
b:kq
2.3 利用ID3算法构造学生考试成绩分析决策树中国论文网m7E N\WI`8uh:UAIB
本文选择了其中与学生考试成绩属性相关四个属性作为建立成绩分析分中国论文网?j,O'o*d5CD1U
类决策树模型的依据,以成绩及格作为分类属性。中国论文网_Zk[ x4|
Z:c#f
具体的实现过程如下介绍:
%`+wOOp+C)EQ0(1)计算分类属性的信息量。中国论文网t-Y
x(~9E%O8Ss
将样本按成绩是否及格分成2个类C1=“及格”,C2=“不及格”,其中S1=285,中国论文网3Q9aG@i%S ^
S2=215总计S=500。计算出对给定样本分类所需的期望信息:中国论文网@ `5N#rv[o'ho"c
1
"h$`:_M1eY02
7cN7jV$t3Iu*p02中国论文网v5S8d7`z~,\TR
2
/JL(bm+Ajbp0285中国论文网?I{I5BC.A}C
285
)p? t7o6s"pGak0215中国论文网;hGz&rfV4\
215
&qB5G9e!U5}-Y!xJ.p0( ,中国论文网pz&R*uH1N?z
)
2Ac;Zx[%o"c2F:E0log
J"z2hf?kP0log中国论文网3T$c!Ed4]"_6S `4@ChK
0.9858
6a$|)Z_&T!omku6[5W0500中国论文网3bR4_^/RG
500
k{}])V1A!T'|5X0500
6R`b[R"eJJm0500
4}SU8u4E1X6e3N!B*E0I S S
1u`%|6Q"F'H0
]o"|K/ev/a#f(V#Z&I_0中国论文网B`} aV5rUJ8k
&}&l|2X2r3Qh/P0(2)依次计算每个属性的期望量:
+_
ysT:Mk8o0以计算“电气控制考试成绩”属性,该属性中有三个属性值为例,需要对每中国论文网S WMi"V
个属性值所划分的子集计算信息量。对于“气控制考试成绩”=“好”,类 “及格”
:Z;ZJ
U.R%|P.e0有142个样本,类“不及格”有58个样本,则表示为(142,58);对于“电气控制考试
Eh(oS| X S.p!e0成绩”=“一般”,类“及格”有98个样本,类“不及格”有82个样本,则表示为(98,
f%Rq_Ma9}082)。对于“电气控制考试成绩”=“差”,类“及格”有45个样本,类“不及格”有75
TB'[x L Z5V0个样本,则表示为(45,75)利用给出的公式,计算得到“电气控制考试成绩”属性中国论文网pc&D6A9E
U Le
各个子集的信息量:
[D6N [
^E/K+^7i02
S_'W"q&k{02中国论文网Ag Iy{]1e)Y
142中国论文网Q+q1CFvw
142
*P_wBi l D058
*rHI'xh2k/A058
k+Zc ]Ua*T-ov
t0(142,58)中国论文网 TKA5uM
|%a.Z
log
&TLVF!rR0log
5uL@_B-@0A00.8686中国论文网(GX)Z vM i.r9X
200中国论文网.a
T gM?Z
200
a;L bw}*K0200
|R+S;N+C~P/m$psH0200中国论文网L:qShv&T%Yd)gt
I中国论文网8G+rKAS$k
p
ecg4X W:p
U4e7[FO0
y5J uR%o5X3Kn0
BJq*aEn02
xJLxn4w ^/iuz ?i02中国论文网*E m9X5d]$j+u(P*Or]
98
6g)N YtDc098中国论文网P"E9A_gu
82中国论文网6\\'X#dw&o2y.J[
82
q1M/P&Z#W&Z0(98,82)中国论文网:hW$w"`K
log中国论文网O:V[*|_4w `
log
.w&w$cL"a]00.9943中国论文网"ss VS
F%V)Vz*B9^
180
W1WhX7\}/];S.e,l7[0180中国论文网+uY3_ OB,b
180
(`5?4b9P~qH0180中国论文网Y$f6Ch:EOJ
I
%h*s{!N\/Qb`0
9x2}N$Q5u;Ya G0
x5C;u~%{_?I};X0中国论文网{G0TkQ
2
H{:q,`L1[02中国论文网5Uy5Jon9L)?7r
45中国论文网Z#v0Qy'Iq}C
45中国论文网 q*qE k.u1Q0WaA
45中国论文网%[j%BIp_2GlH
45
I[} r-}'k0(45,75)
#_*Z_
a,i/EY(Je0log
(hV_{$RE8m:\q0log
W)U
S.owx+L00.9544中国论文网 D)d!j$`:m1{
120中国论文网wR F
}6Z
120中国论文网E7W4V[RTY1mcM
120
4w8so6Yi7DK+s lL,E2A0120
%a&tSZ^E%l8}0I
s)DS$}.j0