数据挖掘技术在学生成绩管理中的应用
2014年5月01日 13:22 作者:兆瑞琦 赵明辉
数据挖掘技术在学生成绩管理中的应用中国论文网[2f{8D;j`k%B
兆瑞琦 赵明辉
~b ~.w(R5s p"W(VV0(辽宁轨道交通职业学院 沈阳 110036)
4g%s
E0A F6{
w'[0[摘 要]本文介绍首先数据挖掘技术的基本概念与决策树分析方法的基础上,通过数据挖掘技术将学生成绩进行分析处理构造决策树,并对结果进行分析。中国论文网!A1v0W]t(c.Gi
[关键词] 数据挖掘 决策树 数字化校园中国论文网U3e5]$P^+D
数字化校园建设在不断深入的过程中,产生了大量的数据信息,数据库存
HDDQ%_\;f0储的数据量也在日益增长。若仍以简单的数据统计方法,显然无法发现数据中中国论文网ImZj7J`,T}D1_l
存在的关系和规则。通过数据挖掘技术能够从这些庞大的数据中,发现有用的中国论文网6h&F6vaV2d
信息。将学生的考试成绩通过数据挖掘技术进行合理的分析与处理,能够对学
b,D-J F6l0生的学习成果进行评价,便于及时指导学生的教学行为。使考试成绩能够更有中国论文网 FZ4z_4D9\g.c
效的反馈教学效果,沟通教学信息。
sN^1a+_ A1z01.数据挖掘技术
F8dihCw01.1 数据挖掘的基本概念中国论文网
jz.`L^5@`T$YK
数据挖掘是通过分析不完整的、随机的、含有噪声的数据,从大量数据中寻中国论文网L"Wv'bTC
找其规律,挖掘潜在的信息和知识的过程。与传统的数据统计分析方法相比,数中国论文网8l.nNO3[6k,L"`H8[
据挖掘得到的结果具有未知性、有效性和实用性的特点,是一种深层次的数据中国论文网(k5o7R6Y`"f)~p
分析方法。
m~%E$qpG[L6W9T;d01.2 决策树技术中国论文网`-IZ)[na
决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。具有中国论文网e1d4[ W(wc
分类精度高、生成模式简单、对噪声数据有很好的健壮性等优点。本文就是采用
c0pfZIag+n6C0决策树的分类算法,分析影响学生维修电工考试过关率的因素。
q+Xa(l'MS*w01.3 决策树属性选择度量中国论文网 w_T(a4pI2i6sa
决策树算法的核心是如何确定分枝准则。通常,在树的每一个节点上使用中国论文网M/P4?$N"q]_
信息增益度量选择属性。选择具有最高增益(或最大熵压缩)的属性作为当前节
P2nUy*Q0点的测试属性。这个属性使其反映划分的最小随机性或“不纯性”,同时对结果
;t*c]mz9A*}.Ffq"G0划分中样本的分类所需的信息量最小。这种理论方法使得在确保找到一棵简单
C,neox|[0的树的基础之上,对一个对象分类所需的期望测试数目达到最小。
)R!r5a'hS F2Qn0\02.决策树技术的应用
9ATpKx02.1 希望解决的问题
w.{4Y?{
nu/@0近几年我校学生的维修电工考试成绩的及格率一直不高,在这里以我校11中国论文网1I }Jx*^e#{
dT3^
级、12级和这两个年级电气专业学生维修电工考试成绩为基础数据进行数据挖
3I_j[G0掘,希望从维修电工考试成绩和考试中涉及的各个学科学生学习成绩情况来分
/? Q m/|:k"{ J}-q+i0析挖掘出影响学生学习成绩的因素。
:pa4vx,gg$p02.2 数据准备中国论文网 }7Q9U jY-IZ
1 数据清理
&Sm?9pMWa0对采集的数据信息进行观察可以发现,有些学生没有考试成绩(可能由于中国论文网tX+Oa6A9[8u
某些原因没有参加考试)对于上述这种情况采用忽略元组的方法进行删除。当
,}Xu-BraCL0相对的空缺值较少时,也可采用采用人工填写的方法。
|9s
e)K+\~XR02 数据转换中国论文网rk3qcB9j1?
由于学生成绩属于连续值属性而决策树技术需要离散值属性,需将学生成
.Ekoj A#r;hW0绩进行离散化处理。
RX d?6W6cm"@,Zl0对于维修电工技能考试成绩采用百分制,因为只关心维修电工考试成绩是
+W.t1f&w%iy%|0否及格所以将学生维修电工分析表中成绩属性的所有值按大于等于60分、小于中国论文网
X6pqv*H2RaTSz6Cg
60分划分成“及格”、
4?t3]:Ry;`&p;K7XW0“不及格”两类。对于电工基础与电气控制,由于其知识点在中国论文网:bg,r
Nwf
E
Zk
维修电工中所占的比重比较大,所以将其考试成绩分为“好”、
_M
x*f&@#R;N0“一般”、中国论文网u;K f*vo8z;b\+Cx
“差”三中国论文网[,c,n,J0N'z
类;对于电子技术期与电机拖动两门课程,由于其知识点在维修电工考试中所
NSB3Yj0占比重较小,所以将其考试成绩分为“好”、中国论文网?*P1XAJ
“一般”两类。
){,ZF7H:a7K.tl03 数据归约
"oqR7aJEB5PG0本次课题为了便于决策树模型的建立,删除了学生姓名、班级、英语等内容
C{N,{
[K@%L0与电工考试关系不大的考试成绩,保留了与电工考试相关的四科考试成绩,作
%h n}&pK$XmR0为四个属性建立成绩分类决策树模型的依据,生成学生成绩分析基本数据表。
U6gy%S S%c$q/\
lmmYW02.3 利用ID3算法构造学生考试成绩分析决策树中国论文网v@2\i(s.py/D!{-nl
本文选择了其中与学生考试成绩属性相关四个属性作为建立成绩分析分中国论文网K/QK)vO4f-Wr_
类决策树模型的依据,以成绩及格作为分类属性。
8K,rZNc8U2d;QC:Y0具体的实现过程如下介绍:中国论文网$of PF$?
Pq6HO+E
(1)计算分类属性的信息量。
n3f[q'g cI0将样本按成绩是否及格分成2个类C1=“及格”,C2=“不及格”,其中S1=285,中国论文网mG.k$SjQ'\
S2=215总计S=500。计算出对给定样本分类所需的期望信息:中国论文网
W3_.Pg igjV;^Z
1
(wEC
sff{2E,PF02中国论文网$TnK0G4U|7DZ
2中国论文网6KE7rEo;]w
2中国论文网"GQ&jY
H;\4L;|
285中国论文网;z*qfjkk\-Y
285
v? ^/E~ |kL0215
uE-Rd)YS0215
rbwz$W$M&G
raL/my0( ,中国论文网FwoQ RF5^0MH+S \
)中国论文网
q
N0\(gX(fOO"k.Z
c
log
I.j5vc(o-O7`N
J,N/l0log
|
oG0[w1Vf00.9858中国论文网Z
r*l
g3kMy
500中国论文网7Zd
n#Y z)IW/d#r7I
500中国论文网+p6^ee!~G'k
500中国论文网D!Y,Oo~ ~WrrKn
500
,| P&i,JCTrII0I S S中国论文网A[}5r0Ac
.sD~#E\ SHsH0
;lG HY5gz7\@0中国论文网i [r0P'p)p
(2)依次计算每个属性的期望量:
Y4qV6Wu9u0以计算“电气控制考试成绩”属性,该属性中有三个属性值为例,需要对每中国论文网 f7f vV0hkh
个属性值所划分的子集计算信息量。对于“气控制考试成绩”=“好”,类 “及格”中国论文网LJ?gu9IC
有142个样本,类“不及格”有58个样本,则表示为(142,58);对于“电气控制考试中国论文网$u"X~%Qgb"P.A!L
成绩”=“一般”,类“及格”有98个样本,类“不及格”有82个样本,则表示为(98,
G@h5gg+H+s0BVw082)。对于“电气控制考试成绩”=“差”,类“及格”有45个样本,类“不及格”有75
/P
M3K3ate#zj[wY0个样本,则表示为(45,75)利用给出的公式,计算得到“电气控制考试成绩”属性中国论文网*y
U3kw7{3vLc
各个子集的信息量:
.Dz"Q}e4C
ZR02
r$x
p.rpN.B$CB D02中国论文网"S$V{R*]
142中国论文网`^R
~3Z,n
142
GF9@l7Nt?X"S058
.w:yzNC0bb058中国论文网$C&l
\+B b]
(142,58)
'Iq8{3x0K+UOM6h0log中国论文网Y!~p}E+Q
log
Ru1mgI#q
\00.8686
Ph]GL4fZ0200
&l,g Yw+F"m!TQ5^O0200
0O!`TR sulU0200中国论文网/wzF#X/Y"u:q*hq
200中国论文网s8{wJW
I中国论文网#`,iV-yW
中国论文网 hp `tfi
"W`5_T5c0
WXM{-K-?d02中国论文网T[:EGq(` Rs
2中国论文网
k4U+}0`HQ:W
98
$b{0I-r4k,\098中国论文网P6@@%h!t;~+bKL
82中国论文网G2O'w.H@Z.ta
82
Xv$l+q-u0(98,82)
j)K/loEkEB8]
45
2W8n&g0q"U4a045中国论文网;i%Q,F4HwL
G
45中国论文网*mHP(@Z
(45,75)中国论文网 J!H8\3~
IuWelV
log
c'BL `/z}0log中国论文网p4m/nk_|
0.9544中国论文网7Q5l;k.Y6\K gt!J
120中国论文网)y&x
]8M:O0~
120
YYg k7l0120中国论文网5Hu(R3z;r,\2\0KJa)]i
120
q
nE]*e*HT;Y"r0I中国论文网tCr;NU gh
中国论文网S`
bG*l a
中国论文网*Rl~)N5wziC'P
中国论文网0} c%EE&Zu)Hy&F1v
h
根据上述方法分别计算出“电子技术考试成绩”中国论文网&M!n(Av@Vu
“ 电气控制考试成绩”
_\;Hmu
c:}i0“ 电
9ce7ubu3k K2Qof0机拖动考试成绩”各属性的属性值。中国论文网2K3{,Y)d)\nQ^?
(3)依次计算每个测试属性的信息熵。中国论文网x R9Lk4~
通过相同的方式分别计算电工电子、电子技术、电机拖动期末考试成绩得
8Qphu'Klj0出其熵分别为0.9577,0.9586,0.9543。
5eho'z,G&~bWP0依次计算每个测试属性的信息增益量。中国论文网
jS7A$m,d}L
Gain(电机拖动考试成绩)=I (s1,s2)-E(电机拖动考试成绩)=0.0316
Q!hLh\#IImu0通过相同的方式分别计算电工电子、电子技术、电机拖动期末考试成绩得中国论文网/g"b$|X1r*}
出信息增益量分别为0.0273,0.0514,0.0282。中国论文网F!W6}Vs&Q
从上述计算结果可知, 被选择为测试属性的是“电气控制成绩”,其属性
-HG@XAz0具有最高的信息增益 。创建一个节点,用“电气控制成绩”标记,同时根据它的中国论文网atY*]T5Aod#dU?$r
属性值,引出分枝,划分样本,然后在根据以相同的方式计算、划分各个分枝。最
2S4H+^s3N$RQXT0终建立决策树模型得到学生维修电工成绩是否合格的决策树模型。如图3.1所
/GaqiRe0示。中国论文网 S1}8I&K^ya7E2z!V\
3.结论
,D Z8t1~4g?8v0通过上面的结果可以看出,如果学生的电气控制成绩好并且电机拖动成绩中国论文网#~:W'[/hY{)j
\H
也好,即使学生的电工基础成绩一般或者较差最终的考试成绩也能够及格;如中国论文网;|I1BJJ~z
果学生的电气控制成绩和电工基础成绩都好基本上考试成绩都能够及格。通过
1Sh0mAmJ*Bn0上面的描述可以看出学生的电气控制学习成绩的好坏情况对于学生的维修电中国论文网;OUN
l0k?~`
工考试是否及格的影响很大,因此在今后的维修电工强化培训中应该加大力度中国论文网0oC6vc8d
Yz6zp
对学生的电气控制知识的强化训练提高考试及格率。