数据挖掘技术在学生成绩管理中的应用
2014年5月01日 13:22 作者:兆瑞琦 赵明辉
数据挖掘技术在学生成绩管理中的应用
4y&S/N"ul"LaC0兆瑞琦 赵明辉
u+{sWm9I2T0(辽宁轨道交通职业学院 沈阳 110036)中国论文网vq!o!oQ
y0@p
[摘 要]本文介绍首先数据挖掘技术的基本概念与决策树分析方法的基础上,通过数据挖掘技术将学生成绩进行分析处理构造决策树,并对结果进行分析。中国论文网{i*s5?"J i
J@
[关键词] 数据挖掘 决策树 数字化校园中国论文网;We9g5yd4S1]j
数字化校园建设在不断深入的过程中,产生了大量的数据信息,数据库存中国论文网n%XM,Qx7v`
储的数据量也在日益增长。若仍以简单的数据统计方法,显然无法发现数据中
#l9X8E~ Vx:m4E@z0存在的关系和规则。通过数据挖掘技术能够从这些庞大的数据中,发现有用的
"T/~z'N
hm0G0信息。将学生的考试成绩通过数据挖掘技术进行合理的分析与处理,能够对学
4CYxxwZ/PS@ R0生的学习成果进行评价,便于及时指导学生的教学行为。使考试成绩能够更有
!ds7N F@Ac0效的反馈教学效果,沟通教学信息。中国论文网-d*D`6w3nKq\
1.数据挖掘技术中国论文网g(orH"S R:@.Sl8Y
1.1 数据挖掘的基本概念中国论文网6z&t-Ytb9DY}
数据挖掘是通过分析不完整的、随机的、含有噪声的数据,从大量数据中寻中国论文网
R'qrMW U!uW
找其规律,挖掘潜在的信息和知识的过程。与传统的数据统计分析方法相比,数中国论文网'jY.Tb1Y4D3Z
据挖掘得到的结果具有未知性、有效性和实用性的特点,是一种深层次的数据中国论文网Vq9cNoW
分析方法。
2foBz|}
b#x;k5D01.2 决策树技术
i G'D5c[.s L*mde0决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。具有中国论文网3Z|+R([(x7r
分类精度高、生成模式简单、对噪声数据有很好的健壮性等优点。本文就是采用
f+Lo3[W^j5R#_0决策树的分类算法,分析影响学生维修电工考试过关率的因素。中国论文网C,FV!@{~LiZ
1.3 决策树属性选择度量
,m.P W8q!gE2p?0决策树算法的核心是如何确定分枝准则。通常,在树的每一个节点上使用中国论文网5kL~-nXA,Z
信息增益度量选择属性。选择具有最高增益(或最大熵压缩)的属性作为当前节
&uW7U4wN7i&O+y!R0点的测试属性。这个属性使其反映划分的最小随机性或“不纯性”,同时对结果中国论文网)nh I6_|Y/T
划分中样本的分类所需的信息量最小。这种理论方法使得在确保找到一棵简单
L)C2R e.P-L,T0的树的基础之上,对一个对象分类所需的期望测试数目达到最小。中国论文网&i9~u3l%^Z
2.决策树技术的应用
B]w#a"|r02.1 希望解决的问题中国论文网0\+u
Mo n*p c
近几年我校学生的维修电工考试成绩的及格率一直不高,在这里以我校11
4@Q
e s:j]6LFU7c0级、12级和这两个年级电气专业学生维修电工考试成绩为基础数据进行数据挖
"L-j
\+Mj`"C1d;VD3d.~0掘,希望从维修电工考试成绩和考试中涉及的各个学科学生学习成绩情况来分中国论文网_4}E|.h,_Z
析挖掘出影响学生学习成绩的因素。中国论文网5T0A~6F)K*[e H2{+LTy~
2.2 数据准备中国论文网U$a6e/U's+uB'{Yq#{I&O
1 数据清理
f3KK6V2OP0对采集的数据信息进行观察可以发现,有些学生没有考试成绩(可能由于
%_z"o$p0s!z j0某些原因没有参加考试)对于上述这种情况采用忽略元组的方法进行删除。当中国论文网(CS"J&]m$ZB
相对的空缺值较少时,也可采用采用人工填写的方法。中国论文网RwNP!Z_,[
2 数据转换
s'?'em0?P%e(g*Tt0由于学生成绩属于连续值属性而决策树技术需要离散值属性,需将学生成
6C\W%Z3P(m(N0绩进行离散化处理。
g+D9`*|Z*z G0对于维修电工技能考试成绩采用百分制,因为只关心维修电工考试成绩是
([8S\;t d:F0否及格所以将学生维修电工分析表中成绩属性的所有值按大于等于60分、小于中国论文网BH2Ad^
60分划分成“及格”、
d-xR5f;T R"Fn[y0“不及格”两类。对于电工基础与电气控制,由于其知识点在
\Qj"j]Ftl7D0维修电工中所占的比重比较大,所以将其考试成绩分为“好”、中国论文网-mZoF_9G,uu*o
“一般”、
f:}@%D/?0“差”三
6{+H+a,CX0Y:`0类;对于电子技术期与电机拖动两门课程,由于其知识点在维修电工考试中所
_ V0bHwx0占比重较小,所以将其考试成绩分为“好”、
(YW,bi3i#^Gs0“一般”两类。
`+Lnz7_(K03 数据归约
G!MPzEx0本次课题为了便于决策树模型的建立,删除了学生姓名、班级、英语等内容中国论文网.{
E"@4e GMo2t
与电工考试关系不大的考试成绩,保留了与电工考试相关的四科考试成绩,作中国论文网[Q.E?Js
为四个属性建立成绩分类决策树模型的依据,生成学生成绩分析基本数据表。中国论文网!QjL2aIiR2B1k
^
2.3 利用ID3算法构造学生考试成绩分析决策树中国论文网:^A)D
P]%y;rS)L7L
本文选择了其中与学生考试成绩属性相关四个属性作为建立成绩分析分
Z2a6fm-B'{2X(T5Vf0类决策树模型的依据,以成绩及格作为分类属性。中国论文网$E,x)ijVHIk i E
F
具体的实现过程如下介绍:
v
\;`$E*aI0(1)计算分类属性的信息量。中国论文网Imrh6yrNYc
将样本按成绩是否及格分成2个类C1=“及格”,C2=“不及格”,其中S1=285,中国论文网+rIz?:R+aj
S2=215总计S=500。计算出对给定样本分类所需的期望信息:
:}9P
^R'D01
7s2A{*P*uG.LE3i#L02中国论文网L\(uy7d"h;c
2
$qw"DBO+l02
B+O%h$b1[a`w_H$w0285
Muo US"U0285
(P.pd cO/Px0215
g.F wb6c*D
i0215
LCOVe'x-fm*Y)W)l0( ,
{4X'{.w0j5UU
@0)中国论文网)R.Z M u\-\ ix
log中国论文网$H])]z:z
log中国论文网a;w\&xR4e
0.9858中国论文网,Y I9\ E:A`0Tj
500
\/Fl R#M0500
o J]R9G;l6oD0500中国论文网:TlW9o1{"r5i
500中国论文网a:y"n7EbSxdsJ
I S S
6L\Y
uG0
/qn;Y(k/Ec`\7q0
;ur.IP7R\0中国论文网i7G$UO,Q#s Ic9J
(2)依次计算每个属性的期望量:
1x!~JU;w
PKm0以计算“电气控制考试成绩”属性,该属性中有三个属性值为例,需要对每
9F
}'[4F,h~0个属性值所划分的子集计算信息量。对于“气控制考试成绩”=“好”,类 “及格”
1Je lz9x
Y9J#L+@j0有142个样本,类“不及格”有58个样本,则表示为(142,58);对于“电气控制考试中国论文网 { MNf,V4y-?8HBf
成绩”=“一般”,类“及格”有98个样本,类“不及格”有82个样本,则表示为(98,中国论文网 ?7Dy5t{ L
82)。对于“电气控制考试成绩”=“差”,类“及格”有45个样本,类“不及格”有75中国论文网7u![L@1n
个样本,则表示为(45,75)利用给出的公式,计算得到“电气控制考试成绩”属性中国论文网A n;g\#gr$l(iDQ
各个子集的信息量:中国论文网k{ Q7Y[Z,ohZ
y
2
g/D^? \*Oc02
)h3R&bY3ha
FA0142中国论文网N_'j@4o%qh[ t
142
m NV.X.Np+I
^058中国论文网 T_Io
m!u8?
58
1W6Qf1w2^H2[N*c&uK0(142,58)
K"nV@"IT:W8e0log中国论文网!|s.T.q1C-fv
log
3Hk#HoD|2T"k)d00.8686中国论文网
m:A2b!|`j!\_&y
200中国论文网$D(m7hpsU
200中国论文网+q~6?v&}I
Uu2C2N
200中国论文网 e)U0g_ i^Ui;t
200
;ra]tW
rc%a8m0I
qN^4`%p#z,]0 中国论文网@3x.W;`.V
S
TXLnM,i
X-x0中国论文网QL?w%Z`e5lNtE
2中国论文网&H~eUpM:?#rn
2中国论文网[!p0m4l:}LCqw
98
X? K| ?DX5t7T-M098中国论文网K
K7B@E O3hk+R
82中国论文网$}qWh!_a nN!Hf
82中国论文网4OG[#A-o6~%W.{o"?
(98,82)
-_z5Ab2V
RK(i(\J0log
.eU5l]ZmG,a0log中国论文网+om
c
~rRB
0.9943
?N ?A1~0180
,A8[Vgf0\0180中国论文网DrT
s
JdgoJaR
180中国论文网;e]
N9FZ(z?(kk.R'\
180中国论文网%[1e9W1fu$`3MJK(Gv
I
Md'N4s9M#H0
?1P6O`i YL0中国论文网6[3x1`y!i6G
中国论文网q!e[
Yw1r4m
2
4O:MD
D2B-HF:T@J02
5n/d/]"f/t8OLG0d7h045中国论文网+fO?!m:tb9E
45中国论文网p#y
D3Tlb+y5d@+wy
45
Ng3y5b t*n#{r045
ItS:I"zCT-ZVS Y0(45,75)中国论文网g(o?5NS N ~
a
log