论文库
  • 首页
  • 论文发表
  • 论文宝库
  • 期刊大全
  • 新闻中心
  • 著作出书
  • 发表流程
  • 关于我们
  • 诚心通道
  • 联系我们
  • 当前位置:主页 ->论文库 ->文化论文
  • 分类数据的检验之R软件实现

    2021年1月12日 15:04 作者:lunwenchina
    张娇霞
    (北京理工大学珠海学院 广东 珠海 519088 )
    摘要:本文主要通过 R 软件对不带参数的分类数据及带参数的分类数据进行检验。
    关键词:分类数据;色盲遗传学模型;卡方统计量;卡方检验实际生活和应用中,除了定量数据,定性数据也是经常会遇到的一种数据类型,对于单一属性的分类数据经常需要做相应的检验。本文主要通过使用 R 软件对分类数据进行检验。
    一、不带参数的分类数据的检验
    案例 1 (孟德尔的豌豆实验) 19 世纪奥地利生物学家孟德尔按颜色与形状把豌豆分为四类:黄而圆的,青而圆的,黄而有角的,青而有角的。按照遗传学的理论,这四类豌豆的个数之比为 9:3:3:1 ,也就是说,豌豆为黄而圆 的 , 青 而 圆 的 , 黄 而 有 角 的 , 青 而 有 角 的 概 率 分 别 为9/16 , 3/16 , 3/16 , 1/16 。他在 n=556 颗豌豆中,观察到这四类豆的颗数分别为315 、 108 、 101 、 32 。在实际观察时,由于随机性,观察颗数不会恰好呈 9:3:3:1的比例,因此,就需要根据这些观察数据,对孟德尔的遗传学理论进行检验。
    单一属性分类数据检验问题的一般提法如下。根据某一项指标,总体被分为 r 类: . 根据理论或从经验出发提出了一个原假设:
    ,其中 已
    知 ,
    著名统计学家皮尔逊提出检验统计量为: ,该统计量称为 检验统计量。在原假设成立时,该统计量的渐近分布为分布。
    拒绝域为 , p 值为 ,如 果,则
    在水平 下拒绝原假设 ,否则不拒绝原假设 。下面通过 R 程序解决。
    孟德尔豌豆实验检验的 R 程序:
    x<-c(315,108, 101,32)
    p<-c(9/16,3/16,3/16,1/16)
    chisq.test(x, p = p)
    运行结果:
    Chi-squared test for given probabilities
    data: x
    X-squared = 0.47002, df = 3, p-value = 0.9254设检验水平 ,则 ,故不拒绝原假设 ,即认为孟德尔的遗传学理论是正确的。
    二、带参数的分类数据的检验
    案例 2 (色盲的遗传学模型)随机调查 1000 人,按性别和是否色盲将这1000 人分类。分类结果如下:男性正常、女性正常、男性色盲和女性色盲各有 442 、 514 、 38 、 6 人。按遗传学理论,这四类人所占的比例分别为,其中 p 未知, q=1-p. 问调查数据是否与模型相符?
    原假设
    检验统计量为
    其中 r 为类别数, m 为待估参数个数, , 此处 r=4 , m=1.
    除了含有待估参数及 统计量的渐近分布自由度与不带参数的分类数据不同,其余都相同。所以首先要对待估参数进行估计,再进行检验。下面为色盲遗传学模型的 R 程序及运行结果:
    # 先对 p 做极大似然估计
    f <- function (p) -(p^956)*((2-p)^514)*((1-p)^50)pmin <- optimize(f, c(0, 1), tol = 0.0000001)pmin
    $`minimum`
    [1] 0.9129418
    $objective
    [1] -6.427138e-73
    # 再利用不带参数的分类数据的检验算出卡方统计量(注意此处自由度和 p 值均不正确)
    x<-c(442,514,38,6)
    p<-pmin$minimum
    q<-1-p
    p1<-c(p/2,(p^2)/2+p*q,q/2,(q^2)/2)
    chisq.test(x, p = p1)
    Chi-squared test for given probabilities
    data: x
    X-squared = 3.0882, df = 3, p-value = 0.3782
    # 最后设置正确的自由度,重新计算正确的 p 值
    pchisq( chisq.test (x,p = p1)$statistic,df=2,lower.tail=F)X-squared
    0.2135072
    得到的 p=0.2135072 >0.05 ,故不拒绝原假设,即认为色盲遗传学理论是正确的。
    参考文献:
    [1] 张尧庭 . 定性资料的统计分析 . 南宁:广西师范大学出版社, 1991.
    [2] 王静龙,梁小筠,王黎明 . 属性数据分析 . 北京 : 高等教育出版社,2013.7
    [3] Robert I.Kabacoff.R in Action Data Analysis and Graphics with R. (中译本: R 语言实战 . 高涛,肖楠,陈钢译 . 北京:人民邮电出版社, 2014.1 )分类数据的检验之R软件实现
    张娇霞
    (北京理工大学珠海学院 广东 珠海 519088 )
    摘要:本文主要通过 R 软件对不带参数的分类数据及带参数的分类数据进行检验。
    关键词:分类数据;色盲遗传学模型;卡方统计量;卡方检验1 , , r
    A A …
    00: ( 1, , )
    ii i
    H A
    p p i r = =
    类 所占的比例为 …
    0 ( , , )
    1ip i r = …
    011riip==?
    22010( )
    =ri i
    iin np
    np
    c=-?
    2c2 (
    1) r c -
    22( 1) r
    acc? -
    2 2
    ( ( 1) ) p P r c c = - ? p
    a ?
    a0H0H=0.05
    apa >
    0H/ 2
    p 、
    2/2 /2 pq q q +
    2/2 p 、 和
    2 2
    0 1 2 3 4
    /2,  / 2 ,  /2,  /2 
    中国论文网#q#Eb;]Uvhl
  • 上一篇             下一篇
发给朋友 分享到朋友圈
  • 回顶部
中国论文网|微信客服:15295038855
本站提供论文发表发表论文核心论文发表
免费论文发表资源,文章只代表作者观点,并不意味着本站认同,部分作品系转载,版权归原作者或相应的机构;若某篇作品侵犯您的权利,请来信告知:lunwenchina@126.com