卫生管理师职称考试之《统计学》知识点及试题 第一部分 基础知识 统计学
统计学是研究数据及其存在规律的科学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 统计学的总体是指根据研究目的确定的、全部同质个体的某个(或某些)变量值。这里的个体又称观察单位(或研究单位),可以是一个社区、一个特定的人群、一个人、一个血样、一个细胞、一个基因、一个蛋白质等。样本:总体中有代表性的一部分。
根据研究目的,对研究对象的某个或某些特征(亦称研究指标或项目)实施观测,这些特征(指标或项目)称为变量。变量的测得值叫变量值(也叫观察值或资料)
统计工作的步骤 一研究设计,二收集资料;三整理资料;四 分析资料。
计量资料定义通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。如:体重与身高,特点:有度量衡单位;多为连续性资料(通过测量得到)
计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位;多为间断性资料(通过枚举或记数得来)
等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值;各组之间有性质上的差别或程度上的不同。
总体:根据研究目的确定的同质的、观察单位的全体。
同质与变异研究对象具有的相同的状况或属性等共性称同质或同质性;对于同质的各观察单位,其某变量值之间的差异,称为变异。
误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有二种:系统误差;随机误差。系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小。特点:具有累加性。随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数参加而减小。
抽样误差:由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样发生抽样误差就不可避免。
减少抽样误差的方法:(1)增加样本的代表性。样本量 n 相等的情况下:
整群抽样>单纯随机抽样>系统抽样>分层抽样(2) 增加样本量n (3)选择变异程度较小的研究指标。 概率:描述随机事件发生的可能性大小的数值,常用P来表示。P的大小在0和1之间。通常一个事件的发生小于5%,就叫小概率事件。
频率:在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。 实验设计与调查设计目的:观察不同处理因素的效应。3个基本要素:1处理因素和非处理因素、2实验对象、3试验效应通过实验指标表达选择指标的依据(1准确性、2灵敏性、3稳定性)基本原则:对照的原则(保证均衡一致的条件1、对等2同步3专设)、重复原则(样本量)、随机化原则。 频数:当汇总大量的原始数据时,把数据按类型分组,其中每组数据个数,称该组的频数。
频数表(频数分布):将变量值分为不同数量的组段,清点各组段的例数。表示各组及其对应的组频数的表格。意义概括了解变量值在各组段的分布和规律。两个特征:集中趋势与离散趋势(共性与个性)主要用途:1.揭示分布类型2. 发现特大值和特小值3.计算集中趋势指标与离散趋势指标。 资料的统计描述:即用少量几个统计指标刻画出原始数据的特征称为统计描述。
计量资料频数表的编制步骤1.确定全距(R)=最大值— 最小值2.定组数(8-15组)和组距:
3.写出组段的下限:第1组段值小于或等于最小变量值,并以整数(0,5或2,4,6,8)较好。4.划计并计数:变量(x)归为L ≤x<U(见表2-1
平均数概念:平均数表示一组同质计量数据集中趋势的位置和平均水平。作用:是一组计量数据平均水
;
;
;
;
;
;
算术均数( mean);简称均数,表示.
一表2-1 101名正常成年女性血清总胆固醇频数表
组段 频数(f) 组中值X fX
2.3- 1 2.45 2.45
2.6- 3 2.75 8.25
2.9- 6 3.05 18.30
3.2- 8 3.35 …
3.5- 17 3.65
3.8- 20 3.95
4.1- 17 4.25
4.4- 12 4.55
4.7- 9 4.85
5.0- 5 5.15
5.3- 2 5.45
5.6- 5 1 5.75
合计 101 —— 409.7
加权法公式计算
;
;
值呈倍数增长或部分数据偏离过大偏态分布(正偏态)资料。计算公式:
例2-4 某地5
;
;
7年后用间接荧光抗体试验测得其抗体滴度分别为1/10,1/20,1/40,1/80,
;
;
1/160 G34.8lgXlg1(lg10lg20lg40lg40lg16034.8Glg1( n5
结论:平均抗体滴度为1:34(几何均数法)
中位数M:定义:将一组变量值由小到大依次排列,居以中间位次的观察值即为中位数,为这组数据的平均数。适用于描述偏态分布资料的平均水平。如潜伏期、病程资料。
中位数的计算
MX1N为奇数 n1)2
1 M(XX(1)) N为偶数 2
百分位数是一种位置指标,用 P x 表示。定义:将一组变量值由小到大依次排列,为第x百分位数的秩次, 其对应的变量值(x)为第x百分位数,记为Px。
例:8位患者某病的住院天数:
2 2 2 3 3 4 5 6
求50%位数和80%位数。解:第50%位次:nX%=8×0.5=4
中位数=P50=3(天) 第80%位次:nX%=8×0.8=6.4,用公式2.7
px[trunc(6.4)1]x7(天)5 80
百分位数计算结果的应用1.常计算P25、P50 、P75、和P95,为临床治疗提供依据。
例2-9:120名细菌性痢疾治愈的住院天数
P5=3.5(天),即只有5%的人住院低于3.5天。
P95=15(天)
2.确定医学指标的参考值
几个常用的变异指标
极差;全距(Range):意义:R值越大,表示该组数据的变异越大。缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。
四分位数间距:常用QR表示 QR=P75%-P25% 作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例:QR= P75%-P25% =67.7-39.2=28.5天 表示方法:Md(QR)
M=51天,(QR=28.5天)
标准差的简化计算公式:
X2(X)2/n(列数较少)
Sn1 22 SfX(fX)/f
f1 (频数表资料)
例2-11 甲组5名同龄男孩的身高值(cm)
X X2
90 8100
95 9025 50250(500)2/5 100 10000 S7.9151 105 11025
110 12100
X500 X250250
标准差的意义:反映一组变量值变异程度,组间单位相同时,S越小,表示数据的变异程度越小。 变异系数(CV)
1.单位不同时组间变异程度的比较。
某地7岁年龄组男童身高与体重
指标 S CV(%)
身高(cm) 123.10 4.71 3.83
体重(kg) 22.29 2.26 10.14
结论: 7岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。
某地不同年龄组男童身高(cm)
年龄组 S CV%
1-2月 56.3 2.1 3.73
5-6月 66.5 2.2 3.31
3-3.5岁 96.1 3.1 3.22
5-5.5岁 107.8 3.3 3.06
结论:随着年龄增加,身高的变异变小。
参数统计:统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。
非参数统计:有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型的假设检验;是通过将样本实际数据排队编秩后,对秩次进行比较,因此也叫秩和检验。 抽样误差:由于抽样引起的样本统计量与总体参数之间的差异。
标准误 :(σx Sx) 表示抽样误差大小的指标; 样本均数的标准差。
(均数)标准误意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。
点估计是用样本统计量直接估计其总体参数值。如用 估计、S估计等。方法虽简单,但未考虑抽
样误差大小
区间估计是按预先给定的概率(1-α),确定一个包含总体参数的范围。该范围称为参数的可信区间 评价可信区间估计的优劣:
正确性:可信度1,即区间包含总体参数的理论概率大小,愈接近1愈好。
精确性:区间的宽度,区间愈窄愈好。
当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽
可信区间与参考值范围的区别
可信区间用于估计总体参数,总体参数只有一个 。
参考值范围用于估计个体值的分布范围,个体值有很多 。
95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%。
95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。
95%的可信区间的理解:
从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间, 可能发生的两类错误 平均约有95个可信区间包含了总体均数 。
但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数 假设检验的结果 客观实际 正常值范围与可信区间 拒绝H0 不拒绝H0 正常值范围H0成立 I型错误推断正确用途:判断观察对象的某项指标是否正常.
可信区间概念:总体均数所在的数值,范围( 95%,99% 指可信度)用途: () 估计总体均数(1)
正态分布是描述连续型变量值分布的曲线,医学上许多资料近似服从正态分布。H0不成立即推断正确 II型错误正态分布在统计推断上有重要的 直方图的频数分布与正态分布 H1成立 (1) () 正态分布曲线理论上的特征
为中心, X值呈钟型分布对称性减少。1)以X= μ(2 )在 X= μ处,f(x)取最大值。(3 )正态分布由μ 、 σ决定 正态分布的位置和形状。随μ 不同,曲线位置不同,称μ为位置参数。σ越大,曲线形状不同, 称σ为形状参数。
医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值。正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。
医学参考值制定时注意问题
1.确定诊断指标为“定性”或“定量”2.计量数据要确定其分布(正态或偏态)3.计量资料考虑制定单侧诊断界值还是双侧诊断界值4.有足够的样本例数(一般不低于100例)
二项分布是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2, ,n的一种概率分布。记为X~B (n,π), n为试验次数,π为“阳性”概率。
适用条件
1,每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1;
2,每次试验产生某种结果(如“阳性”)的概率π固定不变;
3,各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。
二项分布的应用 总体率的区间估计 样本率与总体率的比较 两样本率的比较 研究非遗传性疾病的家族集聚性 群检验
I型错误和II型错误
II 类错误的概率 β 值的两个规律:
1. 当样本量一定时, α 愈小, 则 β 愈大,反之…;
2.当 α 一定时, 样本量增加, β 减少.
3.举例说明对合计率标准化的基本思想。
答:两人群发病率、死亡率、出生率、病死率等的比较,常考虑人群性别、年龄等构成的影响,需对率进行标准化。率标准化法的基本思想就是采用统一的标准人口构成,以消除人口构成不同对人群总率的影响,使算得标准化率具有可比性。
举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?答:(1)度量衡单位不同的多组资料的变异度的比较。例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。(2)比较均数相差悬殊的多组资料的变异度。例如,3岁儿童与20岁成年人身高差异的比较。
t分布的图形与特征
t分布为一簇单峰分布曲线,ν不同,曲线 形状不同;;t分布以0为中心,左右对称
t分布与ν有关, ν越小, t值越分散,t分布的峰部越低,而两侧尾部翘得越高;当ν逼近∞, S X逼近 σX ,t分布逼近u分布
统计图的概念
用点的位置、线段的升降、直条的长短及面积的大小等几何图形表达事物的统计指标大小、对比关系及变化趋势。
统计图的种类
条图 (bar chart)圆图(pie chart)百分比条图(percent bar chart)线图(line graph)直方图(histogram)散点图(scatter diagram)统计地图(statistical map)
数据分析中应用:箱式图、茎叶图、残差图等。
条图(bar chart)用等宽直条的长短来表示相互独立的各统计;指标的数值大小。分为:
①单式条图:具有一个统计指标,一个分组 因素;②复式条图:具有一个统计指标,两个分组因素;③分段条图:具有两个有隶属关系的统计指标,一个分组因素。
圆图pie chart:用圆的总面积表示事物的全部,用各个扇形面积(圆心角大小)表示各部分比重,适用于各构成比相加为100%的资料。
绘制:
(1)计算各部分的角度:圆心角(度)=各部分百分比360°
(2)绘制图形:先画出圆形,再借助量角器画出各圆心角。
(3)图例:各扇形内要注明简要的文字和百分比,还可绘入花纹或色彩。
直方图histogram
即频数分布图,用矩形面积表示某个连续型变量的频数(频率)分布。
绘制:通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率。
箱式图(箱-髯图)(box-whisker plot)
用于比较两个或多个样本分布的中心位置和散布范围。
P0 P25 P50 P75 P100
随机抽样的基本原则,亦称“随机化”原则,即总体中每个个体的被抽中的机会均等
1.单纯随机抽样也称简单随机抽样,是最简单、最基本的抽样方法。是指所有抽样的基本单位有同样的概率被抽取的抽样方法。
2.分层抽样---此抽样方法的特点是先按某种特征(如性别、年龄、职业、教育程度等)将调查人群分为若干层,然后样本在各层中分别随机抽样,并合成调查。
3.机械抽样,又称系统抽样-_是按照某种顺序给总体中的各个体编号,然后随机的抽取一个编号作为第一调查个体,其他的调查个体则按照某种规定的规则抽取。
4、整群抽样_---常应用在以社区居民为对象的大规模流行病学调查中。先将总体分成若干群体,形成一个抽样框;从中随机抽取几个群体组成样本;对抽中群体的全部个体进行调查,称整群抽样。
;
;
;
;
;
;
Poisson分布的概念:Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。
Poisson分布的性质:1.Poisson分布是一种单参数的离散型分布,其参数为μ,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。2.Poisson分布的方差σ2与均数μ相等,即σ2=μ 3.Poisson分布是非对称性的,在μ不大时呈偏态分布,随着μ的增大,迅速接近正态分布。一般来说,当μ=20时,可以认为近似正态分布,Poisson分布资料可按正态分布处理。4.Poisson分布的累计概率常用的有左侧累计和右侧累计两种。单位时间或空间内事件发生的次数 最多为k次的概率
(X= 0,1,2,„)
最少为k次的概率
(X= 0,1,2,„)
5.Poisson分布的图形已知μ,就可按公式计算得出X= 0,1,2,„时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可绘出Poisson分布的图形Poisson分布的形状取决于μ的大小。μ值越小,分布越偏,随着μ的增大,分布越趋于对称,当μ=20时,分布接近正态分布,当μ=50时,可以认为Poisson分布呈正态分布N(μ, μ),按正态分布处理。6.Poisson分布是二项分布的极限形式二项分布中,当π很小而n很大,nπ→μ时,二项分布趋于Poisson分布。7. Poisson分布的观察结果有可加性
Poisson分布的应用条件:Poisson分布的应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。Poisson分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000人或更多作为单位人群,某些发病率极低的疾病要求更多。
第六章 参数估计 第一节 抽样分布与抽样误差
由个体变异和抽样造成的样本统计量与总体参数的差异,称为抽样误差。
抽样误差不可避免,有两种表现形式:1、样本统计量与总体参数间的差异。2、样本统计量间的差异。
一、样本均数的抽样分布与抽样误差
1、标准误:样本统计量的标准差。 2、均数的标准误:样本均数的标准差。
3、样本均数的抽样分布的特点:(1)各样本均数未必等于总体均数;(2)各样本均数间存在差异;(3)样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;(4)样本均数的变异范围较之原变量的变异范围小;(5)随着样本量的增大,样本均数变异范围逐渐缩小。
4、均数的标准误: σ=S 均数标准误的估计值: S= nn
5、样本均数的总体均数与观察值X的总体均数相同,样本均数的标准差是X标准差的1/n。
6、非正态分布总体,样本量较大时(n>30),样本均数的分布接近正态分布。
二、样本率的抽样分布与抽样误差
1、率的抽样误差:由于抽样所造成的样本率与总体率之间及样本率之间的差别。
2、若样本量为n,总体率为π,样本率为p,理论
(1)样本率的总体均数等于总体率。即μp=π。
(2)样本率的总体标准差(即率的标准误)σp=(1)
n率的标准误的估计值为Sp=P(1P) n
(3)对于大量重复随机抽样而言,样本率p围绕着总体率π波动,样本量n越大,这种波动越小,当n充分大时,p的分布就近似于均数为π标准差为(1)
n的正态分布(n充分大通常为nπ5和n(1-
π)5且n40。
(4)当总体率π=0.5时,样本率p的分布为对称分布。
(5)当样本量n为定值时,总体率π越接近0.5,样本率p近似正态分布的程度就越好。
第二节 总体均数的估计
统计推断:根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特性。统计推断包括参数估计、假设检验。
参数估计:指用样本指标值(统计量)推断总体指标值(参数)。参数估计包括点估计、区间估计。 点估计:用相应样本统计量直接作为其总体参数的估计值。
区间估计:按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。
一、总体均数的点估计
1、总体均数的点估计:是直接用随机样本的样本均数作为总体均数μ的点估计值。
2、点估计方法简单,但未考虑抽样误差。因此,要使得参数估计可信,必须考虑抽样误差,特别是对于小样本。
二、总体均数的区间估计
1、可信区间:总体均数的区间估计是按一定的概率(1-α)用一个区间来估计总体均数,这个区间称作可信度为(1-α)的可信区间,又称置信区间。
2、可信度:预先给定的概率1-α称为可信度或置信度,若无特别说明,一般取双侧95%。
3、可信区间通常由两个数值即可信限/置信限(CL)构成。其中较小的值称可信下限,较大的值称可信上限。
4、总体均数可信区间:
(1)总体标准差σ已知
总体均数的可信度为(1-α)的可信区间为(-ua/2σ,+ua/2σ)=1-α
(2)总体标准差σ未知
总体均数的可信度为(1-α)的可信区间为(-ta/2,vS,+ta/2,vS)=1-α
(3)总体标准差σ未知,但n足够大(n>60)时,t分布近似标准正态分布
总体均数的可信度为(1-α)的可信区间为(-ua/2S,+ua/2S)
例:若随机抽得某地2002年9名7岁正常发育男孩,测得其身高资料,计算其均数=121.44 (cm),标准差S=5.75(cm),试估计该地2002年7岁正常发育男孩身高总体均数的95%可信区间。
解:本例n=9,计算样本均数标准误为S=Sn=5.75
9=1.92(cm)
V=n-1=9-1=8,α取双尾0.05,查t界值表得t0.05/2,8=2.306
(-tα/2,vS,+tα/2,vS)=(121.44-2.306×1.92,121.44+2.306×1.92)
即该地2002年7岁正常发育男孩身高总体均数的95%可信区间为(117.01,125.87)
三、两总体均数之差的区间估计
1、假定两总体方差相等,两样本样本量、均数、方差分别为n1、n2,1、2,S1、S2,有 t=22( X1X2)(12),服从自由度为v=n1+n2-2的t分布,其中: SXX12
22(n1)S(n1)S111222),合并方差SC 均数之差的标准误SXX=S(=1 12n1n22n1n22C
故12的(1-α)可信区间为([ X1X2]-tα/2,,[ X1X2]+tα/2,) (n1+n2-2)S(n1+n2-2)S1212
2S12S2(当两样本的样本含量均较大时,tα/2,v可用相应的uα/2代替,SXX可用计算) 12n1n2
2、可信度为95%的可信区间的涵义是:该区间以95%的概率包含了总体均数。
3、可信区间估计的优劣取决于两个要素:准确性、估计精确性。
可信度越接近于1越好;精确性与变量的变异度大小、样本量和1-α取值有关。
请注意:P93页表6-7 总体均数的可信区间与个体值参考值范围的区别
第三节 总体率的估计
一、总体率的点估计
1、总体率的点估计指直接用随机样本的样本率p作为总体率π的点估计值。2总体率的点估计未考虑到样本率的抽样误差。
二、总体率的区间估计:
1、根据样本含量和样本率的大小,总体率的区间估计可采用查表法、正态近似法。
2、查表法:在样本例数较小,且样本率接近1或0,即阳性事件发生率很高或很低时,可按照二项分布原理确定总体率的可信区间。
在n50时,查附表7(只含Xn/2部分);
X>n/2时,用n-X值查表,所得可信区间为总体阴性率可信区间,再用1减去总体阴性率可信区间,即为总体阳性率可信区间。
3、近态近似法:当n较大,p和1-p均不太小时,如np与n(1-p)均大于5时,样本率p的抽样分布近
似正态分布,可按以下公式求总体率的(1-α)可信区间:
puα/2Sp,其中p为样本率,Sp为率的标准误,uα/2为标准正态分布α水平的双侧临界值。 α=0.05时,u0.05/2=1.96;α=0.01时,u0.01/2=2.58。
例:为了解某医院剖腹产情况,在该医院随机抽查了106人,其中施行剖腹产者62人,试估计该医院剖腹产率。
解:本例n=106,X=62,样本率P=62P(1P)=0.585,Sp==0.048 106n
因np=62与n(1-p)=44均大于5,由puα/2Sp,得
可信下限:0.585-1.96×0.048=49.1%
可信上限:0.585+1.96×0.048=67.9%
即该医院总体剖腹产率的95%可信区间为(49.1%,67.9%)。
三、两总体率之差的区间估计
1、设两个独立样本率分别为p1、p2,当n1与n2均较大,且p1、1-p1和p2、1-p2均不太小,一般认为,当n1p1、n1(1-p1) 、n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布对两总体率的差别做出区间估计:
([p1-p2]-uα/2Sp1-p2,[p1-p2]+uα/2Sp1-p2),其中率之差的标准误Sp1-p2=p1(1p1)p2(1p2) n1n2
例:对甲、乙两种降压药进行临床疗效评价,将某时间段内入院的高血压病人随机分为两组,每组均为100人。甲药治疗组80位患者有效,乙药治疗组50位患者有效,试估计两种降压药有效率之差的95%可信区间。
解:将甲、乙两药治疗组的患者数、治疗有效数分别以n1、X1和n2、X2表示,则n1p1,n1(1-p1),n2p2,n2(1-p2)均大于5,p1=80/100=0.8,p2=50/100=0.5,得:
Sp1-p2=p1(1p1)p2(1p2)0.8(10.8)0.5(10.5)==0.064 100100n1n2
([0.8-0.5]-1.96×0.064,[0.8-0.5]+1.96×0.064)
即两种降压药有效率之差的95%可信区间为(17.45%,42.55%)
2、服从Poisson分布的样本资料,其总体均数1-α可信区间的估计方法如下:
(1)查表法:当X50时,查附表8。
(2)正态近似法:当X>50时,估计总体均数的1-α可信区间公式为Xuα/2X。
第四节 RR值和OR值的估计
相对危险度:是两个人群发病率的比值,通常为暴露人群的发病率与非暴露人群(或指定参照人群)的发病率之比。设暴露人群发病率为π1,非暴露人群发病率为π0,相对危险度RR=π1/π0
当RR=1时,表示该因素对疾病的发病无影响;当RR>1时,表示该因素为危险因素,它使发病危险度增大;
当RR<1时,表示该因素为保护因素,它使发病危险度减少。
★测定相对危险度的调查研究两大类型:队列研究、病例对照研究。
队列研究可计算各组人群发病率,进而可直接估计相对危险度;
病例对照研究不能直接计算暴露人群和非暴露人群发病率,故不能直接估计相对危险度,而要通过计算优势比(OR)来近似估计相对危险度。
一、RR值的估计
1、对队列研究,根据研究对象在随访观察期间有无变化而具有以下两种不同模式:
(1)发病密度:是研究对象在观察期间由于失访、死亡等原因不断变化,而以观察人年(或其它人时单位)为分母计算的发病率。
队列研究发病密度资料整理表
组别 暴露组 非暴露组 合计
发病人数
a c m
观察人年数
L1 L0 L
人年发病数
a/L1 c/L0 m/L
总体相对危险度RR的点估计为:^RR=
a/L1c/L0
2
2
(aLmL1) 对两个样本率差别进行假设检验时:,v=1 mL1L0
(2)累计发病率:研究对象在观察期间无变化,以开始随访观察时的人数为分母计算的发病率。
队列研究累计发病率资料整理表
组别 暴露组 非暴露组 合计
发病人数
a c m1
未发病人数
b d m0
合计 n1 n0 n
累计发病率
a/n1 c/n0 m1/n
a/n1
总体相对危险度的点估计为:^RR=
c/n0
(n1)(adbc)2
对两个样本率差别进行假设检验时:,v=1
n1n0m1m0
2
★两种模式下的总体相对危险度RR的(1-α)可信区间:^RR(1
u/2
2
)
二、OR值的估计
1、成组设计的病例对照研究 优势或比数(odds):指某事件发生的概率与其对立事件发生的概率之比。 成组设计病例对照研究资料的四格表
组别 病例组 对照组 合计
^OR=ad/bc
★估计优势比可信区间的方法有:直接计算概率法、Woolf法、Cornfield法、Miettinen法。 (1)Woolf法:
lnOR的95%可信区间为ln^OR1.96(ln^OR),其中Var(ln^OR)= OR的95%可信区间为^ORexp(1.96(lnOR))
暴露
有 a c m1
无 b d m2
合计 n1 n2 n
1111 abcd
1.(n1)(adbc)22) (2)Miettinen法: OR的95%可信区间为^OR,v=1。 2,其中nnmm
(1
1010
2、配对设计病例对照研究
配对设计资料的四格表格式
病例暴露水平
+
-
合计 对照暴露水平 + a c a+c - b d b+d 合计 a+b c+d n
(bc1)21.b()22,其中 OR=优势比OR的95%可信区间为^OR1,v=1。 c(bc)
第七章 假设检验
假设检验:指研究者事先根据现有知识对未知总体的分布和未知参数作出某种假定,再通过一次新的实验(观察)结果来推断假定是否成立。假设检验的主要目的是为新发现、新结论提供统计学依据。
1、 第一节 假设检验的概念
假设检验的基本思想:
2、 反证法思想,即事先对总体分布(通常是该分布的某个参数)作出某种假设,若样本信息不支持该假
设,则认为原假设不成立。
3、 根据“小概率事件在一次试验中一般不会发生”的原理,用概率的思想决定是否拒绝原假设。
第二节 假设检验的基本步骤
1、 建立假设检验,确定检验水准。
2、 计算检验统计量。
3、 确定P值,做出推断结论。
P>0.05,不拒绝H0;P0.05,拒绝H0,接受H1。
检验水准:也称显著性水准,是预先规定的判断小概率事件的概率尺度,记为α.
第三节 u检验
一、大样本均数比较的u检验:
★均数比较的u检验的两个基本前提:样本数据服从正态分布、已知总体方差。
★均数比较的u检验主要适用于总体方差未知的大样本数据。
1、样本均数与总体均数比较的u检验
u=X0
0,(0指已知理论值)当总体标准差σ0未知,n60时,σ0=S。 n
例:根据1983年大量调查结果,已知某地成年男子的脉搏均数为72次/分钟。某医生2003年在该地随机调查75名成年男子,求得其脉搏均数为74.2次/分钟,标准差为6.5次/分钟,能否据此认为该地成年男子的脉搏数不同于1983年?
解:
(1)建立假设检验,确定检验水平
H0:μ=72,即该地成年男子的平均脉搏没有变化
H1:μ≠72,即该地成年男子的平均脉搏与1983年不同
α=0.05
(2)计算检验统计量
u=X0
0=74.2726.575=2.93
n
(3)确定P值,做出推断结论
检验界值u0.05/2=1.96,u0.01/2=2.58,u>u0.01/2,得P<0.01,按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为该地成年男子的脉搏与1983年不同。
2、两样本均数比较的u检验:适用于完全随机设计的两组计量资料差别的比较,
u=X1X2
X,其中两均数之差标准误X1X2=12n1221X2n2
2S12S2 当总体标准差σ1、σ2未知,两组例数均超过30时,^=。 12n1n2
例:为研究孕妇补锌对胎儿生长发育的影响,将96名孕妇随机分为试验组和对照组,一组在孕期不同时间按要求补锌,另一组为对照组,观察两组孕妇所生新生儿出生体重有无不同。两组的例数、均数、标准差分别为:补锌组n1=48,X1=3427.8g,S1=448.1g;对照组n2=48,X2=3361.9g,S2=400.1g。问补锌对新生儿出生体重有无影响?
解:本例是两样本计量资料,每组例数超过30,故可用两大样本均数比较的u检验。
(1)建立检验假设,确定检验水准
H0:μ1=μ2,即两组新生儿出生体重总体均数相等,补锌对新生儿出生体重无影响
H1:μ1≠μ2,即两组新生儿出生体重总体均数不相等,补锌对新生儿出生体重有影响
α=0.05
(2)计算检验统计量
22S12S2448.11400.12
2 ^XX===86.71 12n1n24848
u=X1X23427.83361.9==0.76 86.71XX12
(3)确定P值,做出推断结论
u<u0.05/2=1.96,P>0.05,按α=0.05水准,接受H0,两组间差别无统计学意义,根据本试验结果不能推断补锌与新生儿出生体重有影响。
二、大样本率的u检验:
★大样本率的u检验的基本原理是:假定样本率p服从正态分布。
★率的u检验对统计量的要求:(1)若样本率p介于0.1~0.9之间,每组例数大于60例;(2)当样本率在0.1~0.9以外时,需要保证np或n(1-p)的最小值大于5。
1、单样本率的u检验: u=p0
p=p00(10)
n
例:全国调查结果显示,学龄前儿童营养性贫血患病率为23.5%,某医院对当地1396例学龄前儿童进行了抽样调查,查出营养性贫血患儿363例,患病率为26.0%。问该地学龄前儿童营养性贫血患病率是否不同于全国平均水平?
解:
(1)建立假设检验,确定检验水准
H0:π=0.235,即该地学龄前儿童营养性贫血患病率与全国相同
H1:π≠0.235,即该地学龄前儿童营养性贫血患病率与全国不同
α=0.05
(2)计算检验统计量
u=p0
0(10)
n=0.2600.2350.235(10.235)1396=2.21
(3)确定P值,做出推断结论
u>u0.05/2=1.96,P<0.05,按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为该地学龄前儿童营养性贫血患病率高于全国平均水平。
2、两样本率比较的u检验
(1)u=p1p2
p1p2,其中p1p2=1(11)2(12)n1n2
(2)当两标准误未知,每组例数较大时,如样本率p介于0.1~0.9之间,每组例数大于60例: 合并总体率的估计值 ^π0=n1p1n2p2 n1n2
p1p2的估计值为:^p1p2=^0(1^0)(11) n1n2
例:为了解某地在校男大学生肥胖与超重情况,用随机抽样的方法分别调查了该地一所文科大学和一所工科大学的部分在校男生,其中文科大学调查了765人,检出超重53人,超重率为6.9%;工科大学调查了882人,检出超重22人,超重率为2.5%。试比较两所大学男生的超重检出率有无差别。
解:
(1)建立假设检验,确定检验水准
H0:π1=π2,即两所大学男生超重率相等
H1:π1≠π2,即两所大学男生超重率不等
α=0.05
(2)计算检验统计量
由于π1、π2未知,故计算合并总体率^π0=n1p1n2p25322==0.046 765882n1n2
= ^p1p2=^0(1^011)n1n20.046(10.04611)765882=0.0103 u=p1p20.0690.025==4.27 0.0103p1p2
(3)确定P值,做出推断结论
u>u0.05/2=1.96,P<0.05,按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为两所大学男生超重率不同。
第四节 假设检验的两类错误
I类错误:原假设为真而被拒绝的错误,也称假阳性错误、弃真错误,犯I类错误的概率记作α。 II类错误:原假设不为真而被接受的错误,也称假阴性错误、存伪错误,犯II类错误的概率记作β。 ★P>α时,不能盲目接受H0,下结论时一般不说“没有差别”、“两总体均数相等”,只说“未见差别”、“尚不能认为两总体均数不相同”。pα时,可明确下结论“有差别”、“两总体均数不相同”。因为犯I类错误的概率不会超过α。
第五节 双侧检验与单侧检验
双侧检验:指只检验差别不管差别方向的双向检验。两均数或两个率的比较一般采用双侧检验。 单侧检验:指只关心差别单侧方向的单向检验。单侧检验一般不轻易使用。
第六节 假设检验的统计意义与实际意义
一、假设检验的统计意义
1、 P值的正确理解
P值:指由H0所规定的总体做重复随机抽样,获得等于及大于(或等于及小于)当前检验统计量的概率。
2、 检验结果的正确理解
3、 统计结论的表述
在假设检验中,不拒绝H0时,意为比较的总体本质可能无差别,样本统计量的差异由抽样误差引起的可能性很大;拒绝H0时,研究者相信比较的总体本质有差别,样本统计量间的差异不仅仅是由抽样误差造成的。
4、 假设检验与可信区间的区别与联系
可信区间用于推断总体均数的范围;假设检验用于推断总体均数间是否相等。
二、假设检验的实际意义
1、P值大小只能说明统计学意义的“显著”,不一定有实际意义。
2、对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。当专业上和统计学上均具有“显著性”时,试验结果才有实用价值。
第七节 检验效能
检验效能用概率1-β表示,检验效能的意义是,当两总体确有差别,按检验水准α,假设检验能发现其差别(拒绝H。)的能力。
一、影响检验效能的4个因素:
1、总体参数的差异越大,检验效能越大。2、个体差异(标准差)越小,检验效能越大。
3、样本量越大,检验效能越大。 4、检验水准α(I类错误的概率)定得越宽,检验效能越大。
二、检验效能的估计:
在假设检验结果的解释和评价中,特别是分析那些未能拒绝H0的假设检验结果,事后估计检验效能1-β的值,有助于判断是总体参数确实无差别,还是由于样本量太小导致的检验效能不足。
第八章 t检验
1、t检验适用条件
对于计量资料,u检验适用于总体标准差已知或总体标准差未知但样本含量(n)较大时均数的比较。t检验用于总体标准差未知的小样本均数的比较。
2、单样本均数的 t 检验
例8-1 通过以往大量资料得知某地20岁男子平均身高为168cm,今随机测量当地16名20岁男子,得其平均身高为172cm,标准差为14cm。问当地现在20岁男子的平均身高是否比以往高?
解:由经验可知身高服从正态分布,样本量较小,可用单样本均数的t 检验,且为单侧检验。
(1) 建立假设,确定检验水准
H0:µ = µ0 = 168 H1:µ > µ0 = 168
(2)计算检验统计量
t
01721681.143S14/ v= 16 – 1 = 15
(3)确定概率值,作出推断结论
查t界值表得,tt0.05,15,P > 0.05,按0.05的检验水准,不拒绝H0,差别无统计学意义,还不能认为该地20岁男子平均身高比以往要高。
3、配对样本均数的 t 检验
配对样本均数的 t 检验又称配对检验( paired t – test ),适用于配对设计的计量资料均数的比较,其比较的目的是检验两相关样本均数所代表的未知总体均数是否有差别。应用条件是差值 (d ) 变量服从正态分布。
例8-2 某医院用 A、B两种血红蛋白测定仪器检测了16名健康男青年的血红蛋白含量(g/L),检测结果见表8-1第(1)~(3)栏。问:两种血红蛋白测定仪器的检测结果是否有差别。
解:本例为同源配对设计。对差值进行正态性检验满足正态性(Shapiro-Wilk统计量,W=0.949,P =0.470),可用配对样本均数的t 检验。
1. 建立假设
H0:µd= 0即 A、B两种血红蛋白测定仪器检测的总体平均差异为0;H1:µd ≠ 0 即….平均差异不为0. 0.05
2. 计算检验统计量
t0SSd/n 本题 t = 2.366 ,v = 16 – 1 = 15
t0.05/2,152.131tt0.05/2,15, 3. 确定概率值,作出判断结论 查自由度v =15 时的 t 值,,P < 0.05,按0.05的检验水准,
拒绝H0,接受H1 ,差别有统计学意义,可认为A、B两种血红蛋白测定仪器检测结果有差别。
4、正态性检验的方法:
1.图示法:简单易行,可以粗略了解观察资料是否服从正态分布。常用频率-频率图( P-P plot)和分位数-分位数图(Q-Q plot)。
2.计算法:通过计算反映正态分布特征的指标来了解观察资料是否服从正态分布。常用矩法、W检验法和D检验法。
第八章 方差分析
1、方差分析又称F检验,其目的是推断多组资料的总体均数是否相等。是通过比较组内均方MS组内和组间均方MS组间的大小关系来判断处理因素有无效应。
2、方差分析的基本思想就是根据实验设计的类型,将全部测量值总的变异分解成两个或多个部分,每个部分的变异可由某个因素的作用(或某几个因素的作用)加以解释,通过比较各部分的均方与随机误差项均方的大小,借助F分布来推断各研究因素对实验结果有无影响。
3、完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g个处理组,各处理组分别接受不同的处理,试验结束后比较各组均数之间差别有无统计学意义,以推断处理因素的效应。 随机区组设计( randomized block design ),又称配伍组设计,是配对设计的扩展。
4、方差分析的应用条件
(1)各观测值相互独立,并且服从正态分布;
(2)各组总体方差相等,即方差齐性。
第十章 卡方检验
1、2 检验对于计数资料来讲是一种用途非常广泛的假设检验方法,可用于两组或多组样本率的比较,两组或多组构成比的比较,以及拟合优度检验等。
2、2 检验的基本思想 利用实际频数和理论频数的吻合程度来反映差异。
四格表
例1 某研究用A、B两种药物治疗急性下呼吸道感染,A药治疗74例,有效68例, B药治疗63例,有效52例。问两种药的有效率是否有差别?
把该资料整理成表格的形式,即成
;
;
3、四格表资料 2检验的步骤(例1)
(1)建立假设,确定检验水准
H0:1=2 ,即两种药的总体有效率无差别 H1:1 2,即两种药的总体有效率有差别 =0.05
(2)计算检验统计量 2 值
26864.818269.18225255.1822117.81822.74 64.8189.18255.1827.818
ν=(R-1) (C-1)=(2-1) (2-1)=1
(3)确定P 值,作出推断结果
查2界值表,20.05(1)=3.84,本例2=2.743.84,P0.05,按=0.05的水准不拒绝H0 ,尚不能认为两种药的有效率不同。
4、四格表资料 2检验专用公式
(adbc)2n (ab)(ac)(bd)(cd)2
5、四格表资料 2检验的连续性校正问题
c2(AT0.5)2
T c2(adbcn/2)2n
(ab)(ac)(bd)(cd)
一般原则是:
① 当n ≥40且所有T≥ 5时,用非校正公式计算 2值 。② 当n≥40但有1≤T<5时,用连续性校正公式计算 2值。
③ 当n<40或有T<1时,用Fisher确切概率法.
6、配对四格表资料的 2 检验
对于计数资料,配对设计常用于:
①同一批样品用两种不同的方法处理; ②试验对象根据配对条件配成对子,同一对子内的两个个体分别接受不同的处理。
;
;
7、配对四格表资料的观察结果有无差异的检验 例4 用两种不同的方法对53例肺癌患者进行诊断,结果见表10-4,问两种方法的检测结果有无差别? 表10-4 两种方法检测肺癌的效果比较
配对设计资料整理成四格表形式:
;
;
2配对四格表统计量的计算公式:
2(bc1)(bc)2
,v1 b + c ≤40 2 b + c >40 ,v1 bcbc2
检验过程如下:
(1)建立假设,确定检验水准
H0:总体b=c 即两种方法的检测结果无差别 H1:总体b≠c 即两种方法的检测结果有差别 =0.05
(2)计算检验统计量2值 因为b=2,c=11,b+c<40,故用校正公式, 2212112= 4.92
(3)确定概率P值,作出推断结论
查2界值表,20.05(1)=3.84,2>20.05(1),P<0.05, 按 =0.05的水准拒绝H0,接受H1,可认为两种方法的检测结果有差别,乙法检测出的阳性率较高,因为c>b。
第十一章 秩和检验
(一)参数统计与非参数统计
1.参数统计 样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。
2.非参数统计 样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assumption free statistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。
(二)非参数统计适用范围
1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
(三)参数检验和非参数检验的特点及优缺点
(1)参数检验 要求样本来自的总体分布类型已知,在此基础上对总体的参数进行检验。
(2)非参数检验 不依赖总体的分布类型,应用时也由于此种检验方法不再是参数间的比较,所以称
之为非参数检验。
(3)非参数检验的优点
①不受总体分布类型的限制,应用范围广;② 适用于各种类型的变量,对于一些未能精确测量而只能以优劣等级、严重程度、次序先后表示的资料(如等级资料),或不满足参数检验条件的资料均可用非参数统计方法;(适用于各种类型的变量以及一些等级资料,或不满足参数检验条件的资料均可用非参数统计方法)。③计算量相对较小,可节省计算时间。
(4)非参数检验的缺点 符合参数检验的资料,如用非参数检验,则会因为未充分利用样本信息,使得检验效能降低,导致犯第二类错误(存伪)的概率增大。
(四)配对设计资料编秩方法:①省略所有差值为0的对子数,同时样本例数减1②按差值的绝对值从小到大编秩,然后分别冠以正负号。遇差值绝对值相等则取平均秩,称为相同秩③分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量。 注意:若 n>50时,可用 u检验;当相同差值数多时,应改用校正式。
(五)成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)
编秩方法: ①把两样本数据混合从小到大编秩,遇数据相
等者取平均秩; ②以样本例数小者为n1,其秩和(T1)为T, 若两样本例数相等,可任取一样本的秩和(T1
或T2)为T。
(六)成组设计多个样本比较的秩和检验(Kruskal -Wallis法)
编秩方法:将各组数据混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如数值为1.5的有三个,它们的秩次为3、4和5, 取平均秩次为(3+4+5)/3=4.
(七)多个样本两两比较 重复多次假设检验后会增大犯一类错误的概率,必须对检验水准进行调整.
调整检验水准的计算: a’=a/比较次数= a k(k1)/2
(六)随机区组设计资料的秩和检验(Friedman检验)
编秩方法:(1)将每个区组的数据由小到大分别编秩,遇相同数值取平均秩;(2) 计算各处理组的秩和Ri。
(七)等级资料编秩 ①计算各等级资料的合计人数,确定各组段秩次范围
②计算各等级平均秩次 ③以各等级平均秩次与各等级例数相乘,再求和,即得T值。
第十二章 简单线性回归
1. 直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。 直线回归方程中,a、b是决定直线的两个系数,见表
;
;
2.回归参数估计
根据数学上的最小二乘法原理,既直线可保证各实测点至直线的纵向距离的平方和最
XXYYl小,可推导出计算a和b的公式如下: blXX2XY
XX a
3. 直线回归方程的应用
(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题
回归分析应用的注意事项:
1)作回归分析要有实际意义,不能把毫无关联的两种现象随意进行回归分析,忽视事物现象间的内在联系和规律.
2)进行回归分析时应先绘制散点图.如果各散点图中出现一些特大或特小的离群值,则应及时复核检查,在准确无误的前提下,根据离群值判断准则,对其决定取舍.3)直线回归分析用于刻画应变量Y对自变量X在数值上的依存关系,其中哪一个作为应变量主要是根据专业上的要求而定,可以考虑把易于精确测量的变量作为x,另一个随机变量作Y。4)对于线性回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步推断。5)建立回归方程后,须对回归系数β进行假设检验,只有经假设检验得出总体回归系数β不为0后,回归方程才有意义。6)直线回归方程的适用范围应以自变量的取值范围为限。若无充足理由证明,超出自变量取值范围直线回归关系仍成立时,应该避免随意外延。
4.总体回归线95%置信带和个体Y的范围(见书P194,图12-3)
图12-3中,围绕在回归方程直线两侧的两条光滑的曲线(实线),构成形似领带的带状区域,称为总体回归线的95%置信区间,其意义是满足线性回归的假设条件下,真实的回归线落在两条实曲线所形成的区域内的置信度为95%。
图12-3中,各X值所对应的Y值的95%容许区间的上下限在总体回归线置信带的外侧也构成了两条弧形曲线(虚线),称为个体Y的95%预测范围。
5.残差分析 残差:指观测值与通过直线回归方程计算所得的预测值之差,反映了方程拟合数据优劣的信息。
线性回归模型成立的四个前提条件:线性,独立,正态,等方差。
第十三章 线性相关
1. 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。
相关系数又称积差相关系数(coefficient of product -moment correlat ion),以符号r 表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
2. 计算公式
;
;
r 没有单位,其值为-1≤r≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r 值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r 值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r 的绝对值等于 1为完全相关。
3. Spearrman秩相关 适用于:(1)变量X和Y不服从双变量正态分布,可用Spearrman秩相关;
(2)变量X和Y均为多分类有序资料,可用Spearrman秩相关。
4.直线回归与相关的区别与联系
4.1区别(1) 资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量 X、Y 服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。
(2) 应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。
(3)意义:b表示X每增(减)一个单位时,Y平均改变b 个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。
(4计算:b= lxy/ lxx; (5) 取值范围:—∞<b<+∞ ;-1≤r≤1(6)单位:b有单位;r 没有单位。
4.2 联系
(1) 方向一致:对一组数据若能同时计算b 和r,它们的符号一致。(2) 假设检验等价:对同一样本,r和 b的假设检验得到的 t值相等,即(3) 用回归解释相关:
;
;
;
;
第二十章 多重线性回归
(一)将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量 X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归。基本形式
;
;
:
;
;
(二)多元线性回归分析中的假设检验
多元线性回归方程的假设检验包括两个方面:整体回归效应的假设检验和偏回归系数的假设检验。
(1)整体回归效应的假设检验 类似简单线性回归方程的假设检验,当通过样本数据求得参数估计值b0,b1,b2,...,bp之后,还需要进一步检验各自变量的偏回归系数是否均为0,即H0: β1=β2 =„=βp
=0是否成立,以确定就整体而言,所得回归方程是否有统计学意义,通常采取方差分析的方法进行F检验。
(2)偏回归系数的假设检验 各自变量对应变量有无线性回归关系需要做假设检验,即对每一个偏回归系数的假设检验,其检验假设H0:βj =0。对偏回归系数的假设检验有多种方法,常用t检验、F检验方法。
拟合回归方程的主要评价指标为决定系数R2。回归方程的拟合程度越好,残差平方和就越小,决定系数R2越接近1;反之越接近0.
(三) 自变量选择 在多元线性回归方程中,可能有的自变量对因变量作用大,有的自变量作用小,甚至完全没有作用。这样就有必要对自变量进行选择,使回归方程中只包含对因变量作用有统计学意义的自变量,即所谓相对 “最优” 的方程。选择自变量的方法主要有前进法、后退法及逐步法,以后者最为常用。应用逐步法时,应先分别选定引入和剔除自变量的F检验α水准。其默认值均为α=0.15。
(四)注意事项 1、多重现行回归要求预测值与应变量的差值(即残差)服从正态分布,当样本量较大时可以忽略正态性的要求;多重线性回归一般要求观察单位之间是独立的,因此传染病的资料应谨慎处理。2、在多重线性回归中,对于名义变量必须数量化;对于等级变量可根据实际情况选择直接引入回归模型或数量化后引入回归模型;连续型变量可以直接引入回归模型,也可以及根据研究背景对连续型变量进行离散化后,再进行数量化引入回归模型。3、在多重线性回归中,不同的研究问题要用不同的回归分析策略,对于寻找最佳预测模型或寻找主要的影响因素,应该用最优子集的方法进行回归分析,用逐步回归分析的结果是最优子集的近似结果,在下结论时应谨慎。4、逐步回归的结果可推断某个因素与应变量有关联,但不能用逐步回归的结果推断某个因素与应变量无关联。5、逐步回归所剔除的自变量只能说明被剔除的自变量与应变量的关联性不强,逐步回归所剔除的自变量还是有可能对应变量与某个因素(研究因素)之间的关联性构成混杂作用,所以在实验性研究的统计分析一般不宜用逐步回归。
附:课后选择题
统计选择题
第三章 观察性研究设计概述
1、观察性研究与实验性研究的最大区别是:观察性研究不能主动实施干预措施。
2、与实验研究相比,观察性研究不适合:评价某预防干预措施的效果
3、不是横断面研究的目的:评价社区预防干预措施的效果
第四章 统计描述
1、算术均数与中位数相比,算术均数:更充分利用数据信息
2、计算几何均数时,采用以e为底的自然对数ln(x)和采用以10为底的常用对数lg (x),所得计算结果:相同
3、一个变量的所有观察值同时加上一个非零常数后,标准差不变。
4、一个变量的所有观察值乘以一个非零常数后,变异系数不变。
5、比较身高和体重两组数据的变异大小,宜采用变异系数。
6、变异系数的数值:可以大于1也可以小于1.
7、某研究者打算利用横断面调查资料描述职业与肝炎患病率的关系,应采用圆图。
8、线图可以用来描述近视率与儿童年龄的关系。
9、某研究者打算比较1975年至2000年之间两种疾病的死亡率的变化趋势,从收集的资料看,死亡率的变异较大,宜采用半多数线图。
第六章 参数估计
1、当样本量增大时,样本均数标准误会变小。
2、区间×±2.58Sx的含义是:总体均数的95%可信区间。
3、通常可采取扩大样本量来减少抽样误差。
4、相对危险度是:暴露组发病率或死亡率与非暴露组发病率或死亡率之比。
第七章假设检验
1、若P值大于0.05,应不拒绝H0
2、两样本比较时,a=0.20的第二类错误最小。
3、在两样本均数比较的u检验中,如果检验结果为p>0.05,事先估计并确定合适的样本含量的重要作用是:控制Ⅰ类Ⅱ类错误。
4、在两样本均数比较的u检验中,差别有统计学意义,p值越小,说明:越有理由认为两总体均数不同。
5、在两样本均数比较的u检验中,无效假设是:两总体均数相等。
6、分别从随机数字表中抽得50个随机数字作为两个样本,其均数和标准差为X1、S1、X2、S2,则理论上:两总体均数相差为0.
第八章 t检验
1、在两样本均数比较的t检验中,无效假设是:两总体均数相等。
2、在两样本均数比较的t检验中,差别有统计学意义,p值越小,说明:越有理由认为两总体均数不同。
3、正态性检验,按a=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率是:等于二类错误,且未知。
第九章 多个样本均数比较的方差分析
1、对三个均数做方差分析,结果有统计学意义,可以认为:2个或3个总体均数不同。
2、方差分析中,离均差平方和为SS,方差为MS,下标T,B,W分别表示的是总的、组间和组内,则必有:SSt=SSb+SSw.
3、方差分析的组间均方是:表示处理作用与抽样误差两者的大小。
4、方差分析中:F值不可能是负数。