●【抽样误差】由抽样引起的样本统计量与总体参数间的差别。原因:个体变异+抽样
表现:样本统计量与总体参数间的差别、不同样本统计量间的差别。抽样误差是有规律的
●【可信区间CI】区间估计是按一定的概率或者可信度1-,用一个区间估计总体参数所在的范围CI,这个范围成为可信度为1-的可信区间,置信区间。
影响:可信度、个体差异、样本含量 两要素:可信度1-、可靠性;精确性
可信度为95%的CI涵义:每100个样本计算95%的CI,平均有95%的CI包含了总体参数。95%,指方法本身,而非某个区间。该区间包含总体参数,可信度为95%
●【总体和样本】根据研究目的确定的同质的所有观察单位的某种变量值的集合。
样本是指在研究总体中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集
●【参数和统计量】描述总体特征的指标,不变的,固定的,未知的
统计量:描述样本特征的指标,变化的,已知的,有误差的
●【概率和小概率原理】描述某随机事件发生可能性大小的度量,记做P,取值0<P<1
小概率原理:P≤0.05,该事件发生的可能性很小,进而认为在一次抽样中不可能发生
●【随机】机会均等、随机抽样、随机分组、实验顺序随机
●【变异系数CV】离散系数,标准差S、均数之比。用来衡量单位不同的多组资料的变异度、比较均数相差悬殊的多组资料的变异度
●【相关系数】两个有直线关系的变量间相关关系的密切程度与相关方向的指标,记做r,-1≤r≤1,正、负相关,其绝对值越大表示关系越密切,越接近于0相关越不密切
●【回归系数】b回归直线的斜率,自变量增加一个单位,应变量的平均改变量
●【标准误】样本统计量的标准差,衡量抽样误差的大小
●【偏倚】实验中某些非实验因素的干扰所形成的系统误差,歪曲了处理因素的真实效应
●【一类错误、二类错误】【检验效能】1- 就是对真实的H1作出肯定结论之概率
实际情况 假设检验的结果
拒绝 H0 不拒绝 H0
H0 成立 I 型错误() 推断正确
H0 不成立 把握度(1-) II 型错误()
●【假设检验中的P值】从 H0 总体中随机获得等于或大于现有统计量值的概率。P是 H0 成立时,获得现有差别以及更大的差别的概率。拒绝H0时所冒的风险
●【的含义】1在假设检验之前人为规定2犯第一类错误的概率3说明拒绝H0所冒的风险不可超过 4若取 = 0.05水准,得P ≤。按误差不超过5%的条件拒绝H0而接受H1
●【假设检验】首先建立假设检验,假设下随机抽样,计算得该统计量及其极端情形的概率,如概率小,拒绝假设,如概率不是小概率则接受。
1建立假设(在假设的前提下有规律可循)2确定检验水准(确定最大允许误差)3计算检验统计量(样本与总体有多大的偏离)4计算概率P (该样本是否支持零假设)5结论(根据小概率原理)P>0.05,不拒绝H0;P≤0.05,拒绝H0接受H1
统计学结论:P≤, 差异有统计学意义;P>, 差异无统计学意义
专业的结论:专业上有差别,假设检验拒绝H0:结果有效,可以下专业结论;
无差别,不拒绝H0:下无差别的结论;有差别,不拒绝H0:增大样本含量,减少二类误
无差别,拒绝H0:改进试验,减少误差。
意义:1分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论
2分辨一个样本是否属于某特定总体
●【参考值范围】正常值范围,是绝大多数正常人的某观察指标所在的范围。绝大多数:90%,95%,99%等。确定参考值范围的意义:用于判断正常与异常。正常人:排除了影响所研究的指标的疾病和有关因素的同质的人群 确定原则:选定同质的正常人作为研究对象、控制检测误差、判断是否分组、单双侧问题、选择百分界值、确定可疑范围
●【统计推断】由样本信息推断总体的性质,参数估计+假设检验
●【非参数检验】在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。适用于①等比②偏态③分布型未知④变异系数大方差不齐⑤开口
●【同质与变异】同一总体或样本中的观察单位在所选取指标方面具有相同的性质。
变异是指在同质的基础上各观察单位(或个体)之间的差异
●【定量资料】以定量值表达每个观察单位的某项观察指标,如血脂、心率等。数据连续
分类、计数:以定性方式表达每个观察单位某项指标,表现为互不相容的类别或属性
等级资料:以等级表达每个观察单位的某项观察指标,如疗效分级、血粘度、心功能分级
●【配对设计】将实验单位按一定条件配成对子,再将每对中的2个实验单位随机分配到2个处理组中。条件相近、对内同质
●【构成比】说明某一事物内部各组成部分所占比例。
某一组分部分的观察单位数/同一事物各组成部分的观察单位数
●【剩余标准差】扣除了X的影响后,Y方面的变异;引进回归方程后, Y方面的变异
●【参数估计】从总体中抽取的样本估计总体分布中包含的未知参数的方法。点、区间估计
●【医学统计学】以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学
●标准差、标准误:1意义:个体差异大小,即离散程度;抽样误差大小,即样本统计量和总体参数的接近程度 2用途:估计参考值范围、表现观察值的波动范围;抽样误差的大小,估计可信区间 3随着样本含量的增多,逐渐趋于稳定;逐渐减少
标准差: 标准误: 均数的标准误与标准差成正比
●定量资料描述:集中趋势:均数、几何均数、中位数、百分位数
离散程度:极差、四分位数间距、方差、标准差、变异系数
●描述集中趋势的指标、其适用范围
1均数:正态或近似正态分布2几何均数:等比数列或对数正态分布资料3中位数:资料是偏态分布的;分布不规则;一端或两端有不确定数据(开口资料)时
●中心极限定理从均值为μ、标准差为σ的任意一个总体中独立随机抽取样本量为n的样本,当n充分大时,样本均值的分布近似服从均值为μ、标准差为的正态分布
●正态分布的特征:两个参数,位置参数(均数)和变异度参数(标准差);高峰在均数处;均数两侧完全对称;正态曲线下的面积分布有一定的规律 ±1.64 90%;±1.96 95%;±2.58 99% 正态分布应用:估计频数分布、质量控制、确定临床参考值范围
●质量控制的意义:监控日常工作、科研过程、生产过程中误差的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施。
●t检验、假设检验、单因素方差分析的前提:正态性、独立性、方差齐性
方差齐性检验、方差不齐时的近似t检验、大样本时均数比较的u检验
●假设检验、可信区间:1在相同的α之下,若假设检验拒绝H0(p< α),那么可信度为(1- α)的可信区间必然不包括总体参数;反之成立。2可信区间和假设检验是对同一问题所作的不同结论,效果等价。3可信区间比假设检验能回答更多的内容。
●四格表卡方检验应用条件:n>40,T>5,卡方;n>40,1<T≤5,校正卡方检验;n≤40或T≤1,确切概率法 配对四格表的分析方法选择条件:b+c>40;20<b+c≤40用校正2 ;b+c<20,二项分布直接计算概率
●正确应用相对数:1计算相对数的分母不宜过小2不能以构成比代替率3对观察单位数不等的几个率,不能直接相加求平均率4计算率注意资料的同质性,对比时注意可比性
●相关关系的正确应用:1相关关系不等于因果关系2相关系数只度量变量间的线性关系3极端值可能影响相关系数4注意相关关系成立的数据范围5警惕虚假相关6在相关分析前,需作散点图,从散点图的趋势判断是否可以作线性相关分析7识别离群值、排除间杂性
●回归系数和回归方程的意义: b斜率;a截距、X为0时Y的估计值;Y^给定X时Y的估计值;Y-Y^残差、点到直线的纵向距离
●直线回归、相关 r密切程度、方向,b数量关系
联系:均表示线性关系、符号相同 共变方向一致、假设检验结果相同
区别:1 r 没有单位,b有单位2应用:相关表示相互关系、回归表示依存关系
3对资料的要求:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机X控制,理论上只能作回归而不能作相关分析。
●回归关系的正确应用1要有实际意义2充分利用散点图,判断线性趋势、离群值3当样本含量较大时,统计学检验的作用减小4回归关系可以内插,不宜外延5应用条件:线性、独立、给定X时Y正态分布、等方差
●实验研究的基本要素 处理,对象,效应 基本原则 随机、对照、重复
随机:抽样、分组、实验顺序,客观性;对照:对等、同步、专设,均衡度
重复:可靠性:整个实验重复、多个实验单位重复、同一实验单位重复观察
●影响样本含量的因素:数据种类、个体变异、组间差别、指标间的相关程度、设计方法、各组例数的分配、I II型错误、研究的质量
●最小样本含量估计::I类误差,常取0.05 ;:II 类误差,常取0.20,0.10;1- :把握度;:标准差,个体变异;:临床上能接受的最小差别;实验组、对照组的比例不超过1:4 ~ 4:1
●完全随机设计分析思路:1疗前两组比较,以分析可比性;2各组疗前疗后差值分别比较,分别确定各自的变化值;3两组疗前疗后差值相互比较,分析两组的效果是否相同 t P
●析因设计:单独作用:其他因素的水平固定时,同一因素不同水平间的差别
主效应:该因素的各个水平在其他因素的所有水平上的平均数的差异
交互作用:某因素各水平的单独作用随另一因素水平变化而变化,则两因素间存在
●研究设计类型:完全随机、配对、随机区组、拉丁方、析因、交叉
●不宜用t 检验对多组均数进行比较
如果用 t 检验进行多个样本均数的两两比较,则会增加犯I类错误的概率。经检验得到拒绝H0,认为两组之间有差别的结论可能犯I类错误的概率为,不犯I类错误的概率为1- . 每次判断均不犯I类错误的概率为(1- )k, k为比较的次数,上例=0.05, k=3,则均不犯错误的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I类错误的概率为1-(1- )k
●方差分析的基本思想:按实验设计的类型,将全部观察值间的变异分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较(每个部分的变异可由某因素的作用来解释),以判断各部分的变异是否具有统计学意义,从而推断不同样本所代表的总体均数是否相同
●方差分析的应用条件及用途:1各样本是相互独立的随机样本2样本来自正态分布总体3各总体方差相等,即方差齐 应用:1两个或多个样本的均数间的比较2分析两个或多个因素间的交互作用3回归方程的线性假设检验4多元线性回归分析中偏回归系数的假设检验等
●标准正态分布u分布与t分布:相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时) 不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1
●秩和检验的应用:可用于任意分布的资料
1等级资料2计量资料中:极度偏态资料或个别数值偏离过大、各组离散度相差悬殊、资料中含有不确定值大于5年 <0.001、1:1024以上、分布类型尚未确知3兼有等级和定量性质
●完全随机设计:单向分组,单因素,多水平
配对设计:总体同质性差、按某种条件配对、对内随机。异体配对、自身配对
随机区组设计:总体同质性差,部分同质性好,区组控制,区组内随机,是配对设计的扩展;同质性较好时,可以同时考虑两个因素的分析(不考虑交互作用)
●参考值范围:标准差 可信区间:标准误
●方差齐 变换:对数、平方根、倒数、平方根反正弦变换
●假设检验的基本思想:两样本均数不同,可能由于抽样误差,可能来自2个不同总体。先建立假设2样本来自同一总体,计算在该假设前提下,获得手头样本的概率,通过对该概率进行界定做出结论一般于0.05比较,允许I类错误的概率为0.05
●P值越小两总体间差异越大?
不能,P的大小与总体指标间差异大小不完全等同。P的大小更与抽样误差大小有关。同样的总体差异,不同的抽样误差,P也不一样,抽样误差大小反映在样本量上
●单因素方差分析
变异来源 SS v MS F
组间 SS组间 k-1 SS组间/v组间 MS组间
MS组内
组内 SS组内 N-k SS组内/v组内
总 SS总 N-1
●两因素方差分析
变异
来源 离均差
平方和 ν MS F
处理 SS处理 k-1 SS处理/v处理 MS处理/MS误差
区组 SS区组 n-1 SS区组/v区组 MS区组/MS误差
误差 SS误差 N-k-n+1 SS误差/v误差
总变 SS总 N-1