疾病分析统计数据库
Tel : 400-6010-180
Statistics
科研论文中定性资料统计分析释
科研论文中定性资料统计分析释
随着医学科学的不断发展,医学论文的质量逐步提高。但是,在医学论文中存在统计学方面的错误仍很普遍。我们查阅了《中华妇产科杂志》1997年所有论文,发现作者运用统计学意识较强,能够将资料进行统计处理后再下结论,但是在所用统计学方法上存在一些问题,主要表现在定性资料大都采用χ2检验、定量资料大都采用t检验。本工作针对定性资料选取5个典型实例,运用SAS软件进行分析,说明定性资料应该采用的统计学处理方法,供同道参考、商榷。
一、 实例
例1.作者采用地高辛精标记探针原位杂交技术,检测C-myc癌基因和p53抑癌基因在子宫平滑肌肿瘤中的表达和定位,探讨其与交界性子宫平滑肌瘤发生和发展的关系,及交界性子宫平滑肌瘤与子宫良、恶性平滑肌瘤的内在联系,资料见表1。
表1 Cmyc和p53在子宫平滑肌肿瘤中的表达(例数)
C-myc C-myc
类别 总例数 - ± + ++ 阳性率(%) - ± + ++ 阳性率(%)
良性肌瘤 18 17 1 0 0 5.6 16 2 0 0 11.1
交界性肌瘤 48 32 2 6 8 33.3 29 2 10 7 39.6
平滑肌肉瘤 6 2 1 1 2 66.7 1 1 2 2 83.3
合计 72 51 4 7 10 29.2 46 5 12 9 36.1
注:3者阳性率两两比较,P<0 05
采用χ2检验所得结论:C-mycmRNA在子宫良性肌瘤、交界性肌瘤和肉瘤中的表达率分别为5 6%、33
3%和66 7%(P<0 05);p53在良性、交界性及恶性子宫平滑肌肿瘤中的阳性率分别为11 1%、39
6%和83 3%(P<0 05)。
例2.作者对近20余年来在该院住院治疗的晚期卵巢上皮性癌患者进行分析,了解预后变化及影响预后的因素,资料见表2。
表2 两组患者的分期及病理特点(例数)
临床分期 病理分级 病理类型
组别 总例数 Ⅲa Ⅲb Ⅲc Ⅳ 1 2 3 浆液性 其他
第1组 56 5 4 36 11 17 21 18 30 26
第2组 84 3 9 61 11 16 32 36 40 44
合计 140 8 13 97 22 33 53 54 70 70
统计分析及结论:经χ2检验,两组间临床分期、病理分级、组织学类型无差异,P值均>0 05。
例3.为探讨患者的年龄、双侧卵巢基础状态及血清基础雌二醇水平与促超排卵后卵巢反应之间的关系,对于基础状态卵泡大小与卵巢反应类型的关系,先采用单因素方差分析得结论:基础状态卵泡直径在卵巢低、中、高反应型之间差异有显著性(P<0
05),然后进一步将基础卵泡直径分层得表3。
表3 基础状态最大卵泡直径与卵巢反应类型的关系(例数)
卵巢反应类型
卵泡直径 低反应型 中反应型 高反应型
(mm)
0- 0 1 0
2- 0 29 13
4- 5 25 4
6- 0 15 1
8- 0 7 0
>10 2 0 0
统计处理后结论:基础状态最大卵泡直径>4mm时,卵巢低反应型的发生率明显增加,差异有显著性(P<0
001)。
例4.作者回顾分析了1989~1995年间某院手术治疗的子宫内膜癌290例的临床病理资料,就其临床分期和手术病理分期进行比较,其中选取手术前后组织学分级的资料进行比较,见表4。
表4 手术前后组织学分级的比较(例数)
手术前组 总 手术后组织学分级 分级改变 改变率
织学分级例数 G1 G2 G3 降低(%) 升高(%) (%)
G1 135 112 23 0 0 23 17.0
G2 60 9 41 10 9 10 31.7
G3 20 0 9 11 9 0 45.0
合计 215 121 73 2118 33 23.7
注:54例缺术前组织学分级,21例缺术后组织学分级,均未计
结论:组织学分级,术前为G1者135例,术后为121例;术前为G2者60例,术后为73例;术前为G3者20例,术后为21例;总的误差率为23.7%。
例5.在检查线索细胞对150例细菌性阴道病(BV)的诊断价值时,BV组与对照组按不同的阳性标准,4种线索细胞检测方法的阳性、阴性结果见表5。?
表5 两组不同方法、不同阳性标准线索细胞检测结果(例数)
.湿片法 相差法 革兰染色法 荧光法
组别 总例数 阳性标准 + - + - + - + -
BV组 53 ≥10% 46 7 45 8 41 12 37 16
≥20% 42 11 40 13 40 13 35 18
对照组 97 ≥10% 16 81 13 84 10 87 5 92
≥20% 15 82 11 84 8 89 4 93
统计分析及结论:采用χ2检验,不同方法及阳性标准线索细胞结果与革兰染色细菌评分法的关系:分别以线索细胞≥10%或≥20%为阳性标准,4种方法检查的线索细胞结果与革兰染色细菌评分法的结果,差异无显著性(P>0.05)。
二、 分析
利用SAS统计软件处理各实例分析如下:
例1要比较3组阳性率(%)间有无差异时,应整理成表6,按双向无序的列联表资料进行处理。
表6 Cmyc和p53在子宫平滑肌肿瘤中的表达(例数)
C-myc p53
类别 总例数 阴性 阳性 阳性率(%) 阴性 阳性 阳性率(%)
良性肌瘤 18 17 1 5.6 16 2 11.1
交界性肌瘤 48 32 16 33.3 29 19 39.6
平滑肌肉瘤 6 2* 4* 2/6 1* 5* 5/6
合计 72 51 21 29.2 46 26 36.1
注:*对应的理论数小于5
表6资料因理论数小于5的个数较多,若平滑肌肉瘤组不能增加例数或交界性肌瘤与平滑肌肉瘤也不便合并时,就不应采用χ2检验,可选用Fisher精确概率计算法和对数线性模型中的方法之一。本例采用Fisher确切概率法计算得:检测C-myc癌基因时,3组阳性率间P=0
00547,有差异;检测p53抑癌基因时,3组阳性率间P=0 00454,有差异。本例若按表1的原始资料,不进行检测阳性结果间的合并时,最好作Spearman秩相关分析。检测C-myc癌基因时,rs=0
36342,P=0 0017,相关有极显著性的统计学意义,说明肿瘤从良性、交界性、恶性顺序与检测出的阳性结果的严重程度呈正比关系;检测p53抑癌基因时,rs=0
40148,P=0 0005,结论同上。
例2临床分期、病理分级属于单向有序的列联表资料即等级资料,统计处理的方法很多,但其差异性分析,不应做χ2检验。本例对于临床分期、病理分级分别采用Didit分析进行计算,临床分期的结果为R1=0.5101,U1=-0.3198;
R2=0.4933,U2=0.2611,两组均与标准组无差异,结论与原作者相同。病理分级的结果为R1=0.4546,U1=1.2537;R2=0.5303,U2=-1.0236,两组均与标准组无差异,结论与原作者相同。病理类型可用四格表χ2检验,
χ2=0.476,P=0 490,结论与原作者相同。
例3属于双向有序且属性不同的列联表资料,可选取等级相关分析、典型相关分析和线性趋势检验方法之一。若采用Spearman秩相关分析,结果是:re=-0.33014,P=0.0007,相关有极显著性的统计学意义,且为负相关,说明年龄与卵巢反应高低程度呈反比。
例4属于双向有序且属性相同的列联表资料可选一致性检验(也称Kappa检验)和特殊模型分析方法之一。本例采用Kappa一致性统计量计算得:Kappa=0.563,U=10.413,P=0.0000,说明手术前后组织学分级的比较具有一致性。
例5属于高维列联表资料,可选取对数线性模型(LOGLIN)或Logistic回归模型(只分析自变量对因变量的影响)。本例采用对数线性模型,用最大似然法来估计,组别a(BV组和对照组)、阳性标准b(≥10%和≥20%)、方法c(湿片法、相差法、革兰染色法和荧光法)、检测结果d(阳性和阴性),选取有代表性的模型3个。
结论:组别间、检测结果间有差异,且组别与方法间、组别与检测结果间、方法与检测结果间存在交互作用,其余各组间及各级交互作用无统计学意义。
三、结论
定性资料分为有序和无序两种情况,无序定性资料又称为计数资料,有序定性资料又称为等级资料;按照列联表中变量的个数及顺序性可分为:双向无序的列联表资料、单向有序的列联表资料、双向有序且属性不同的列联表资料、双向有序且属性相同的列联表资料及高维列联表资料。
正确的分析方法是:双向无序的列联表资料可选用χ2检验、Fisher精确概率计算法和对数线性模型方法之一;单向有序的列联表资料可选用秩和检验、Ridit分析、有序资料的Logistic回归模型和对数线性模型等方法之一;双向有序且属性不同的列联表资料可选等级相关分析、典型相关分析和线性趋势检验方法之一;双向有序且属性相同的列联表资料可选一致性检验(Kappa检验)和特殊模型分析方法之一;高维列联表资料,可选取对数线性模型或Logistic回归模型。
郭秀花 赵连伟 汪辉 张梦霞著
中华妇产科杂志2001年10月第36卷第10期