Statistics

医学科学研究论文中统计方法的正确应用

医学科学研究论文中统计方法的正确应用

  一、 统计方法正确应用的重要性
  医学统计方法很多,各适用于不同的数据。临床试验中所用统计方法必须根据数据情况认真选用。这是因为,数理统计是根据一定的数据分布推导出一定的统计方法,它仅适用于一定的数据。例如,t检验及方差分析是由正态分布数据以及各组方差相同推导出来的,因而要求数据为正态分布(至少接近正态分布)且方差齐性。但是,在论文的统计方法部分常有如下阐述:一般资料进行χ2检验,其余资料进行t检验,这种不管数据分布是否很偏态,就一概使用某种统计方法不正确。此外,分类数据与计量数据的统计方法也不同,分类数据中对于名义变量和顺序变量的统计方法也不同。统计方法应用的错误会使整个精心进行的研究得出错误的结论。在这一讲中我们将结合目前文献中常见的一些统计方法的错误应用,对如何根据数据的情况来正确地选择统计方法进行讨论。
  二、 统计方法上常见的一些问题
  1.t检验和方差分析要求数据服从正态分布:在医学研究中大量的数据并不服从正态分布。有时可以从报告中的数据看出。例如,在文献中体温降至正常的平均日数在两组分别为3 0±1 7及2 4±2 0。由数据可以看到标准差是平均数的1/2以上,甚至接近平均数。这就提示数据严重偏离了正态分布。因为,当数据不可能为负值(如日数),且样本不是过小时,按正态分布规律,平均数减3个标准差仍应是正数。这里平均数减3个标准差已经是-2.1和-3.6了。因为日数不可能是负数,这就说明数据偏离了正态分布规律。又如,文献[2]关于统计分析方法方面写道:“测量参数以x±s表示。根据性别及骨密度(2.5s为界)分组,用两样本均数t检验对组间各形态计量参数进行统计分析(SPSS8.0软件)。样本均数与总体均数用t检验比较形态计量学参数与正常参考值之间的差异”。由文内表格(表1)可以看到有不少标准差大于均数。数据很可能是很偏态,不宜使用t检验。事实上,t检验和方差分析是一种所谓“稳建的”(robust)统计方法。就是说,当分布偏离正态分布不大时,对其结果的影响不大。但对于计量数据还是应当先做正态性检验。如果正态性检验结果认为数据不服从正态,可以进行数据转换,但比较麻烦。简单的方法是用非参数统计。过去一般认为非参数统计效率较差,但这是指当数据为正态分布时。如果数据是非正态分布时其效率比参数法高,甚至可以高出很多。常用的有秩和检验和符号秩和检验等。
  2.关于多组计量资料的一揽子比较:在多组计量资料的组间两两比较时不可以用“一揽子比较”。所谓“一揽子比较”是进行多组比较时进行所有的两两比较。这是因为,在进行两组间比较时我们确定了第Ⅰ类错误的概率α。一般我们用α=0.05。如果做一揽子比较,α就会扩大,也即,第Ⅰ类错误的概率扩大了。我们就会得到过多的假阳性结果。这时对第Ⅰ类错误的概率α进行调整的方法很多。一般先做方差分析,然后再用各种多重比较的方法,如Student Newman Keuls法等,做各组间的两两比较。文献[2]是一个用错了的例子。文献[4]的表中(表2),原作者对A、B、C3组做了一揽子比较。
正确的做法应当是先做总的检验,然后再做多重比较。本例还有各组间方差不齐的问题。不宜用方差分析而需用非参数统计方法来处理。
  3.顺序变量的χ2检验:(1)临床疗效的比较:2组有效率的比较,用四格表χ2检验或Fisher精确检验法是可以的。但是,如按疗效分成多个等级,如痊愈、显效、进步、无效   4个疗效等级,则目前常用的χ2(Peasonχ2)不能说明疗效的好坏。因为Peasonχ2只检验结构是否均衡而不能检验2组疗效是否有差别。在表3这个假设的例子中, Peasonχ2检验得到差别有高度统计意义的结果。而实际上很难说哪一组疗效更好。如果我们对表3中任何两列进行对换。Peasonχ2的数值也不会有变化。

  表1老年股骨颈骨折患者骨密度、骨形态计量学参数与形态计量学正常值比较(%,x±s)
组别 例数 TBV OV TOS PRS
正常值 15.36 1.07 13.21 4.76
骨密度降低≥2.5s 10 8.68±3.18 7.78±13.54 6.55±7.07 6.79±8.68
骨密度降低<2.5s 7 7.92±2.58 4.35±7.40 5.94±6.27 2.43±2 .9
与正常值比较: P<0.05, P<0.001
表2 燃煤型砷中毒患者皮肤组织中p53mt阳性表达分析
组别 例数阳性 细胞密度(x±s) 阳性率(%)
A组 18 38.07±29.00 88.89
B组 11 17.16±15.00 72.73
C组 39 4.05±8.24 25.64
对照 12 0 0

  各组与对照比较:P<0.01;A与B比较P<0.01;A与C比较P<0.01;B与C比较P<0.05
表3一个假设的顺序变量χ2检验的例子(例数)
组别 痊愈 显效 进步 无效
A药 100 50 50 100
B药 50 100 100 50
χ2=56.556,ν=3,P=0.001
表4是克霉唑与对照治疗阴道炎的实例。原作者并未对此进行统计分析。对于这种顺序分类变量资料可以用Wilcoxon秩和检验、Ridit分析或Cochran Mantel Haensze行平均分差检验(Test of row mean scores difference)。这三者都是合理的方法,只是评分方法有所不同而已。因为其检验的假设有所不同,其结果也会有些差别,其中以用“行平均分差检验”较好。因为可以计算出平均得分显示两者之差值。如表4,若用4个等级以0,1,2,3来评分,2组平均分分别为2 728及2 632分,十分接近,ν=1,P=0 324。本例得出差别无统计意义的结论,但这并不能说2种药的疗效相等或相近(见本讲第三节)。
表4 克霉唑与对照治疗阴道炎的疗效比较(例数)
组别 痊愈 显效 进步 无效 平均分
克霉唑 92 17 1 4 311/114=2.728
对照药 65 14 6 2 229/87=2.632

  (2)时间作为顺序变量:如上所述,Pearsonχ2检验只能说明构成比例的不同。对于顺序变量,需要用行平均分差的检验。Ridit检验或者Wilcoxon秩和检验。文献[7]是以时间作为顺序变量的例子(表5)。这一Pearsonχ2检验的结果只能得出新生儿黄疸消退时间不同的结论,而不能得出观察组消退较晚的结论。
如果我们把任何各列交换。Pearsonχ2检验的结果完全不变。如果我们以0、1、2、3 来代表7~、9~、11~等依次各列,可以计算对照组和观察组的平均分为:
对照组:(0×8+1×16+2×36 )/(8+16+36 )=446/150=2.973。
观察组:(0×0+1×6+2×18 )/(0+6+18+ )=826/196=4.214。
行平均分检验结果为χ2=94 593,ν=1,P=0.001说明观察组黄疸消退延长。
本例为计量资料的频数表形式。也可计算均数和标准差,用u检验比较均数的差别。
  4.把行×列表合并成四格表:比较疗效时,把疗效合并成四格表而用卡方检验有效率,在方法上似无不可,但损失了信息。而且,合并的方法对于疗效的判断会有影响(表6)。

表5 肉眼观察新生儿黄疸消退时间(例数)
出 生 后 时 间(d)
组别 7~ 9~ 11~ 13~ 15~ 17~ 19~ 21~ 23~ 24
对照组 8 16 36 68 16 6 0 0 0
观察组 0 6 18 34 59 45 19 13 2
Peasonχ2=113 9(作者为114 06),P<0 01
表6 治疗组与对照组的疗效比较
显效 好转 无效 总有效
组别 例数 例数 (%) 例数 (%) 例数 (%) 例数 (%)
治疗组 20 16 80.0 3 15.0 1 5.0 19 95.0
对照组 27 4 14.8 20 74.1 3 11.1 24 88.9
作者由表6得出结论:治疗组显效率明显高于对照组,统计学上差异有极显著性(P<0.01);治疗组总有效率与对照组比较差异无显著性(P>0.05)。由此可见,不同的合并方法对结果有很大的影响。这种情况还是用对顺序变量作分析的统计方法来分析为好。本例用秩和检验结果u=4.088,P=0.000。说明2组差别有高度统计意义。从数据可见治疗组疗效较好。
在临床试验中有人把无效和改善合并为无效,显效和控制合并为有效来计算有效率。由于病情轻的病人原来病情为1级,治愈了为0级,降低了1级,只能算改善,不可能达到显效或控制。因而,有效率的统计就会受到入组病人病情严重程度差异的影响。比较各组病人病情的不同也会影响有效率的比较。这只有采用在病人入组时,按病情分层随机化的方法来解决。
对于分层的数据应当把层作为一个因素进行分析。如用方差分析和多元回归。对于生存数据用COX回归分析等。这时把层作为协变量进行分析。
  5.一般χ2检验只用于分析计数资料:χ2分布原本由连续变量导出。但目前我们大量应用的χ2检验是应用于计数资料。计数是指清点的数目。对于分类数据是清点人数、阳性数……文献[7]是一个应用错误的例子。表7的数据是计量数据,这样算出来的χ2什么也不是。
表7新生儿接种乙肝疫苗后不同时间平均胆红素浓度
血胆红素平均值(μmol/L)
出生后时间(d) 观察组(44例) 对照组(21例)
0 18.0 17.5
3 110.0 108.0
6 151.2 148.2
9 177.0 130.3
12 168.0 66.0
15 159.3 31.0
18 126.0 20.1
21 76.3 15.0
24 36.4
27 16.0
χ2=164 04,P<0 001
  三、 临床等效性研究的统计分析
  有不少临床试验是要说明两种药物的疗效相近。这种试验常采用一般常用的统计检验方法,即无效假设为两组疗效相等而备择假设为两组疗效不等的t检验或χ2检验等。实际上,这种检验方法只能作出2组不相等的结论,但不能得出两组“相等”(相近)的结论,这尤其表现在当样本量很小时假阴性率会很高,得出的结论很可能是一个假阴性。在生物等效性的研究中美国食品及药物管理局(FDA)和其他一些机构最早采用的也是这种方法,后来发觉其错误,自1986年起采用了以2组疗效不同为无效假设而备择假设为两组相近(差值不超过某一标准)的检验方法。这就是双单侧检验和计算90%可信区间的方法,这样在否定了无效假设之后才能作出两者疗效相近的结论。
  例如,文献[11]对比了2种滴眼剂。得到P>0 05的结果。但作者并未作出两药疗效相同或相近的结论。这是正确的。然而,这样设计的目的却常常是为了说明两种药的疗效相近。这是应该用等效性检验的方法。
  四、 科研论文中应写明所用统计分析方法的具体名称
统计方法的误用在杂志上屡见不鲜。通常,在文章的材料与方法部分应当有一段专门阐明所用统计方法的内容。在发表文章时写明所用的统计方法,这样才能供审稿者或读者来判断结论是否正确可靠。例如,配对数据与成组数据的统计方法就不同。如果笼统地说用了t检验,就很难判断其正确性。可是,有些研究报告中却完全没有提到所用的是什么统计方法。例如,在文献[12]中,列出了许多P值,下了许多结论,竟完全没有提及所用的统计方法。这样怎么让读者来判断结论是否正确呢?
  五、 统计检验结论的表达
  1.差别有统计意义的表达:统计分析的结果是推翻无效假设或是不能推翻无效假设。无效假设在一般的统计检验为2组总体参数相等。推翻无效假设只能说2组总体参数不相等而并不能说2组相差很大。2组相差如何要对可信区间进行研究观察后得出。由于统计检验不能得出差别的大小,因而结论不能说“有明显差异”或“有显著差异”,也不能说“差异非常显著”,更不能说“差异明显”。在国外的统计书籍上的英语表达为“significant”,它的正确意义应当是“有意义的、有重要性的”。俄语为Значмый和日语中的“有意”也是这个意思。国内只有极个别的英汉词典把“significant”误译为“显著的”。正确的说法应当是“差异有统计意义”或“差异有高度统计意义”等。在《中华医学会系列杂志对来稿中统计学处理的有关要求》中对此也有说明。
   文献[15]中有这样一段说明:“丙酸倍氯米松组患者吸入糖皮质激素后,其气道反应性有显著降低(P<0.05),而安慰剂组气道反应性无明显变化(P>0.05);对照组治疗前后气道反应性无明显变化(P>0.05,)。这显然是把统计意义和差别的大小混为一谈了。
文献[16]总结了1984年6月至1998年12月手术治疗的肝内胆管结石640例。文中有一段说明为:“肝切除术后残石率(7.8%)明显低于胆道探查组(69.3%),差异有非常显著意义(P<0.005),左肝管术后残石率明显低于右肝管或左右肝管,差异有非常显著意义(P<0.005)。516例获0.5~5年随访,优良率为87 4%,397例获6~12年随访,术后优良率为82.1%。结论:肝切除术和自体组织修复术明显优于其他术式,左肝管结石的手术效果明显优于右肝管和左右肝管结石。”
  2.P值的表达:《中华医学会系列杂志对来稿中统计学处理的有关要求》中对统计结果的解释和表达要求之一为:“应尽可能给出具体的P值(如:P=0.0238)”,但目前大多数的文献中都只用P<0.05等形式的说明。
  3 列出统计检验结果时应同时列出可信区间:研究结果需要了解差异的大小。但是,如前所说,统计检验结果只能说明有无差异而不能说明差异的大小。只有可信区间可以表达总体参数差异的大小。因此,当涉及到总体参数(如总体均数、总体率等)时,在给出显著性检验结果的同时,应当再给出可信区间,一般为95%可信区间。因而,文献[17]中提出:“对治疗作用的评价应将可信限与显著性检验的结果一并考虑”。

金丕焕中著
华预防医学杂志2001年11月第35卷第6期