Statistics

临床论著中常见的统计分析缺陷

临床论著中常见的统计分析缺陷

  统计分析在临床论著中的应用状况是评价临床科研质量的重要依据,受到了国内外学者的高度重视[1~5]。然而,近几十年来,统计分析应用缺陷问题一直居高不下,国外学者认为,统计分析应用缺陷率在50%以上的医学期刊绝非少数,有的高达70%以上,甚至100%。方亚等[4]对中华内、外、妇、儿及中华医学杂志1987年刊载的309篇论著文章的分析认为,统计推断应用不合理的论著占44.6%(不包含“统计检验方法不明确”的缺陷)。作者及同事,对上述五种期刊1985~1995年间刊登的1316篇论著文章调查表明:有统计推断的论著中,至少62%存在一处统计学缺陷。进一步考察统计分析缺陷类型,国内外学者一致认为:不适合的应用t检验、χ2检验占绝大部分比例。不适合t检验的主要原因:其一,不考虑研究设计类型。如多因素研究设计、单因素多组完全随机设计或配对研究设计,采用成组t检验;其二,明显非正态分布或小样本方差不齐时,未经适当数据转换而采用成组t检验。不适合χ2检验的主要原因:其一,不考虑研究设计类型。如嵌套设计采用一般χ2检验;其二,目的是比较孰优孰劣的两组或多组等级分类资料,选用χ2检验;其三,样本例数偏小,不符合χ2检验条件仍用χ2检验。中华儿科杂志是我国医学界具有较大影响的权威期刊和统计分析误用较少的优秀期刊之一。也是评价国内临床科研论文统计学应用状况经常选用的典型调查对象之一。鉴此,作者结合中华儿科杂志1994~1995年刊载论著中发现的几个常见的统计推断缺陷进行评析,供读者、作者参考,以减少类似错误,提高期刊论文质量。

例1 《巨细胞病毒性肝炎特异性IgG亚群及临床意义》,原文数据结果如表1。
表1两组患儿抗CMVIgG亚群值比较(x±s,A492nm)
组别              例数           Ig1              Ig2              Ig3             Ig4
肝炎组             21       0.46±0.78  0.12±0.32  0.26±1.28  0.09±0.37
无症状组         10       0.81±1.23  0.15±0.19  0.94±2.00  0.13±0.16
t值                                3.49               1.47                4.20                1.36 
P值                               <0.01              >0.05             <0.01              >0.05

  统计分析:目的是比较两组患儿IgG1、IgG2、IgG3、IgG4指标有无差别,选用两均数比较的t检验(成组t检验)。
  评析:成组t检验应用时有三个条件:(1)样本为独立随机样本;(2)来自正态分布总体;(3)总体方差相等。
  如果两样本均来自正态总体的独立随机样本,则样本值的分布必然有较好的对称性,同时,x±s应包括含样本量的70%左右,x±2s应包含样本量的95%左右,x±3s应包含几乎全部的样本值(亦称正态分布的3σ特性)。由表1知,无论是肝炎组、无症状组四个指标的样本均数(x)均小于样本标准差(s),因各指标值不会出现负数,所以x±s区间已包含x左侧的全部样本点,说明指标均明显不具备对称性,可能为正偏态分布。另外,仅就IgG4而言,即使服从正态分布,肝炎组与无症状组方差,经方差齐性检验(F=5.35,P<0.05),认为二组间方差不齐(不等),因此,选用成组t检验不合适。
上述问题,正确的统计分析方法可选用成组秩和检验(Wilcoxon rankedsum检验),中位数检验或经适当数据转换(如对数变换)后再作成组t检验等。例2
《肺表面活性物质治疗新生儿呼吸窘迫综合征》,原文数据结果如表2。
  统计分析:目的是比较治疗组与对照组患儿在治疗过程中PaO2有无差别。选择成组t检验,对治疗前后各时点作两两比较。
  评析:上述数据资料,属一种治疗效果的时间序列比较,为双因素研究设计,其中干预因素分为二个水平(治疗组与对照组),时间因素有9个水平。因此,合理的统计分析方法,可选用时间序列比较的因素分析法,既可全面分析药物、时间因素的效应作用,又可分析药物、时间因素的交互效应作用。由于还可以将个体变异(配伍因素)从误差中进一步分解出来,提高了统计检验的效率,见文献。
  本例选用成组t检验缺陷是使第一类错误增大,即可能把本来无差别的两个总体均数判为有差别,且降低了研究设计的效能。
例3 《中西医结合治疗再生障碍性贫血疗效观察》,原文数据及分析结果见表3。
  统计分析:目的是疗效评价。选用两个率比较的χ2检验分别对SAA型和CAA型及合并情况下的A、B两种治疗方案的病死率与有效率进行比较。
评析:首先,据表3,再生障碍性贫血治疗效果按临床划分为死亡、无效、进步等五个等级,目的是比较治疗效果的优劣,因此,选用χ2检验肯定不妥,原因是χ2检验是一种分布拟合检验,不能作为事物优劣比较的检验工具,另外,原文分析时将进步、缓解、基本治愈合并为有效,按有效率和病死率分别作χ2检验,这种数据合并的处理方法是不提倡的。假如抛开其研究设计类型,分析这类等级分类数据的最好方法是选用Ridit分析,秩和检验。
其次,本研究属嵌套设计(nested design)即属组内分组设计资料,原文分别按SAA、CAA型及合并情况下,分别作统计分析,不仅增大了第一类错误,而且极易给结果解释带来混乱。所以适合的方法应选用嵌套设计统计分析检验,见文献。
  有学者估计,临床科研中如果能够很好地消除不适合的t检验及不适合的χ2检验,则居高不下的统计误用率必会发生戏剧般变化。其实,上述均非深奥的统计学问题,正确解答方法在一般教科书或教学参考书中均可查阅到。为防止误用,研究者应结合研究目的、研究设计类型、数据结构特征、样本大小和各种检验统计量的适用条件与适用范围来确定合适的统计分析方法,必要时,可向科研经验丰富的同事或统计学专业教师咨询。事实上确有一批临床科研工作者十分注重统计分析的正确使用,从而保证其研究结论的真实可靠性。例如中华儿科杂志1995年第33卷第2期第75页刊登的《慢性心力衰竭时β受体密度变化及药物干预的研究》,原文先对数据作正态性与齐性检验后,再相应选用t检验、方差分析及t′检验,说明临床科研工作者正确选用统计学方法,不是一件高不可攀的难事。

毛宗福 陈捷著
中华儿科杂志1998年7月第36卷第7期