Statistics

统计方法在科技论文写作中的正确应用

统计方法在科技论文写作中的正确应用

  医学统计方法广泛应用于医学科学研究。但是由于许多医学科研工作者对统计方法的正确应用缺乏足够的知识,在实际应用时出现了不少问题,影响了结论的可信性。应杂志之邀,我们对医学科研论文中经常出现的统计问题进行了归纳整理,列举如下,希望能引起医学界同仁的重视。
  一、 研究所用的统计方法交代不清或根本不予交代
  正规的医学科学研究应有严格的实验设计和明确的统计方法,文章应将研究所用的统计方法交代清楚,比如,是配对设计的t检验还是成组设计的t检验,是方差分析还是卡方检验,是作相关分析还是作回归推断。由于不正确的统计方法会得出错误的结论,所以统计方法交代不清或根本不予交代,会使读者对文章结论的正确与否无法判断。这个问题最为突出,至少占一半以上。作者常常只提一句“经统计学处理”后,就写出结论。有的甚至干脆不提“统计”二字,直接用P值说明问题了事。文献[1]拟对两组蛛网膜下腔出血(SAH)患者(DCVS组和非DCVS组)发生DCVS的临床相关因素进行比较。据文章内容应是对两组率的差别作比较。但作者并未写明具体的统计方法,而只在比较两组性别和年龄的差异时提到一句“经统计学处理”无差异,其余的比较均只标明了P值。笔者试用卡方检验验算一些指标,发现计算结果与文中的结果有很大的出入。以SAH再发因素的比较来说,DCVS组28例中有4例SAH再发,非DCVS组有3例SAH再发。经SAS6.11版计算,其P=0.039。并不象文中所示的P<0.01。而且,验算发现有理论数小于5大于1的情况,经连续性校正卡方计算显示P=0.107>0.05。结果与文中结论截然相反,手工验算亦是如此。让人怀疑文中结论的正确性。正确的作法应写明具体的统计方法,如有特殊情况,还应分析是否需要校正,这样才能令读者信服。另外,严格来说,应写明精确的统计量值和P值,不应笼统地以P>0.05或P<0.05代替。
  文献[2]也存在这个问题。该文以脑胶质瘤患者的一些指标与正常对照比较,以脑胶质瘤局部浸润的单个核细胞的一些指标与正常对照作比较。据文意应为成组设计的t检验,但作者在对实验方法详加描述后,却通篇未提及“t检验”三字。只在外周血淋巴细胞计数的比较时说:胶质瘤患者PBL数量较正常人显著减少,两者之间的差异具有显著性(P<0.005)”,其余各项的比较均照此写出。
  让人无从查验。其实只要在前面加上“经成组t检验”及t值,文章就显得清楚规范。类似的问题在文献[3]中同样存在,该文拟对使用Gd-DTPA(国产顺磁性磁共振造影剂)前后磁共振成像(MRI)对颅底和椎管疾病的检出率的影响,据文章内容应该用配对卡方检验。但文章中只在写出MRI平扫(未用Gd-DTPA)法对肿瘤和瘤周水肿的识别率54%与用Gd-DTPA增强后对肿瘤和瘤周水肿的识别率85%后就写出两者之间有显著差异(P<0.01),让人无法对其验证。为更规范起见,应写明经配对卡方检验,两种方法对肿瘤和瘤周水肿的识别率差异有统计学意义。
  二、 使用某种统计方法时不考虑其应用条件或应用的统计方法不能用来说明后面的结果
  每一种统计方法都有其适用条件。倘用算术平均数表示数据的平均水平,应首先确定数据为正态分布。如果数据呈偏态分布,则应用中位数表示其平均水平,相应地用四分位数间距表示其离散度。t检验法要求样本取自正态总体,作两样本均数比较时还要求方差齐。如果不符合这些条件,则应考虑进行数据转换或用非参数检验。但某些医学科研文章不考虑数据分布形式,一律用算术均数和标准差表示其平均水平及离散度,一律用t检验进行均数间的比较。文献[4]描述22例情感性障碍患者年龄的平均水平和离散度时用x±s=29±11表示,而事先并未说明年龄属何种分布,病程5天至24年的平均水平和离散度也如是表示为3.1±6.3年。这种标准差接近或大于均数的数据显然属于严重的正偏态。利用此种表示无疑会给读者造成错觉。同是此文,在未说明数据分布的情况下,又直接进行了t检验。
  统计学中,t检验只能用于三个方面:1样本均数与总体均数比较;2配对设计的差值均数与总体均数比较;3成组设计的样本均数比较。而不能用于三组间或三组以上间的比较。文献[5]说明了用成组设计的t检验,结果却指出:三组间MT含量无显著性差异(P>0.05)”,即使资料符合t检验的条件,但是三组间比较的结果用前面指明的统计方法是得不出的。
对三组间或三组间均数或分布的比较可以用以下方法;1如果各样本来自正态总体,且方差相差不大,可用方差分析;2如果各样本分布不清或分布不明,则可考虑用非参数检验中的秩和检验。
  三、 统计基本概念不清,误用统计方法
  成组设计的t检验并不要求两样本的例数相等。文献[6]在讨论“如按年龄分组比较,则组氨酸浓度的变化无显著性意义(P>0.05)”时指出“可能与小于40岁对照组例数少引起统计学上的误差有关”,此说值得推敲。
  在作各种各样的统计推断时,对样本的例数也有一定的要求。一般认为,样本例数过少,所得到的数值是不稳定的,不能轻易地下结论,但文献[5]却在“测定了三组培养细胞各2例”的前提下,便作出推断。其推断是要进一步考虑的。
  另一常见的统计问题是多组间比较时的两两比较问题。统计学上,三组或以上的比较称为一揽子比较,在作这种比较时,应先将所有的组一起比较(方差分析或非参数检验)。在得出差别有统计学意义的基础上,再进一步作两两比较(如Q检验法等)或多个处理组与同一对照组比较(Dunnett法等)。文章中常见的错误是将二组或以上组拆开分别作两两t检验以比较差别,如文献[4]拟对治疗前与治疗后1、3、6周的T3、T4、TSH水平进行比较时,治疗后三组与治疗前的比较用两两t检验解决,是错误的。
  四、 统计说法不严格
  统计学上对差异作是否有显著性意义的推断与日常生活中对差异作是否显著的推断完全是两个概念。主观感觉两个样本均数间的差异并不显著而统计学上作出差异有显著意义的推断,主观感觉两个样本均数间的差异很大(显著)而统计学作出其间差异无显著意义的推断的都是可能的。所以医学科研文章在做统计推断时,不宜写容易与日常生活判断相混淆的字句如差异显著或差异非常显著等等。现在统计学界大多认为用差异有无统计学意义较为清楚明白。
  以上列举的问题,均是一些基本的统计错误,在临床医学研究杂志中,经常可以见到此类错误。某些杂志编辑及临床医生们可能认为只要临床研究的水平高,统计差一点无所谓。事实上,没有扎实的统计基本功,很难让人相信其能做出很好的研究,也很难将做出的结果正确展示于人。编辑或医生们应掌握更全面的统计学知识,也希望编辑和研究人员能与统计学专业人员在实验设计和统计分析的各阶段进行密切合作,以进一步提高科研水平。
  应杂志之邀,整理出此文。说明统计学问题正受到广大临床医务工作者的重视,此诚可喜可贺。愿以此文与医界同仁互勉互励,把杂志办得更好。

汪涛 金丕焕著
中华神经科杂志1997年2月第30卷第1期