Statistics

如何在论文中正确表达和解释统计结果

如何在论文中正确表达和解释统计结果

  医学论文中的结构主要由摘要、引言、材料与方法、结果、讨论5个部分组成。据我们的粗略统计,医学期刊发表的研究论著,2/3以上涉及统计结果的表达和解释问题。例如在论文的“摘要”部分,要报告处理组和对照组的均数(中位数、率)、标准差(标准误)、P值、两组均数(率)之差、95%可信区间(CI)、OR值及多个观察指标的相关系数等。在论文的“引言”部分,除简要说明研究背景和研究目的外,还需要给出文献复习的综合结果,如文献报告的组间差别及P值等。其他重要的统计表达和解释主要集中在论文的“材料与方法”、“结果”和“讨论”三个部分,现分述如下。

  一、“材料与方法”的统计表达
  “材料与方法”中应具体地描述研究对象的来源和选择方法,包括观察对象的基本情况、有无随机分组(随机抽样)及样本量估计的依据等。若进行了随机化分组,应说明具体的随机化方法。对于非随机化分组的观察性研究(含调查研究),除要明确说明观察对象的选择方法外(如是否配对、随机抽样),还应给出影响因素(如年龄、性别及病情)的均衡性分析结果。对于临床试验,还需要特别说明诊断标准、疗效评价标准、病例入选标准、病例剔除标准、有无失访(失访比例)、有无“知情同意”及评价疗效有无遮蔽(“单盲”、“双盲”或“多盲”)等,以使读者确认  论文中所有统计分析结果的可靠性和研究结论的合理性。
  论文中采用的统计分析方法和统计计算的软件名称也要在“材料与方法”中说明。一般的常用统计方法简单说明即可,如x2检验、t检验、单变量方差分析(ANOVA)等,对一些特殊的统计方法,如协方差分析、因子分析、生存分析及重复测量资料方差分析等,要同时给出相应的参考文献。统计计算软件一般给出名称即可,如EXCEL、SPPSS、SAS、SPLM等,但对于一些特殊的计算,要给出软件的过程名,如重复测量资料方差分析采用SPPSS/GLM,曲线回归拟合采用SPSS/Nonlinear,裂区设计统计分析采用SPLM/裂区方差分析。
  “材料与方法”中统计表达常见的问题主要有:对研究对象的来源和选择方法没有任何说明,或说明的非常简单。例如,动物实验只说明经随机化分组,未说明具体的随机化分组方法(如完全随机、配对或分层随机分组等);观察对比的研究只说明组间均衡,未给出反映均衡性的统计指标;临床试验的疗效评价只说明采用了“盲法”,未说明是受试者遮蔽还是评价者遮蔽等;统计分析方法没有任何说明,特别是一些特殊的统计方法;试验的样本量非常小,如每组2例,不说明任何理由等等。
  “材料与方法”中关于组间均衡的比较,如因素较多可用统计表的形式列出,如实例1。
实例1 为探讨Ⅱ型糖尿病患者血小板活化与微血管病变的关系,观察51例Ⅱ型糖尿病患者,其中糖尿病无微血管病变者24例,糖尿病有微血管病变者27例,健康对照组29名。各组在性别、年龄及病程等方面的情况见表1。
   表1 三组观察对象的性别、年龄及病程的比较
  观察例数
组别 例数 年龄(岁)(x±s) 病程(年)(x±s)
健康对照 29 15 14 59±10
糖尿病无微血管病变组 24 10 14 62±8 4.4±3.2
糖尿病有微血管病变组 27 19 8 67±7 6.8±3.9
  二、“结果”的统计表达
  (一)统计表的应用。
  (二)数据的精确度:计量资料的统计指标(x,s,sx,中位数及百分位数等)的保留小数位数,应该与原始数据的保留小数位数相同;计数资料的百分比保留1位小数,一般不超过2位小数;病死率、发病率按惯例选择比例基数,如1000‰,10000/万和10万/10万等,或自行选择合适的比例基数,使率的表达至少有1位整数;相关系数保留2位小数;检验统计量,如χ2值、t值保留2位小数即可。
  (三)选择最能说明问题的统计指标:计量资料常用x±s描述研究结果的数据特征,但必须注意前提是要求资料近似服从正态分布。当数据符合正态分布条件时,约有68%的观察数据在 x±s的范围内,约有95%的观察数据在x±2s的范围内。当数据不符合正态分布时,x±s就没有这些特征了。如实例2,人体血铅值的分布通常是正偏态分布,其数据特征不宜用x±s表示。由作者所给数据也可看出:新生儿血铅值x±2s的范围是0.16±2.00×0.12=-0.08~0.40μmol/L。血铅值不可能是负数!因此,表2的数据特征描述应采用适合偏态分布的中位数和四分位数间距。
  实例2 为了解儿童血铅与胎儿期铅污染的关系,对无锡市1122名1~5岁儿童和1997年11月至1998年2月出生的127名新生儿的血铅值进行测定,结果见表
表2 无锡市1122名儿童和127名新生儿血铅值测定结果(μmol/L)
组别 人数 血铅值( x±s) 血铅值≥0 483的人数
儿童组 1122 0 42±0 15 309
新生儿组 1270 16±0 12 1
  计数资料常用的统计指标有率和构成比(百分比)。医学论文中率与构成比应用的主要问题之一是分母太小。分母太小时,率(构成比)的可靠性不能保证。因此,在这种情况下,宜直接用绝对数进行描述而不宜计算相对数。应用问题之二是将构成比误用为率来说明事物发生的强度。
在临床疗效比较时还应注意,两组平均疗效有差别,并不意味着治疗组每个受试者都有效,对照组每个受试者都无效。要回答后一个问题,必须计算有效率。如比较盐酸西布曲明(sibutramine)治疗单纯性肥胖的疗效,试验24周后,治疗组和对照组的平均疗效(体重下降值kg)分别为6.80±0.31和0.48±2.60(P=0.0001)。按体重下降大于原体重的5%者为有效的疗效判定评价标准,治疗组和对照组的有效率分别为85.59%和7.84%,尽管平均疗效相差约6kg,但也要看到盐酸西布曲明对部分患者无效(14.41%)。
  (四)假设检验结果的表达1多个假设检验:主要有两种情况。一是有多个观察指标,如盐酸西布曲明治疗单纯性肥胖,观察指标有体重、体质指数(BMI)、腰围、臀围、腰围/臀围比、静息心率、收缩压、舒张压、平均血压、血常规、尿常规、血糖、胆固醇、甘油三酯、肝功能、肾功能、总体食欲、总体饥饿感、夜间饥饿感、甜味食欲、咸味食欲、显效率、有效率、无效率及不良反应发生率(口干、失眠、兴奋、眩晕、头痛、多汗、眼干、便秘、厌食、恶心、消化不良、心悸、血压升高及乏力)等30多个指标。二是一个观察指标多次重复测量,仍以盐酸西布曲明治疗单纯性肥胖为例,体重、BMI、腰围、臀围、腰围/臀围比、静息心率、收缩压、舒张压、平均血压、总体食欲、总体饥饿感、夜间饥饿感、甜味食欲、咸味食欲和体重下降值分别在治疗前及治疗后4、8、12、16、20和24周记录观察结果。各个观察指标在各个时间点治疗组和对照组的差别要进行100多次检验。该研究中将检验水准α定为0.05,即使治疗组和对照组完全没有差别,也会有5次检验结果为P<0.05,那么,实际得到的检验结果有假阳性的概率几乎是100%。一个研究中避免多个假设检验,首先在试验前要确定1个主要的疗效指标(本例应为体重),评价疗效的时间点也应事先确定,如选择治疗后24周的体重下降值。如果主要的疗效指标有k(>1)个,则实际检验水准要调整为α’=α/k(Bonferroni方法)。如本例把主要疗效指标定为治疗后24周的体重、BMI、腰围、臀围、腰围/臀围比,k=5,设α=0.05,实际检验水准为α’=0.05/5=0.01。如果在比较体重时,既要比较治疗组和对照组的组间差别,又要比较治疗前及治疗后4、8、12、16、20和24周的体重变化,须采用重复测量资料的方差分析,F检验P<0.05后,再进行均数的两两比较。
  多个相关指标的重复检验,不仅不能加强结论的可靠性,反而增加了假阳性的概率。如体重与BMI、腰围、臀围、腰围/臀围比高度相关,对BMI、腰围、臀围、腰围/臀围比的重复检验提供的组间差别信息与体重检验结果的信息有重叠。
  2 P值的表达:要逐渐改变把P>0.05记为“NS”,P≤0.05记为“ ”,P≤0.01记为“**”的传统P值的表达方式,提倡报告精确P值,如P=0.023或P=0.437等。主要理由有3个:一是选定0.05和0.01这两个界值,是因为80年前手工计算P值很困难,需要通过查界值表估计P值。现在用统计软件可自动给出精确的P值。而且一些普及软件,如EXCLE,只要提供χ2值、t值、F值和相应的自由度,即可获得精确的P值。二是研究者不能年复一年、不顾具体情况的只用一个固定的界值判断问题,应该根据自己对问题的认识程度,具体问题具体分析。例如P=0.053与P=0.049都是小概率,不能一概而论P=0.053无统计学意义,P=0.049有统计学意义。三是P值是循证医学最重要的“证据”之一,一些meta分析方法必须根据精确的P值对同类研究结果进行综合,如meta分析使用的Fisher法。因此,如果提供精确P值实在有困难,应给出实际的χ2值、t值或F值,以便他人在meta分析时转换为精确的P值。
  三、统计结果的解释统计结果的解释主要集中在论文的”讨论”部分。
  1.假设检验结果的解释:假设检验是在“无效假设”正确的前提下(如施加干预以前,组间无差别,或观察对象来自同一总体),用P值大小说明实际观察结果是否符合“无效假设”。P值小(如P<0 05),则怀疑“无效假设”的正确性;P值大(如P>0 05),则不能拒绝“无效假设”。但不能把P值理解为处理无效的概率。
  P值大小只能说明统计学意义的“显著”,不说明实际效果的“显著”。以临床试验为例,临床疗效“显著”的处理,当观察例数很少时,P值可能很大(统计“不显著”);反之,临床疗效“不显著”的处理(如新药比对照药有效率仅提高了0.1%),当观察例数很大时,P值可能很小(统计“显著”)。因此,对于P值的解释一定要结合专业知识,并且用两均数(率)之差的可信区间反映出实际差别的大小。实例3就是把统计“显著”和专业“不显著”混淆了。χ2=53.13,P<0.01的统计结论是拒绝H0:“两种诊断方法无关联”,是统计“显著”。两种诊断方法实际存在的差别在临床上是否可以忽略不计(诊断效果的差异“无显著”意义),还须经过配对χ2检验(笔者计算:χ2=0.0909,P=0.76),再通过专业知识给出专业上差别“不显著”的结论。
  实例3为探讨结直肠癌相关细胞膜表面抗原检测试剂盒的诊断价值,对经病理诊断确诊为结直肠癌的患者56例和其他各种疾病患者40例,用试剂盒进行诊断,结果见表3。经χ2检验,该试剂盒诊断结果与病理诊断结果比较,差异无显著意义(χ2=53.13,P<0.01)。
表3 病理诊断与试剂盒诊断结果比较(例数)
诊断试剂盒诊断
病理 阳性 阴性 合计
阳性 50 6 56
阴性 5 35 40
合计 55 41 96
  2.关联和因果的解释:对于随机化的试验,由于随机化分组保证了“无效假设”的正确性,P值大小可以用来推论处理(干预)对试验结果的影响是因果关系(causation)。但对于非随机化的观察性研究,因为没有合理的“无效假设”(如“H0:肥胖患者和非肥胖的对照来自同一总体”显然不合逻辑),P值当然也不说明实际观察结果与“无效假设”的吻合程度。因此,观察性研究的组间差异解释为关联(association)较为稳妥。关联的结论意味着可能有因果联系,也可能没有,需要进行更深入地研究。例如,有人曾观察到眼晶状体后纤维增生的新生儿,注射促肾上腺皮质激素后,治愈率为75%,说明促肾上腺皮质激素与患儿治愈有关联(前后比较,P<0.01)。再进行前瞻性的临床试验,发现患儿脱离富氧环境后,75%的患儿自然痊愈(组间比较,P>0.55),注射促肾上腺皮质激素与患儿痊愈有因果联系的证据不足。
徐勇勇 赵清波著
中华预防医学杂志2002年7月第36卷第4期