Research

临床科研中统计方法的正确抉择

临床科研中统计方法的正确抉择
刘关键 王家良 康德英 洪 旗
华西医科大学第一临床医学院临床流行病学教研室

  摘要: 本文对临床科研工作如何正确地选择统计方法, 提出了一套较为严谨而又容易被临床医生和研究者所掌握的思路, 即在临床科研中, 应从研究者的分析目的、所得资料的类型、科研设计的方法及数理统计应用条件, 这四个方面着手进行全面考虑, 才能达到正确地选择统计方法的目的。
  关键词: 医学 统计方法 选择

  医生在给病人开处方时, 必须熟悉药物适应症和禁忌症, 并针对患者的具体病情选用药物。在临床科研工作中,统计方法的正确选择, 与临床医生选用药物相似, 要求使用者必须熟悉统计方法的应用条件, 方能针对资料的特点进行正确选择。
  在临床科研工作中, 若要正确的抉择统计分析方法, 应充分考虑科研工作者的分析目的、临床科研设计方法、搜集到的数据资料类型、数据资料的分布特征与所涉及的数理统计条件等。如果这些问题没有考虑或考虑有误, 都有可能导致统计分析方法的抉择失误。从而导致错误的结论。
  统计分析方法的抉择应在科研的设计阶段来完成, 而不应该在临床试验结束或在数据的收集工作已完成之后。
  一般来讲, 在统计方法抉择时, 应考虑下列因素:

  1  分析目的
  对于临床医生及临床流行病医生来说, 在进行统计分析前, 一定要明确利用统计方法达到研究者的什么目的。一般来说, 统计学方法可分为描述与推断两类方法。统计描述, 即利用统计指标、统计图或表, 对数据资料所进行的最基本的统计分析, 使其能反映数据资料的基本特征, 能准确、全面地了解数据资料所包涵的信息, 以便对资料做进一步的分析。如均数、标准差、率及构成比等; 统计推断, 即利用样本所提供的信息对总体进行估计, 其中包括参数估计和假设检验。
  若要分析甲药治疗与乙药治疗两组的疗效是否不相同、不同地区某病的患病率有无差异等, 可用假设检验的统计方法。此外, 若要研究某些因素间的相互联系时, 可用关系分析, 以相关系数来衡量各因素间相关的密切程度和方向, 如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析, 若要研究某个因素与另一因素(变量) 的依存关系, 即以一个变量去推测另一变量时, 可用回归分析, 如利用回归分析建立起来的回归方程, 可由儿童的年龄推算其体重。

  2  资料类型
  统计分析的目的是面对不确定的数据信息, 做出科学的推断或结论。因而要对数据资料进行类型划分就显得尤为重要。资料类型的划分现多采用国际通用的分类方法, 将其分为两类: 数值变量资料和分类变量资料。数值变量是指其值是可以定量或准确测量的变量, 其表现为数值大小的不同; 而分类变量是指其值是无法定量或不能测量的变量,其表现没有数值的大小而只有互不相容的类别或属性。分类变量又可分为无序分类变量和有序分类变量两小类, 无序分类变量表现为没有大小之分的属性或类别。
  如: 性别是两类无序分类变量, 血型是四类无序分类变量; 有序分类变量表现为各属性或类别间有程度之分,如: 临床上某种疾病的“轻、中、重”,治疗结果的“无效、显效、好转、治愈”。由此可见, 数值变量资料、无序分类变量资料和有序分类变量资料又可叫做计量资料、计数资料和等级资料。

    

  统计方法的抉择与资料类型有关,在多数情况下不同的资料类型,选择的统计方法不一样。如数值变量资料的比较可选用t 检验、u 检验、方差分析等统计方法;而率的比较多用x2检验。有些临床科研工作者,由于资料类型的误判而导致统计方法的抉择失误,最常见的错误是将数值变量资料错判为分类变量资料。
  资料类型的判断应从观察单位(研究者根据研究目的确定的最基本的观察对象) 入手,若每个观察单位都有一个数值,而无论这个数值是具有度量衡单位,还是没有度量衡单位(如:国际单位、率、百分比等) 的资料都是数值变量资料;若每个观察单位只有属性或类别之分,而没有数值的资料都是分类变量资料。如:白细胞分类的计数,若是以白细胞为观察单位,则每个白细胞只有属性或类别(如嗜中性、嗜酸性、嗜碱性等) ,而没有确定的数值,故此时应判为分类变量资料;若是以人为观察单位,则每个人都有白细胞的分类百分比值,如:嗜中性、嗜酸性、嗜碱性白细胞的百分比或淋巴细胞百分比等,故此时应判为数值变量资料。
  值得注意的是,有些临床科研工作者,常常人为地将数值变量的结果转化为分类变量的临床指标,然后参与统计分析,如患者的血红蛋白含量,研究者常用正常、轻度贫血、中度贫血和重度贫血来表示,这样虽然照顾了临床工作的习惯,却损失了资料所提供的信息量。换言之,在多数情况下,数值变量资料提供的信息量最为充分,可进行统计分析的手段也较为丰富、经典和可靠,与之相比,分类变量在这些方面都不如数值变量资料。因此,在临床实验中要尽可能选择量化的指标反映实验效应,若确实无法定量时,才选用分类数据,通常不宜将定量数据转变成分类数据。

  3  设计方法
  在任何具体的临床科研设计中,都应考虑其设计所获得资料的统计方法。因此, 统计方法的抉择切不可在获得资料结果后才考虑统计学的处理。在众多的临床科研设计方法中, 每一种设计方法都有与之相适应的统计方法。因此,在统计方法的抉择时, 必须要根据不同的临床科研设计方法来选择相应的统计分析方法。如果统计方法的抉择与设计方法不一致, 统计分析得到的任何结论都是错误的。
  在常用的科研设计方法中, 有成组设计(完全随机设计) 的t 检验、配对t 检验、成组设计(完全随机设计) 的方差分析、配伍设计(随机区组设计)的方差分析等, 都是统计方法与科研设计方法有关的佐证。因此, 应注意区分成组设计(完全随机设计) 与配对和配伍设计(随机区组设计) , 在成组设计中又要注意区别两组与多组设计。最常见的错误是将配对或配伍设计(随机区组设计) 的资料当做成组设计(完全随机设计) 来处理, 如配对设计的资料使用成组t 检验、配伍设计(随机区组设计) 使用成组资料的方差分析; 或将三组及三组以上的成组设计(完全随机设计) 资料的比较采用多个t 检验、三个或多个率的比较采用四格表的卡方检验来进行比较, 都是典型的错误。如下资料:

  

  此例是三组的成组设计,若要比较三组有无差别时,应使用方差分析或三组的秩和检验,若有统计学意义后,再进行方差分析或秩和检验的两两比较,而不能简单地使用三个t 检验来进行比较。

  4  资料的分布特征
  在数理统计公式推导和建立的条件中,涉及最多的是数据的分布特征。数据的分布特征是指数据的数理统计规律,许多数理统计公式都是在特定的分布下推导和建立的。若实际资料服从某个分布,我们就可以使用该分布所具有的数理统计规律来分析和处理实际资料,反之则不能。
  例如:在临床科研中,许多资料的描述不考虑资料的分布特征,而多选择均数与标准差。如某妇科肿瘤化疗前的血象值,资料如表2。

  从上结果可见,若只看三项指标的均数和标准差,临床医生也许不会怀疑有问题。但是经正态性检验,血红蛋白服从正态分析,而血小板和白细胞经正态性检验,两项指标的偏度和峰度系数均不服从正态分布( P < 0105) 。因此,描述该资料的血小板和白细胞平均水平正确的指标是中位数,而其变异程度应使用四分位数间距。
  此外,关于标准差大于均数的原因有两个,一是由于不考虑资料的分布特征,错误地用均数和标准差描述偏态分布的资料;二是某些资料确实可出现此种情况,对此本文不过多地讨论,只对第一种情况加以说明,如表3。

  该资料的标准差大于均数,其原因是不服从正态分布(正态性检验偏度和峰度系数的P < 0105) ,错误地使用均数和标准差描述所致。正确的方法是用中位数描述其平均水平,用四分位数间距描述其变异程度。
  综上所述,临床资料的统计分析过程中,应考虑资料的分布特征,最起码的要求是熟悉正态分布与偏态分布。

  5  数理统计条件
  数理统计和概率论是统计的理论基础。每种统计方法都要涉及数理统计公式,而这些数理统计公式都是在一定条件下推导和建立的。也就是说,只有当某个或某些条件满足时,某个数理统计公式才成立,反之若不满足条件时,就不能使用某个数理统计公式。例如:成组设计的t 检验要求正态分布和方差齐性,卡方检验对理论数大小和样本含量有要求等。总之,对于临床科研工作者来说,为正确地进行统计方法的抉择,首先要掌握或熟悉上述影响统计方法抉择因素;其次,还应熟悉和了解常用统计方法的应用条件,不考虑应用条件是滥用统计方法。

  6  参考文献
  1 杨树勤主编: 《卫生统计学》第三版. 人民卫生出版社, 1996 , 9。
  2 方积乾、徐勇勇、余松林等编著: 《医学统计学与电脑实验》。上海科学技术出版社, 1997 , 4。
  3 蒋知俭主编: 《医学统计学》。人民卫生出版社。1997 , 8。

《华西医学》