Statistics

临床科研统计方法与选择

临床科研统计方法与选择

  临床科研中数据的处理和统计方法是临床研究得出结论的步骤之一。而描述临床数据,应用正确的统计方法是获得正确的临床科研结果的前提。本文从描述数据到统计方法的选择介绍临床科研论文中常用的统计方法、基本概念。
  一、数据的种类
  1.数据种类:
  临床上的数据通常可简单地分成计量资料、等级资料和分类资料(计数资料)三种类型。计量资料指连续的数据,通常有具体的数值,如身高、体重、血压、血红蛋白、胆红素和白蛋白等。等级资料指有一定级别的数据,如临床疗效分为治愈、显效、好转、无效,临床检验结果分为-、+、++、+++,疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等,等级资料又称为半定量资料。分类资料指各数据之间没有顺序或等级关系,而是归于一定属性,可以是两类,也可以是多类。如性别资料,按男性和女性分类,计算男性与女性各有多少例;职业资料,按工人、农民、职员等归类,计算各自的例数;随访结果资料,按生存或死亡归类,计算各自的例数;接受干预措施资料,按用试验药物、用安慰剂归类;是否存在吸烟、饮酒、幽门螺杆菌(Hp)感染等暴露因素,按吸烟、不吸烟,饮酒、不饮酒,Hp(+)、Hp(-)归类等。
  2.数据的类别转换:
  计量资料可以根据需要或一定的标准分成两个或数个等级而变成计数或等级资料。如年龄资料是计量资料,但可以按大于65岁、45~65岁、小于45岁分为老、中、青年3类而转变为等级资料或计数资料。但需要注意的是:①计量资料转换为等级资料或计数资料比较简单,但从等级资料或计数资料就无法再转换成计量资料,因此,在临床上收集数据或计算机储存数据时,应考虑收集或储存计量资料,只有在数据处理时根据需要再转换为等级资料或计数资料。②对两组病人的某项指标进行统计学检验时,数据从计量转换为计数或等级资料,统计的效率也可能下降。
  二、数据的统计描述
  对于临床研究数据,通常我们不可能在论文中或在报道时告诉读者每一个病人的具体特征。我们需要知道这批数据的特征,一方面便于描述,另一方面便于两组数据或特征的差异比较,这就是统计描述。
  1.计量资料(数据)的统计描述:计量资料的特征通常包括中心位置与离散程度。中心位置通常用均数来描述,如一组病人的年龄、体重、血红蛋白、白蛋白、胆红素、肌酐和尿素氮等,要求是这类数据应该服从正态分布;如果数据经对数转换后呈正态分布,则可以用几何均数表示其中心位置,如HBsAg滴度(1∶8,1∶16,1∶32,1∶64);对于偏态数据,通常用中位数表示其中心位置,加研究急性肝炎时ALT、AST等范围从数十到上千变动较大,且每个病人的变化情况不一致。正态分布的数据离散程度可用标准差来描述;对于偏态数据,可以用4分位范围(inter quartie range, IQR)描述离散程度,即:IQR为第25百分位数(P25)~第75百分位数(P75)。
  2.计数资料(数据)的统计描述:计数资料在分类时可以计算各类别在总数中的比重或百分比,称为构成比,如性别资料,100例病人中,60例男性,40例女性,可表示为男性占60%,女性占40%;如果数据分为发生或不发生,如死亡、患病等,则可计算其死亡率、发病率等指标,表示其发生的强度,称率。构成比一般不能说明发生强度。临床上有很多率实际上只是个比例(构成比)。如患病率是一个比例,由于历史原因,仍称为患病率。所以不能将构成比混为发病率来说明发生强度。当两个率进行比较时,如果某一指标足以对率的大小有影响(如年龄对死亡率),而该指标的组成(如年龄构成)在两组内不同,则需要对该指标进行标准化。
  统计描述:根据数据可以用构成比或率来计算。如临床疗效可表示为治愈率、好转率等。腹痛根据程度分为无、轻、中、重,可计算各程度的构成比。即用各种程度病人数除以总病例数,各构成比之和应为100%。4.比数、优势比、相对危险度:在病因学研究中,是暴露因素与疾病之间的联系强度的指标。比数是阳性率与阴性率之比。相对危险度(RR)是两种暴露条件下发病率之比,如研究Hp感染与胃癌的关系,采用前瞻性队列研究,按Hp(+)与Hp(-)分为2组观察若干年后胃癌的发生率,计算两组的发病率之比即估计相对危险度。优势比(OR)是在病例对照研究中表示暴露与疾病发生之间的相关程度,是RR的近似值,如同样研究,采用病例对照设计,按胃癌与非胃癌分为两组,调查两组病人发病前Hp感染情况,评价Hp感染与胃癌之间的关系需用优势比。
三、定量数据的统计学检验
  临床研究中要进行两个样本或多个样本间差异的统计学检验,以判定差异是真实存在或者由于抽样误差引起。
  1.t检验与方差分析:对于分组呈正态分布的定量资料,如为两组比较,可用t检验。t检验有2种方法,取决于资料是成组比较还是配对比较。临床科研中对每一病人治疗前后的比较:如应用利胆药物后胆红素水平前后的比较;应用保肝药物后白蛋白水平的前后比较等多属于配对比较。临床上许多研究无法配对,如新药与对照药物的比较,通常都是治疗组与对照组进行成组比较。在选用t检验时,这两种t检验的方法是不同的。
对两组以上(多组)资料比较,则选用方差分析;方差分析也有二种方法,取决于研究设计。如研究血液放置时间对血糖测定值的影响,对8名健康人抽血后将每一个体的血液分为4份,分别放置0、45、90、135min后测定血糖浓度,这种设计每4份血糖测定值均来自同一个体,称为随机区组随机,需要用随机区组分差分析。同样,如果我们的目的是比较三种不同降血糖药物的治疗效果,采用随机化方法将病人分为三组,每种药物应用于一组病人,三组病人最终的血糖比较则用完全随机设计方差分析。需要注意的是,各组样本含量相等与不相等时,由于组间离均差平方和计算方法略有差别,所选用方差分析计算公式也不一样。
需要指出的是,配对或配伍组设计比成组或完全随机设计的优点是对某一因素进行控制,如上述4份血糖结果,除了放置的时间外,其余因素都一样(来自同一人),从而减少了偏倚误差,提高统计效率。
  在进行方差分析时,如对A、B、C三种药物的疗效进行比较时,无效假设为三组疗效相同,即HO:A=B=C,差异有统计意义而推翻此无效假设时,其备选假设H1为三种药物的疗效全不相同或不全相同,这时并不能区分是哪两种药物疗效相同,哪两种不同。一种自然的想法是不做方差分析而直接做三个t检验,即检验A=B、A=C、B=C,由此直接得出结论。从统计学角度看,这是不正确的,因为它增加了第一类错误,即假阳性错误的概率。这时统计上有意义的临界值概率α,已超过α=0.05的标准,因而是不可取的。
比较合理的方法是在方差分析后作多重比较(两两比较)。多重比较的方法很多,常用的有SNKSNK(Student New man Keuls)法、Duncan法、LSD法以及Dunnett法等。应用t检验和方差分析的前提是:①小样本时,无论t检验或方差分析,对数据的要求均应是正态分布,资料正态性问题可以用频数图考察或正态检验;②成组t检验和方差分析要求各组的样本方差间差异无显著性(方差齐性)。两组方差齐性检验可以用F检验;多组方差齐性检验可以用Bettlett检验。
  2.数据转换:如果数据属于某种特殊分布或数据具有一定特征,经过一定转换后可转换成正态或方差齐性,则分析效果更好。如水中细菌数、单位时间放射性计数等符合普松分布,数据可通过平方根转换;非传染病患病率、白细胞百分数、淋巴细胞转换率、钡条胃排空检查的残留率等符合二项分布,数据可通过平方根反正弦函数转换;滴度资料等可通过对数转换。
  3.非参数统计:非参数统计也针对两组或多组计量资料的比较,当t检验或方差分析的前提条件不能满足而对数据的总体分布不能确定或没有适当的转换方法时,可以用非参数统计方法。相应于参数检验、配对比较的设计,非参数统计采用符号等级检验(Wilcoxon法);两组比较采用两样本等级和检验(Wilcoxon Man and Whitne ranksum法)或中位数检验;配伍组设计比较采用M检验(Friedman法);多组比较采用H检验(Kruskal
表1 计量资料比较时参数与非参数统计方法选择
设计方法 参数统计* 非参数统计**
配对比较 配对t检验 符合检验,符号等级检验(Wilcoxon)
两组比较 成组比较t检验 两样本等级和检验(Wilcoxon Mann and Whitney),
中位数检验
配伍组比较 随机区组方差分析 M检验(Friedman法)
多组比较 完全随机设计方差分析 H检验(Kruskal and Wallis)

设计方法 参数统计* 非参数统计**
配对比较 配对t检验 符合检验,符号等级检验(Wilcoxon)
两组比较 成组比较t检验 两样本等级和检验(Wilcoxon Mann and Whitney),
中位数检验
配伍组比较 随机区组方差分析 M检验(Friedman法)
多组比较 完全随机设计方差分析 H检验(Kruskal and Wallis)
  *应用条件是数据正态分布,方差齐性, **应用范围主要为偏态资料且数据无法转换为正态,等级资料分组比较
  等级资料分组比较也应用非参数检验,多组比较时采用H检验,两组比较时采用等级和检验(Wilcoxon Mann and Whitney检验)或中位数检验。如比较两种胃动力药物治疗功能性消化不良的疗效,疗效评价按显效、有效、好转、无效分为4等级,两组比较可采用等级和检验。
  四、卡方检验
  研究两组或几组资料的性质是定性或分类的,通常用率或构成比描述各组的特征。比较组间率或构成情况间的差异是否有统计学意义可以用卡方检验。
  1.四格表资料的卡方检验:当比较两组定性或计数资料且资料的属性只有两种时,通常采用卡方检验,如研究Hp感染与胃癌关系时,胃癌病例组100例,Hp感染80例(感染比例80.0%),慢性胃炎对照组100例,Hp感染60例(感染比例60%),是否胃癌病例组Hp感染率高于慢性胃炎组,即Hp感染与胃癌有关是否真实存在而不是由于抽样误差引起,统计学检验时即可采用四格表卡方检验。一般计算Pearson卡方,仅表示两组构成比不同,有一般联系。四格表中如果数据较少,理论值(根据无效假设计算得到的各格应有的数值)<5,特别是总观察数<40时,或有理论数<1时,需要用精确(Fisher)检验法。
  2.行列表卡方检验:当比较组超过2组或者资料的属性超过2种时,这类表格称行列表。通常仍计算Pearson卡方,表示一般联系的检验,即行变量与列变量都是计数或定性资料,变量的各水平之间都没有等级关系,检验的结果仅表示两变量之间是否存在联系。如果行变量为名义变量(定性)而列变量为等级变量时,可以采用非参数检验、趋势卡方或用行平均得分差进行检验。单纯Pearson卡方检验往往不能说明问题。对组内分组资料的卡方检验或内部构成不同的两个率差异的统计意义检验,可采用加权卡方检验或M H卡方检验。而如果需要分层的因素很多或者影响结果的因素很多,而分层太多样本量又无法满足时,回归分析常是首先考虑的选择。
  3.对生存率资料的比较:常采用寿命表法描述,除了可计算年生存率并进行卡方检验外,还可直接对生存曲线进行比较,通常采用Log Rank检验。
  五、临床科研中统计方法应用的常见错误
  应用正确的统计方法可增加研究结果的可信度,而错误的统计方法常导致不正确的研究结论。临床科研中常见的统计方法错误包括:
  1.构成比的误用:由于医院资料的局限性,临床所获得的数据一般只能计算构成比而不是发病率。构成比通常不能说明事物发生的强度,而且构成比的大小受到很多其他因素的影响,因此比较构成比的大小或应用构成比说明问题时不能滥用。只有纵向随访研究才能得到发病率的资料。
  2.内部构成对统计指标的影响:临床研究中,比较两组药物的疗效或说明两组病人的预后时,常需要注意其他因素对结果的影响。标化或对可能影响结果的因素进行分层是解决这一问题的最好办法,如果影响因素很多,可能需要多因素分析来平衡各种因素的影响。而无视其他因素的影响可能得出错误的结果。
  3.偏态定量数据统计描述和检验方法的误用:偏态定量数据的中心位置应当用中位数来描述(对数正态分布采用几何均数描述),但目前很多研究报道的资料仍只用均数描述。由于均数和标准差唯一刻划了正态分布资料的特征,对于正态分布资料只需表示均数±标准差,但是均数±标准差不是偏态分布资料的特征,通常应该用中位数(25%百分位数~75%百分位数)刻划资料的中心位置和分布概况。对明显偏态资料的组间比较,t检验或方差分析也是不正确的,应选择非参数检验。
  4.配对(配伍)比较和成组比较:配对t检验与两组比较的t检验选用要根据不同研究设计,完全随机设计和配伍组设计也要根据不同研究设计选用,配对研究设计和配伍组设计的资料属于非独立数据,只能采用相应的配对t检验或配伍组方差分析,成组设计或完全随机设计的资料不能(也无法)用配对t检验或配伍组方差分析方法进行检验。
  5.一揽子比较的错误:对于多组或配伍组比较应当先做方差分析或非参数统计分析,然后再用相应的多重比较,而不应直接做所有两两比较的t检验或非参数检验,否则第一类错误会增大。临床研究和杂志上仍然常可见到这一错误。
  6.统计方法应用的条件不符合:各种统计方法应用有一定的条件,如t检验和方差分析要求数据为正态(或近似正态)分布和方差齐性,很多研究数据呈明显偏态仍然采用t检验或方差分析是不正确的。对于非负值资料,如果标准差远大于均数,这样的资料常是偏态分布的。方差是否齐性对统计结果影响很大,要特别注意。再如回归分析的方法选择,不能不管因变量是什么性质而乱用回归方法,因变量为定量数据可以用线性回归(或数据经转换后应用),因变量为分类数据可以用Logistic回归,而生存时间因变量可以用Cox回归。乱用不适当的回归分析方法会得出无法解释的结果。
  7.论文中应注明哪些与统计有关的结果:统计所用的方法、比较的样本量、统计量如卡方值、P值等。最后需要指出的是,研究结果的准确性与研究设计有关,统计方法的选择也与收集资料的方法有关,因此,统计方法应当在研究设计阶段作出正确的选择,而不是等到数据收集好之后再来考虑。否则,研究结果的可信度就受到怀疑,而单纯依赖统计学方法对研究设计没有考虑的选择性偏倚和测量性偏倚是无法补救的。

陈世耀 赵耐青著
中华消化杂志2002年11月第22卷第11期