Research

全国临床科研设计专题研讨会会议纪要

全国临床科研设计专题研讨会会议纪要
中华医学会临床流行病学学会 中国临床流行病学协作网 中华医学杂志编辑委员会

  为进一步提高广大临床医学工作者临床科研设计的水平,缩小我国临床医学研究与国际水平之间的差距,提高临床医学研究论文的质量,促进我国临床医学的发展,中华医学会临床流行病学学会、中国临床流行病学协作网和中华医学杂志编辑委员会于1998 年7 月9~11 日在成都市召开了全国临床科研设计专题研讨会。参加会议的有来自11 个省市的临床流行病学、临床各学科专业人员、医学期刊编辑、流行病学、医学统计学等专业的代表70 余人。会议收到论文46 篇。会议期间,代表们就我国当前临床医学科研设计中存在的主要问题分临床诊断、临床治疗、病因研究、预后研究、统计学处理等5 个专题进行了研讨。林果为、王家良、赵一鸣、王觉生、陈彬教授分别作了题为“似然比和ROC 曲线在评价临床诊断试验中的应用”、“临床治疗性研究与评价”、“临床流行病学在病因研究中的应用”、“疾病预后的研究与评价”、“正确使用统计学方法,提高临床医学论文的学术水平”的专题报告,受到与会代表的欢迎。现将会议研讨的主要内容简要总结如下。

  诊断性研究
  应用临床流行病学方法对诊断试验进行客观的评价,是提高临床诊断试验研究科学性的关键措施。按照临床流行病学的原理和方法评价一个新的诊断试验的诊断价值,必须与公认的最正确的诊断方法(金标准) 进行比较,得出该诊断试验的敏感度、特异度、阳性预测值、阴性预测值、似然比( likelihoodratio ,LR) 、准确度以及受试者工作特征曲线(receiveroperating characteristic curve ,ROC 曲线) ,然后才能了解该项新的诊断试验的临床诊断价值。如果诊断试验的结果较为简单,如“阳性”、“阴性”、“正常”、“异常”,并且仅使用单个临界值(cut off point) ,则使用敏感度、特异度来评价诊断试验就可以满足临床需要。但是,实际上多数临床诊断试验并非如此简单。测定的数据是一个连续变量,常可有多个临界值,需要有能反映敏感度和特异度的综合指标,并能反映多个临界值的信息时,LR、ROC 曲线可以满足上述要求。LR 是患病人群中得出某一试验结果的概率与无病人群中得出这一结果概率的比值。ROC 曲线是以真阳性率为纵坐标,假阳性率为横坐标,在座标上由无数个临界值求出的无数对真阳性率和假阳性率作图构成,可通过计算ROC 曲线下面积(areaunder the ROC curve ,AUCROC) 来判断诊断试验的诊断效率。采用LR 及AUCROC来评价诊断试验在国外文献已很普遍,而在国内尚未见报道。上海医科大学附属华山医院以骨髓可染色铁消失作为诊断缺铁的金标准,以90 例贫血病人作为研究对象,包括36例单纯性缺铁性贫血( IDA) 、23 例慢性病贫血(ACD) 、31 例慢性病伴缺铁性贫血(CDID) ,采用LR及AUCROC来评价血清铁、总铁结合力、转铁蛋白饱和度、血清铁蛋白(SF) 及血清可溶性转铁蛋白受体(sTfR) 对IDA 和CDID 的诊断价值。结果显示, SF对鉴别IDA 和ACD 有重要价值,AUCROC为0.94 ,而鉴别CDID 和ACD 的AUCROC 仅0.77 。以SF <14μg/ L为诊断缺铁的标准,在总的贫血病例中LR达5.8 ,但在慢性病合并贫血中LR 仅1.4 ,后者当SF为25~44μg/ L 才使LR 达5.8 ,说明SF 在诊断IDA仍有重要价值,但对诊断CDID 的价值不高,需提高诊断标准才有一定意义,而sTfR 不论在鉴别IDA 与ACD(AUCROC 为0196) 或CDID 与ACD (AUCROC 为0184) 都有很高价值。并且,采用> 50 nmol/ L 作为诊断缺铁的标准,无论在总的贫血病例或ACD 中诊断缺铁的LR 都是最大,在诊断CDID 时优于SF。山东医科大学流行病学教研室的报告认为,当单项试验的敏感度或特异度达不到要求时,可考虑多项试验的联合应用,采用并联可提高敏感度,串联可提高特异度。在筛检或诊断试验系列应用时,无论是先作特异度高的A 试验、后作敏感度高的B 试验,或者倒过来进行,对诊断结果没有影响;若几种试验的简繁程度、费用高低差不多,作者建议先作特异度高的、后作敏感度高的试验,这样可减少受检人数,降低成本,而联合灵敏度与特异度无论采用何种试验顺序都是固定不变的。当指标较多或指标中存在连续变量时,简单地采用串联或并联法难以找到最佳的综合评价模式,此时多元判别模型可以帮助我们找到较为理想的综合判别模型。需要指出的是,多元判别模型有多种,只有通过具体的分析和比较才能找到改进某一疾病诊断的最佳判别模型。衡量判别模型优劣不但要看敏感度、特异度、ROC 曲线等指标的先验概率如何,还要用另一个检验人群或交叉应证的方法计算模型的后验概率,只有先验概率和后验概率都满意时新的综合诊断方法才有可能在临床应用。上海医科大学临床流行病学中心抽查了1985 和1995 年在5 种中华医学会系列杂志发表的有关诊断试验评价的论著112 篇,按照临床流行病学的原则进行评价,发现90 %以上的论著设计不合理,其中18 篇缺乏金标准进行评价,40 篇仅有阳性率,而无敏感度、特异度等评价指标,几乎没有论著采用LR 和AUCROC来进行评价。说明我国目前有关诊断试验评价的研究设计还很落后,多数论著的设计是选择一组病例,一组对照(其他病人或健康人) ,再应用新的诊断试验进行测定,然后两组比较了解其诊断价值,而临床流行病学对诊断试验评价的研究设计方法尚不普及,许多临床医师对评价指标尚不了解,要提高我国诊断试验评价的研究水平还需要做不少工作。

  治疗性研究
  临床治疗性研究是临床科研中最为活跃与实用的部分。据对在1997 年《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》和《中华儿科杂志》发表的406 篇论著统计,其中治疗性研究的文献122 篇,占30 %。本次研讨会的治疗性论文亦占35 %。
  一、临床治疗性研究的立题一定要高度重视科学依据
  任何施以病人治疗的研究措施,一定要在有关病因或发病机理中,有可靠的理论及实验的科学依据,而不能以推理的方式立题,或使用缺乏足够科学依据的试验措施或药物。否则,非但对疾病的治疗无效,有时还可能产生不良反应。讨论中列举了“不稳定心绞痛溶栓疗法”以及应用某种中药治疗某种病毒性疾病的研究实例。
  临床治疗性研究设计,试验组与对照组相比,要有显著性疗效差异的假设。从与会者收集的文献分析中看,往往缺乏这一内容。仅在“血管紧张素酶抑制剂治疗急性心肌梗塞降低早期病死率的研究”一文中,作者应用血管紧张素酶抑制剂与安慰剂对比,期望早期相对病死率能降低10 %。这在临床科研的设计方面是一个重要的进步。
  二、治疗性设计方案的抉择
  与会者一致认为,治疗性设计方案的抉择必须建立在立题的科学性和可行性的基础之上。否则,即使设计科学也不一定能获得科学的结论和临床治疗的效果。
  治疗性研究的设计,最佳者首推随机对照试验(RCT) 。该设计可以避免人为因素的主观干扰和试验中某些未知因素的影响,从而能确保研究结果真实可靠。我国临床治疗性研究论著中,RCT 正逐年增多。华西医科大学第二附属医院对35 种中华医学会系列杂志1995~1996 年发表的164 篇RCT 文献,作了系统分析与评价。这些文章的66.5 %来源于医科大学及医学研究院所。文中交待了随机方法者仅25 篇(15.2 %) ;交待了随机方法但有错误者9篇(5.5 %) ;文中说是RCT ,但未交待随机方法者有130 篇(79.3 %) 。结合“随机”分组及组间病例数的不均等,以及重要临床基线状况组间的显著差异,因而使读者高度怀疑有些研究究竟是不是真正的RCT研究结果。
  三、关于RCT 的对象分组及组间重要临床基线状况的比较
  这是十分重要的,涉及到整个试验结果的可比性。对上述164 篇RCT 文献中,有基线资料者47 篇(28.7 %) ;有文字叙述者27 篇(16.5 %) ;其余90 篇都无基线比较的资料(54.9 %) 。这种状况对治疗性研究质量颇有影响。为保持组间主要临床特点的可比性,最常用方法是将研究对象根据影响治疗效果或预后的最重要因素进行分层( stratify) ,然后作随机分组。这种方法适用于中小样本量的治疗性研究。但有的研究分层因素多至4~6 个,因此,分层后的样本量至少应有32 例及128 例,而文中实际样本量仅有30 及60 例,以致出现十分矛盾的现象。
  四、关于RCT 研究中样本需要量的问题
  中华医学会系列杂志报道RCT 的样本量最少为10 例,最多者达15 000 例。样本量太少难免受随机误差的影响,因而结论易犯假阴性或假阳性的错误。有代表介绍国外十分重视RCT 搞多中心和大样本,且研究措施宜单纯。这样的结论就可信。但是面对复杂的临床实际和国情,虽然成千上万例的多中心研究有其好处,但在中国可行性是较差的。所以,代表们认为还是要根据科研设计的试验组和对照组疗效显著差异的最低水平,以及α和β错误容许的水平,来估算合适的样本量,加之严格地设计与执行, 以确保研究本身的内部真实性( internalvalidity) 。至于大样本的研究结果,可以应用荟萃分析(meta analysis) 的方法对一种疾病类似治疗的多个RCT 的研究结果,进行系统分析评价,从而获得其外部真实性(external validity) 的成果,并用于临床实践。
  五、关于对照组的设置问题
  通过讨论一致认为,临床治疗性研究对照组的设置是至关重要的。以同期随机对照为最佳,但不是唯一的。应从临床实际出发,有的可以作自身前后对照,也可作交叉对照试验。对于某些特殊疾病的治疗如肿瘤,也可采用历史的前后对照。总之,对照组的设置要依被研究的疾病特点、病人的来源以及研究的技术和工作条件来决定,注意科学性及可行性。此外,与会者通过讨论明确了对目前尚无有效治疗手段的非常难治而且预后极差的疾病,如果诊断确定,某一治疗措施证明有效,经得起科学检验,作为一种新发现,不设对照亦能被承认。
  至于对照组使用安慰剂的问题,按照世界医学协会赫尔辛基宣言( Ⅱ23) 的规定:“任何临床试验包括对照组的病人,都应得到最佳的诊断和治疗方法”。故对照组的安慰剂使用均以不损害病人的利益为前提。因此,它只能适用于目前缺乏有效治疗措施的临床治疗性研究和新药的一期临床试验。有时安慰剂对照还可应用在常规治疗的基础上,对某一新药的疗效研究。
  六、关于研究结果的代表性和实用性的问题
  任何治疗性研究的设计,都要考虑研究成果应用于临床的代表性和实用性,这样就能估计成果本身的临床价值。因此,研讨中认为,纳入研究的对象一定要有确切的诊断标准以及纳入和排除标准。但是某些重大研究课题的研究设计中,如急性心肌梗塞溶栓治疗研究,其诊断标准就不十分确切。又如某一重大研究课题,其纳入标准是明确的,但是有17 项“排除标准”。按统计概率计算,有90 %左右的病人被排除,纳入课题的对象仅为10 %左右。即使这种研究获得了科学的结论,代表性也仅为10 % ,其实用范畴也是受限的。
  七、关于盲法的问题
  近年来,我国有些颇有影响的大课题设计了“双盲对照治疗试验”,是个了不起的进步。与会者热烈讨论了某些药物的特殊反应,认为很难做到“双盲”。此外“, 双盲”试验尤其要注意病人的疗效及药物不良反应。一旦疗效不佳或呈现药物不良反应,宜早作破盲处理。此外,与会者还强调了盲法测试结果及其盲法评价对防止测量性偏倚(measurementbias) 、增强结果的真实性,有十分重要的价值。

  病因学研究
  病因学研究是医学研究的重要内容之一。近年来我国临床医学杂志中出现了一些较好的关于病因学研究的论文。如采用队列研究方法分析恶性肿瘤、高血压、脑卒中、冠心病、糖尿病等严重影响我国人民健康的重大疾病的病因。这些论文的数量虽然还不多,但它们是代表我国现代医学进展的重要标志之一。同时,出现了一批以医院为基地、以病人为研究对象采用病例2对照方法进行病因学研究的论文,涉及临床多个专业。采用断面研究探讨疾病病因的论文也在杂志中占有一定的数量。这些研究普遍注意了样本的代表性,采取了严格的测量方法;注意对检查资料进行复查核实;除了采用均数、率等指标外,部分研究开始采用相对危险度( RR) 和OR 来测量因果联系的强度;部分研究还采用了Logistic 回归分析,以确定研究因素是否为独立的危险因素,用分层分析处理混杂因素。第四军医大学介绍了“巢式病例2对照”的研究方法,丰富了我国病因学研究的手段。以上情况表明,我国临床医学工作者已开始注意采用多种临床流行病学的设计方案,在医院中围绕病人开展病因学研究。
  多病因致病是普遍存在的客观事实。我国临床医学工作者在探讨病因的过程中注意到这一基本事实,并开始将多病因致病作为临床病因学探索的重要内容之一。我国的临床医学工作者与统计学家合作,在病因学研究中引进多因素统计分析方法,使多病因致病研究取得了突破性的进展。采用多因素分析方法可以利用数学和计算机的分析手段找出复杂的病因现象背后隐藏的某些规律。如病因/ 危险因素是否独立、病因/ 危险因素在疾病发生中作用大小的顺位及其相对比例、病因/ 危险因素在疾病发生中是否存在交互作用(协同作用、相加作用、拮抗作用) 。多因素分析方法的引进已经开始影响临床研究设计、测量和评价,并对临床流行病学研究方法提出了新的要求。目前,在病因学研究中已经使用的多因素分析方法主要有多元线性回归、Logistic 回归、Cox 生存分析、分类与回归树(CART) 等。这些分析方法均有多种版本的微机软件可供应用。
  环境、遗传和不良的生活习惯是已知导致人类疾病的主要原因。在病因学研究中,过去多注意环境因素和不良生活习惯与疾病的关系,遗传因素致病仅限于传统的遗传病。随着对疾病病因认识的深入和分子生物学技术的进步,人们越来越多地注意到遗传因素在疾病发生中的地位和作用。到目前为止,除了外伤、骨折等少数疾病似乎与遗传因素无关外,绝大多数疾病的发生或多或少地与遗传因素有某种关联。致病/ 易感基因的研究需要大量分子生物学技术的支持,但在研究过程中仍不可避免地要涉及患病的病人。因此,在人类基因组计划完成以后,临床科研工作者有许多机会参加遗传因素与疾病关系的研究。在寻找致病/ 易感基因的过程中,临床流行病学研究方法(DME) 将被赋予新的内容,新的研究方法(如家系研究) 将融入临床病因学研究。

  疾病预后研究
  华西医科大学临床流行病学教研室对“疾病预后的研究与评价”作了大会发言。主要内容有五点:(1) 预后的定义:预后是指在疾病发生后,对将来发展为各种不同结局的预测。疾病性质不同,预后迥然不同。(2) 研究预后的目的:对目前尚无特殊治疗的疾病,预后主要是研究它的自然转归。但对具有有效治疗方法的疾病,就应研究不同干预措施(药物、手术、放疗) 对预后的影响,以期改善病人的预后。此外,还要研究疾病过程中与结局有密切关系的因素,即预后因素的探讨。(3) 自然病史与临床病程:疾病的自然病史,包括生物学发病期、亚临床期、临床期及结局。临床病程是指首发症状或体征出现后,经不同处理,到最后结局所经历的过程。(4) 研究预后选用的设计方案: 前瞻性研究包括RCT、队列研究、非随机同期对照研究(临床对照研究) 和描述性研究。回顾性研究包括回顾性队列研究、病例2对照研究及描述性研究。在两类研究中,前瞻性研究的结果真实可靠。(5) 评价的原则:应该尽量与国际科研接轨,采用国际通用的评价原则,其中最主要的是被纳入的病例是否都在疾病早期或处于疾病的同一阶段,这一点在预后研究中至关重要,因此,对每例病人开始研究的始点或称零点时间(zero time) 必须明确,这样的结果才有意义。
  会上对近年在《中华医学杂志》、《中华内科杂志》及《中华血液学杂志》上发表的12 篇预后研究的论文作了分析。其中半数为回顾性研究,且大多数论著(8/ 12) 都没有对照组,有1/ 3 论文的病例数不到30 例。即使较好的论文如《早期胃癌术后复发转移的探讨》(《中华医学杂志》1996 年第10 期) 及《狼疮性肾炎病人存活率及其影响因素分析》(《中华内科杂志》1998 年第4 期) ,其纳入的病例都不是疾病病程的同一阶段,因而直接影响对预后判断的正确性。此外,失访问题较为严重,上述论文中有7 篇随访研究只有1 篇失访率在10 %以内,真正符合预后研究的要求。通过分析一致认为,对预后研究必须要诊断明确、起点一致,不同病情应作分层,不能笼统分析其后果。
  与会者认为,疾病的预后往往与多种因素有关。以往研究多从不同角度分析每个因素与预后的关系,但不能回答这些因素究竟是各自对预后产生影响(独立作用) 还是共同对预后产生影响(协同或拮抗作用) ,也无法了解这些因素影响预后作用大小的顺位及其相对大小。在近年疾病预后的研究论文中已经出现采用Cox 生存分析和Logistic 回归等多因素分析方法研究各因素与预后关系的报道。这些研究虽然数量不多,但代表着我国临床疾病预后研究的方向之一。
  临床医生总结个例病案,只能为疾病的预后研究提出线索和假说,无法用科学的方法依靠客观证据肯定或排除可能影响疾病预后的因素。而采用群体研究的方法可以克服总结个例病案的局限性,针对一个或多个与预后有关的因素,在群体水平上分析总结其与预后的关系。群体研究的技术路线已经在实践中被证明是行之有效的,目前预后研究多数采用了这种研究方法。预后研究的最终目的是指导临床实践,此时医生面对的是一个一个具体的病人,因此,群体研究的成果还要进一步改进,才有可能对每个病人的预后作出估计。在群体研究基础上针对个体的预后进行估计,有赖于先进的判别分析手段,通过建立高效率的判别模型可以为每个病人的预后提供准确的估计。值得注意的是,鉴别疾病预后判别模型不但要有很高的先验概率,而且要有很高的后验概率,判别模型只有经过临床验证才能最后确定其临床价值。估计预后的模型除了简单地给出某一预后的发生概率之外,临床工作有时还需要得到某些连续指标的估计,如某一肿瘤病人采用某一治疗后可能生存的时间。近几十年来,统计学家已在预测模型方面做了大量研究工作,许多新的判别分析理论和分析软件已经出现。在今后疾病预测研究中引进这些技术,针对每个病人的预后作出可靠的估计,是今后预后研究努力的方向之一。
  会上,代表们对远期疗效与预后的区别,医院的病例可否进行队列研究,队列研究与临床对照研究有何差别,免疫组织化学与癌基因表达可否作为预后指标,以及研究方法与方法学的研究等问题进行了热烈讨论,取得了统一的认识。

  统计学处理
  在研讨会上,代表们对正确使用统计学方法,提高临床医学论文的学术水平问题进行了研讨,并就《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》的论文中存在的统计学问题进行了分析。
  1. 未建立或未使用多元医学参考值范围:随着现代科技的发展,在临床实践中出现了许多新仪器、新设备,如一滴血可查出数十项指标结果。故临床医师在实践中常用多项(多于1 项) 指标判断某功能或状态正常与否。此时应注意: (1) 不能用单指标方法确定的单指标参考值范围来逐个判断多项指标观测值; (2) 对多指标观测值,不能用单指标方法确定其医学参考值范围; (3) 注意诊断试验评价结果;(4) 建立参考值范围的观测例数应不少于100 例。
  2. 未进行可信区间估计:对总体参数的区间估计,通常涉及均数、率、RR 。如血管扫描的准确性为92 %(81 %~100 %) 。注意: (1) 观测例数适宜; (2)若诊断符合率的上限接近100 % ,提示新方法是可以推荐使用的;而若下限接近50 % ,则提示此新方法无使用意义; (3) 数据分布近似正态分布或变量变换后近似正态分布。
  3. 未进行一组构成比资料的统计分析:一组构成比中任何两个构成部分间可以比较,当对任一构成部分做结论时要考虑假设检验,同时注意构成比最大为100 %。
  4. 未按有序分类资料分析:有序分类资料(或等级资料) 一般应进行秩和检验,仅当配对设计的双向有序分类资料(R ×C 表) 研究相关关系时做χ2 检验,要注意识别有序分类资料。
  5. 未按设计整理统计表:常见的是将配对设计的双向有序分类资料(R ×C 表) 误整理为单个样本的有序分类资料,把配对设计的四格表误整理为一般四格表等。
  6. 使用不适宜的统计图、表:表中不应列出各样本部分指标均为相同的观测值,如均为零。对一些图,要注意观察相邻刻度线的数值是什么关系?若为倍数关系时要考虑用对数线图或半对数线图。注意将统计学基本原则与期刊编辑要求相结合,如列表,制图应注意节约版面。
  7. 未合理描述变量间关系:例如要分析白细胞介素6 ( IL26) 含量与特异性IgM滴度呈正相关,绘图时只能以IL26、IgM分别为X、Y变量绘制散点图,观察两变量间关系。若IL26 含量、IgM 滴度是均随病日变化的曲线,则只能分别分析IL26 含量、IgM 滴度随病日变化规律,对两曲线分别拟合曲线方程,对曲线方程进行比较。
  8. 对随访资料未用生存分析:随访资料一般观察时间长,常有失访病例,且经常进行多因素观察,应作生存分析,可进行单因素分析与多因素分析。病例对照研究常是多因素观察,当有失访病例时用Cox 模型,否则用Logistic 回归。随访资料中常计算一些率,当率小于0105 或011 时,要考虑Poisson 分布处理。
  9. 未选用多因素分析:在诊断、治疗、预后及病因学研究中常进行多因素观察,多因素数据用单指标分析方法,则往往得不到应有的信息与结论。故进行资料处理时注意该数据是否应作多因素分析。
  10. 对配对设计资料未用配对统计分析方法:对配对设计资料有其相应的统计分析方法,若误用其他统计分析方法,则经常得不到预期结论。
  11. 未进行样本例数估算:为了使医学科研取得预期可靠的结论,科研设计时应进行样本例数估算。一般计量资料每组不少于30 例,计数资料一般每组不少于40 例,对于多因素设计观测例数应为观测指标数的5~10 倍。作为科研设计的常识,样本例数一般还是借助估算公式计算。

(林果为 王家良 赵一鸣 王觉生 陈彬 徐弘道 整理)
(原载于《中华医学杂志》1999年 第79卷 第2期)