疾病分析统计数据库
Tel : 400-6010-180
Statistics
神经科论文中误用统计方法实例分析
神经科论文中误用统计方法实例分析
一、撰写本文的目的和资料来源
努力提高神经科论文中数据处理的统计学质量,是撰写本文的目的。为此,现以1999年《中华神经科杂志》第1期至第6期为考察的对象(以下仅写期号和页号),就论文中误用统计方法的实例作一些分析,至于实验设计方面的问题已另文讨论(见本刊2002年第1期第58~59页)。
二、统计学运用中普遍存在的问题、产生的根源及其对策
(一) 统计学运用中普遍存在的问题
1.表达与描述统计资料时存在的问题:编制统计表时,分组标志与观测指标位置颠倒、线条过多或过少、数字的小数点位数不一致或单位重复出现在数字之后。最严重的问题是表中数据的含义未表达清楚,令人费解;绘制统计图时,坐标轴上的刻度值标得不符合数学原则、资料与所选用的统计图类型不匹配(如用条图表达连续性资料);选用统计指标来描述定量资料的平均水平和分散趋势时,使用正态分布方法表达呈偏态分布的资料(标准差明显大于平均值);运用相对数来描述定性资料时,比与率混淆、分母很小时也计算百分比或百分率。
2.未对统计资料进行统计学处理就下结论:一般来说,统计资料仅反映样本的情况,不能简单地将其视为总体的真实写照。既然是样本,就不可避免地存在抽样误差。只有排除了抽样误差的影响后,才可能根据样本所提供的信息去推论总体的规律性。而排除抽样误差的最有效的手段是正确运用统计学知识,对具体问题提出检验假设,并构造相应的检验统计量,再利用随机变量的概率分布规律来作出合理的推断。因此,未对统计资料进行统计学处理,仅凭统计指标的绝对值大小就下结论是很不严谨的,也极易得出错误结论。
3.分析定量资料时存在的问题:忽视t检验和方差分析的前提条件、误用t检验代替方差分析、误用参数检验代替非参数检验、各种方差分析方法的混用(总共有10多种方差分析方法,最常用的有3种,它们分别是“单因素多水平设计资料的方差分析”、“析因设计资料的方差分析”和“重复测量设计资料的方差分析”)。
4.分析定性资料时存在的问题:直接根据阳性率的大小作出统计推断,表中所列的数据项与分析时所用的数据不一致,资料的条件不满足公式的要求却盲目套用,对列联表中定性变量的性质(无序与有序)不加区分导致统计学分析方法的误用,用χ2检验分析一切列联表资料等。
5.进行直线回归与相关分析时存在的问题误将变量之间在统计学上的关系解释成在专业上的联系;用直线方程取代呈明显曲线变化趋势的实验资料的变化规律;对两型回归问题不加区分;用简单化法处理具有重复试验数据的回归分析问题,以至造成资料的利用率低,回答的问题含含糊糊。
(二) 产生上述问题的根源
统计学教科书上一般都只从正面讲述统计学方法,因而使用者常对误用统计方法缺乏识别能力和防范措施。况且统计学方法是如此之多,各种方法的适用场合以及所需的前提条件又不尽相同,这就为非统计学工作者正确运用统计学设置了第一道障碍;其次,实际资料往往错综复杂,它们被“镶嵌”在专业背景之中,使人很难看出其在统计学上的“真面目”,这就为非统计学工作者正确运用统计学设置了第二道障碍;第三,学术刊物数量很多,稿件数目不断增加,编辑部无力保证每篇稿件都请统计学专家审阅,这就不可避免地会出现某些有统计学问题的论文得以公开发表。它们无形之中起到了难以抗拒的“负面效应”,这就为非统计学工作者正确运用统计学设置了第三道障碍等,类似的原因不胜枚举。总之,产生上述问题的根源有历史的、也有现实的;有客观的、也有人为因素造成的。
(三) 纠正上述问题的对策
有无办法纠正上述问题?应该说办法是有的!关键取决于人们是否有决心纠正错误。因为它涉及的面很宽,而且有些问题早已“根深蒂固”;它涉及业务主管部门和杂志编辑部门对问题严重性的认识程度和纠正问题的决心大小;涉及如何提高广大作者和审稿者的重视程度和统计学水平。这里面既有大量的宣传和疏导工作,又有大量的业务培训和知识更新任务,还牵涉到现行的统计学教材和教学方法的改革问题。因其对策较多,限于篇幅,请参阅有关文献。
三、神经科论文中常见统计学问题举例
例1 见第5期第291页图1。存在问题:横坐标轴上变量的含义不明确,所选用的统计图类型不够恰当。
例2 见第3期第147页表2(研究“柯萨奇病毒B1接种豚鼠建立多发性肌炎模型”)和第4期第212页表1(猴急慢性实验性变应性脑脊髓炎的病理研究)。存在问题:未作假设检验就下结论。说明:因例1和例2比较简单,限于篇幅,就不展开论述了。
例3 见第2期第84页表1。存在问题:未交代所采用的统计学分析方法,未给出统计量的值。在血小板活化因子(PAF)对神经细胞内游离钙离子作用的研究中,原作者收集到表1资料。
表1 血小板活化因子及其拮抗剂对培养神经元细胞内游离钙离子浓度的影响(x±s)
组别 例数 神经细胞内[Ca2+]i(1×10-7mol/L)
① 对照组 18 0.99±0.15
② PAF1×10-6mol/L组 7 1.38±0.19*
③ PAF1×10-5mol/L组 10 2.04±0.18*△
④ PAF+BN52021组 7 1.16±0.13**
⑤ PAF+BM组 6 1.05±0.12**
注:为便于下面的表述,笔者特在各组前加上了编号,原作者没有说明用的是何种统计方法处理数据,只给出结论;*与对照组比较,P<0.01;△与PAF1×10-6mol/L组比较,P<0.01;**
与PAF1×10-5mol/L组比较,P<0.01。BM为联合治疗组,BN52021为PAF的拮抗剂
分析与解答:分析定量资料中最突出的问题是不考察资料所对应的设计类型,盲目套用t检验或单因素方差分析方法。关于设计类型的辨析方法,是一个比较复杂的问题,将另文讨论,此处仅举一个简单的实例。对于表1这种形式的资料,很多人毫不犹豫地用t检验将各实验组与对照组均值比较,从而得出结论,这种做法弊病很多,若直接看成是单因素5水平设计资料,采用相应设计资料的方差分析,也是不够妥当的!正确的做法是先判断资料所对应的设计类型;其次,是考察资料所具备的前提条件。对本例而言,应先考察写在“组别”一词之下的5个组之间的关系,看它们是否属于本质相同,仅在数量上稍有区别,还是某些组之间存在质上的区别。由原文可知:第④组应是“BN5202120μg+PAF1×10-5mol/L”组,而第⑤组应是“BN5202120μg+MK80140μg+PAF1×10-5mol/L”组。显然,将①、②、③三组同时分析,具有较好的可比性。因为这三组的总称(即因素的名字)为“PAF的剂量”,三组的剂量分别为0、1×10-6和1×10-5(mol/L)。若资料满足“正态性和方差齐性”两个前提条件,应选用单因素3水平设计资料的方差分析;而将③、④、⑤三组同时分析,也具有较好的可比性。因为这三组的总称为“加入拮抗剂的数量和种类”,即“在PAF1×10-5mol/L的基础上不加、加1种、加2种拮抗剂”的效果的比较。同理,也可选用单因素3水平设计资料的方差分析。报道方差分析结果时,仅给出P值是不够的,还应给出F值。
例4 见第6期第370页表1。存在问题:原作者所选用的统计学分析方法欠妥,同时,计算结果有误。在“犬大脑中动脉栓塞时动脉与静脉溶栓治疗的对比研究”中有如下资料,见表2(在原文中编号为表1)。
表2 MCA造影血管再通率比较(犬数,%)
组别 |
完全再通 |
不完全再通 |
完全不通 |
A组 |
0(0) |
3(25) |
9(75) |
B组 |
6(50) |
4(33) |
2(16) |
C组 |
3(25) |
5(41) |
4(33) |
注:作者采用了χ2检验,结论是:各组(每组12只犬)间P均>0.05,差别无显著性意义
分析与解答:表2资料可看成是3组等级资料(因为观测结果是栓塞被打通的程度),又因例数较少故采用秩和检验较合适。结果是:Hc=10.8681、P=0.0044,说明3组治疗效果之间的差别有非常显著性意义。进一步作两两比较,除B与C间的差别无显著性意义之外,其余各组间的差别均有显著性意义。即使用χ2检验,结果是:χ2=11.700,P=0
02,也和原作者的结论(P均>0.05,差别无显著性意义,说明原作者计算有误)不一致。四、小结例子不胜枚举,而且有些问题用较短的篇幅很难解释清楚,需要读者通过阅读有关专著后仔细琢磨、反复实践,方可提高识别统计学应用中常见错误的能力,更好地发挥统计学在医学科研中的作用。
胡良平 郭秀花 刘惠刚著
中华神经科杂志2002年6月第35卷第3期