Statistics

统计方法在科技论文写作中的正确应用

统计方法在科技论文写作中的正确应用

  观察与实验是医学科学研究与发展的重要方法。观察是在自然发生的条件下去考察事物的发展变化;实验是根据研究目的在人为条件下进行的观察,为了达到符合客观的预期效果,两者都需要以数理统计计算所得的概率(P)值作科学结论,这一点是众所周知、不容质疑的。因此,在论文稿件中,统计方法应用的正确与否至关重要。此外,在医院管理方面或审稿过程中,也需要掌握一些数理统计方法,以便考察稿件中的结论的科学性和正确性。这是写作的启示。

但是,由于统计方法的应用是依据观察与实验所取样本资料的性质、目的和数量来确定的,故比较细致和复杂,一篇短文不可能一一详述,只能择要作个简介来抛砖引玉。
  一、 描述统计应用
描述统计是数理统计的初级阶段。它只反映所收集数据的某些现象的内容做出的统计加工。医学科学论文中常用的描述统计主要有:平均数和变异程度与比和率两类。
  (一)平均数和变异程度应用:平均数是描述一组计量资料的集中趋势,也称平均水平。在应用中应根据资料的分布特点选择适当的平均数计算方法。见表1:
表1资料分布与平均数名称
资料分布 平均数名称
正态分布(对称分布) 算术均数
正偏态分布,经数据转变成对数值 几何平均数后呈近似正态分布
资料一端开口,分布不明确(正态资料也可用) 中位数(观察值由小到大排列后处于中间位置的值)

  一组计量资料除描述集中趋势外,还应说明其变异程度,也称离散趋势。只有将平均数及变异程度结合才能全面了解资料的分布情况及特点。最常用的变异指标有:方差、标准差和变异系数等。
  方差常被用做平均水平与离散程度的综合分析,即方差越大,说明个体变异越大,则平均数的代表性就越差;反之,方差越小,说明个体变异越小,则平均数的代表性就越好。
标准差是描述变量值与样本均数间的离散程度的指标。当两组资料均数相近,计量单位相同的条件下,标准差大,说明观察值的变异程度大,因而均数的代表性差;反之,标准差小,说明观察值变异程度小,均数的代表性好。
  变异系数是描述标准差与平均数间的比值,常用百分数表示。由于它是个百分比,不具有计量单位,因而有便于比较分析的优点。例如:比较身高与体重两组资料的变异程度等。
  (二)比和率的应用:比和率虽然都是由两个相互关联的统计量的比值来表示,但比和率是不同质的两个指标,绝对不能混淆应用范围。我们在审稿中常见到有比、率不分的乱用现象。
  1.比:含构成比和相对比两种。①构成比:是说明某一事物内部各构成部分所占的比重。它又称构成指标。构成比的和应该=100%。②相对比:也叫相对指标,是指两个有关联数值之比,说明两数值的对比水平。
  2.率:又称频率指标。它用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、10万分率(1/10万)来表示。3.应用比和率应注意的问题:①计算比或率时分母不能太小。例如:某病患者5例,死亡2例,病死率=40%就不妥,宜用2/5表示。②分析时不能以构成比代表率作结论。特别值得提出的是:在应用于医院管理时,不能把构成比的动态变化替率(强度)的动态分析。③作资料对比应注意资料的可比性。没有可比性的资料,硬放在一起作相对是不科学的。
  二、 推断统计应用
  推断统计是以概率论为基础,把数理解析过程作为主要内容的统计方法。医学科学研究的总体数值往往是未知的无限总体(如全国高血压患者舒张压平均值),只能用样本信息来推断总体理论值。因此,在应用时要注意样本的抽取方法、样本量的大小、样本的可靠程度(代表性)、分析方法是否恰当、以及进行假设检验等,都是推断统计应用需要注意的问题。
  医学科学资料的性质大体上可分为计量资料、计数资料和等级资料3类。不同类型资料采用不同的推断统计分析方法。可谓“因材施法”。分述如下。
  (一)计量资料分析方法:计量资料是对每个观察单位用定量方法测定其某项指标的数值大小所得的数据资料。一般用度量衡单位表示,如身高(cm)、体重(kg)、浓度(mg/l)等。常用的统计方法有t检验、t′检验、U检验和方差分析等。前3种检验方法仅用于计量资料的两组均数比较。两组以上(多组)均值比较则使用方差分析(F检验)。分述见表2。
  1.t检验的两组均数比较见表2。
  2.多组均数比:方差分析(F检验)是检验多组均数间的差异有无显著意义的统计方法。常用的方差分析法有:单因素方差分析、无重复双因素方差分析、有重复双因素方差分析、多因素方差分析的两两比较和协方差分析等。具体应用范围见表3。
   表2 两组均数比较的检验方法
检验方法
应用范围
t检验的样本均数
与总体均数比较

推断样本所代表的理论总体均数μ与已知总体均数μ0是否相等
如:(1)流行病学某一地区发病率是否高于一般地区。
(2)医院管理中某部门(某人)工作质量是否与全院总体质量相似。
t检验的配对资料比较 (1)同一受试对象处理前后的比较。如:观察用药前后某指征的
比较。
(2)两组受试对象分别给予两种处理,判断处理效果有无差异。如:
动物配对实验研究。
(3)同一组对象用两种方法测定比较。如:用两种方法测定某项数
值作比较。
t检验的两个小
样本均数比较

判断两组独立样本(含量N<100)所代表的总体均数μ1与μ2是否
相等(方差齐性———即两组均数所代表的总体方差相等)如:某地
某病指标值与该地健康人群指标值有无差异。
t′检验
样本含量N<100的两个小样本方差不齐时比较。
U检验 样本含量N>100的两个大样本均数比较。
   表3多组均数比较的应用范围
检验方法
应用范围
单因素多个出样本均数比较 只根据一个观察因素,将实验对象按随机设计分成若干处理组,分别求出 各组的均数,即单因素多个样本均数。比较的目的是推断组间处理效果有无显著差异。
无重复双因素多个样本均数比较
当影响某一指标的因素不只一个,而观察目的只是要反映其中一个因素的作用,就可用包含这两个因素都在内的双因素分析。如双因素组合, 只有一个数据即为无重复。
有重复双因素多个样本均数比较
是配对资料的延伸,只不过是按每3个、4个或更多个配起来形成配伍 组合,数据分析时间需同时考虑两个因素的效果。例如用A、B两种药物治疗一组患者,每一患者就有A、B两药效果的重复。
多因素方差 分析的两两比较
经过方差分析,若说明各处理组间总均数有显著性差异,则需要进一步 说明哪两个总体均数间有显著性差异,哪两个总体均数间没有显著差 异,则需要利用方差分析提供的信息做样本均数间的两两比较,以求更深一步说明结论。
协方差分析 用来消除混杂因素对分析指标的影响,减少误差以提高比较结果的精 确度。例如研究男性篮球运动员与男性大学生的平均肺活量的分析, 由于肺活量随身高的增大而增大,就要剔除身高的影响(把身高看作是混杂因素,需作校正)。
  (二)计数资料分析:计数资料是先将观察单位按性质或类别进行分组,所得数据即为计数资料。例如观察患者按性别分组,男××名,女××名。计数资料常用的假设检验方法是χ2检验,它是一种用途较广的方法。它可用于检验两个和两个以上的计数资料(比或率),从而推断两组及两组以上相对数有无显著差异。应用范围见表4。
   表4 χ2检验的分类与应用
χ2检验的类别 适用范围
行×列表法 频数表多行多列的多组相对数比较
行×列表法的分割 多行多列的资料有显著性差异后,进一步做两两比较
四格表法 两组分两类的资料。如实验组、对照组的治愈率和未愈率比较
四格表较正法 当1≤T<5,N>40的资料,需计算校正χ2值
四格表确切概率法 理论值T<1,或样本含量N<40的资料。亦称精确度检验
四格表配对分析 观测对象是一个,但观测方法不同,或有意配成对子观测
  
(三)等级分组资料:等级分组资料,是界于计量和计数之间的半定量资料,它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象的分布是否已知。例如:疾病治疗转归的痊愈、显效、好转、无效或生化检验的-、+、++、+++或管理评价的优、良、中、差等。这种等级分组的间距往往是不相等的。这类资料大多属于偏态分布和不明分布,其方差也明显不齐又无法交换。因此,等级分组资料需用非参数法的秩和检验。医院管理资料可使用游程检验和Ridit分析等做比较。
  1.秩和检验:所谓秩和检验,简言之就是依数据资料从小到大排出秩次后的秩次合计值。秩和检验有以下几种,见表5。
   表5 秩和检验的分类与应用
秩和检验分类 应用范围
配对比较资料 两组实验对象随机配成对子,检验两种处理结果。或一组受试对象的处理前后的比较。
两样本比较资料 检验两独立组资料有无显著差异
多组样本比较资料 利用多个样本资料作秩和检验,用来推断各样本资料所代表的总体分布位置是否不同。类似于前述单因素方差分析
多组样本间的
两两比较
如多组样本资料经秩和检验,被推断为各样本所代表的总体分布位置不相同时,应该进一步作两两比较,以确定哪两组总体分布位置不同。以增强结论的科学性
  2.游程检验:游程检验是分析单组动态数列(时序数列)的升降或周期性两组趋势的统计方法。所谓游程,是在依时间或其它顺序排列的有序资料中,具有相同的事件或符号的连续部分作为一个游程。在一个游程中,事件或符号的个数称为游程的长度。游程检验多用于判断某病的病死率、发病率等的变化是否随机。也多用于医院管理中某事件的发生、发展趋势的分析。其类别及用途见表6。
   表6 游程检验的分类与应用
游程检验分类 应用范围
游程个数检验 根据样本序列中n1、n2、……,与游程个数r的大小来推断两类事
件的发生过程是否随机的方法。
游程长度检验 根据样本含量n及序列中最长游程的长度l,来推断两类事件的发生过程是否随机的方法。
升降趋势检验 在一组时序数列中,若后面的数值倾向于增大,可说有上升趋势;若后面的数值倾向于减小,则可说有下降趋势,经检验后作结论。
游程周期检验 一般应用于较长时间的时序数列检验。依据游程的个数和长度,经检验有无周期性或周期性发生在哪个时间段内。
  3.Ridit分析法: Ridit分析法在临床医学和医院管理领域中有较广的用途。如等级分组资料比较,既能说明有无显著性差异,又能判别优劣和排出名次,这是它的最大优点。这一统计方法不仅等级资料可用,也适用于测量的计量资料,例如:用于生化检验的血清滴度<1:40,>1:320等数据不明朗的资料比较。
  (四)回归与相关:在医院管理研究与临床医学实践中,有许多现象或事物间存在着相互关联、相互依存与制约的关系。例如:医疗资源投入与产生,科研成果与人才成长,由一个变量预测另一个变量;患者年龄与血压,药物剂量与动物死亡率,……,等等。这些两组或多组变量间的关系,往往是由于某种原因必然引起某种结果。在探讨这种类似因果关系时,必然显示出统计量的关系,即可利用统计关系作为研究的手段。
1.回归分析:回归关系是比例关系。直线回归系数b的含义是:当变量X增加1个单位时,另一个变量Y平均递增b个单位;如果是“-b”,则表示当X增加1个单位时,Y平均递增-b个单位(或曰递减b个单位)。简言之是由某变量的指定数值,推算另一个随机变量。其具体分类和用途见表7。
   表7 回归分析的种类与应用
回归分类 应用范围
直线回归分析 主要是处理两组变量间的线性依存关系的统计方法。如儿科用药是依据体重计算投药剂量的。推算公式:体重(kg)=8+2X,式中X=年龄。
多元回归分析 用来研究一个因变量(X)与多个自变量(Y)间的相互依存关系。在临床医学上应用较广。
多元逐步回归分析 是从为数众多的自变量(Y)中筛选出对因变量(X)有显著差异者,进行因素分析。如病因分析、疗效影响分析等。
曲线回归分析 有时双变量间不是线性关系。例如一种新的治疗方法问世,治疗例次有限,随着逐步推广被认可,应用度提高,但普及后数量逐渐稳定。新药投入市场的规律也类似。这类资料宜用曲线回归分析法。
Logistic回归分析 用于因变量为二项分布的互斥资料,即成功与失败两种可能的资料。如生存与死亡,治愈与未愈等。
Cox回归分析 多用于癌症病人手术后的生存期观察分析。因为它是以顺序统计量为基础,对生存时间的分布形式没有假定,因而比较灵活,适应性强。
  2.相关分析:相关分析是研究双变量(或多变量)间的相关的性质和密切程度的统计方法。种类与应用见表8。
   表8 相关分析的种类与用途
相关分析种类 应用范围
直线相关 适用于两变量服从二元正态分布资料。当自变量X由小到大,因变量Y也相应由小到大(或由大到小),两变量的散点图呈直线,说明这两变量间有直线关系。关系密切程度由相关系数r值的大小来决定。
等级相关(亦称秩相关) 这是一种非参数统计方法。适用资料如下:①两变量值有的不能准确测量,只能按等级划分;②虽可测量,但总体分布不明,或已知分布为非正态双变量,不能用积差相关分析;③只需对两事物数量间的关系作初步分析。
  (五)Kappa评价:Kappa评价亦称一致性评判。多用于流行病学调查和临床实验,主要用于以下几种情况:
  1.同一医师对同一组观察对象进行两次以上观察,每次做出名次判断是否一致。
  2.两位或多位医师对同一组(或一地区)观察对象,作某指征的观察判断的一致性;或对某病的患病率的调查,对患病理解的一致性等。
  3.精神科临床应用的多种量表,把病人的某些指征转换成数据作定量分析,这种定量的一致性。
  三、 讨论
  (一)统计分析方法很多,在适应统计资料方面分工极细,因限于篇幅,只将常用到的作了介绍。还有一些分析方法见稿率较低,如判别分析、聚类分析、主成分分析、灰色分析等等。如有必要容后再作介绍。
  (二)在统计分析中,必然涉及到样本含量大小与统计分析方法的对径问题,这个问题在多种版本的医学统计著作中约定成俗的以100例划定。但是,目前随着电子计算机的广泛普及应用,统计分析软件也层出不穷,不仅操作日趋简化,内容含量也愈加增大,运算速度不断提高。在这种新的环境下,大、小样本含量如何界定,希望有识之士发表高见。
  (三)统计的实验设计在医学科学研究中是不可或缺的,但有不少临床医师对实验设计缺乏了解,往往不闻不问,科研工作自行其事,可能因此而走弯路,降低论文质量。今后随着医院科学化管理的加强,应大力倡导和奖励临床医学的观察与实验,以激励医护人员在临床实践中注意发现课题,一旦有了适宜的课题后马上与统计信息人员共同商讨课题的目的、方法、进度等,统计人员应主动协助进行实验设计。如,依据科研目的明确总体和检验假设;确立处理因素和观察指标;估计样本含量与分组;作好概率(P)值运算达到科学性。易混杂的东西得到合理控制。使科研工作周密快捷、事半功倍,达到预期的效果。

  (四)从医院管理的角度出发,统计预测和统计决策的稿件日渐增多,也有统计方法与应用范围的关系应当介绍,但是由于预测和决策的统计方法很多,应用性又千变万化,比较复杂,不能涉及,俟后当另文介绍。

董波 王惠慈著
中华医院管理杂志2000年10月第16卷第10期