Research

临床科研资料的统计描述

临床科研资料的统计描述
洪 旗 刘关键  四川大学华西临床医学院

  在临床科研文章的撰写、评价或临床科研结果的分析中, 统计分析是其重要的内容。在众多的统计分析方法中, 数据资料的描述是其最基本的方法之一。本文就如何正确使用统计描述方法这个问题做一简要介绍和讨论, 以供临床科研工作者参考。
  统计描述是利用统计指标、统计图或统计表, 对数据资料所进行的最基本的统计分析, 使其能反映数据资料的基本特征, 有利于研究者准确、全面地了解数据资料所包涵的信息, 以便做出科学的推断。
  统计描述的内容包括了统计指标、统计图和表,统计指标的使用应根据分析目的、资料类型和资料的分布特征等因素正确选用, 与此同时, 若辅以统计图或统计表则可使数据资料的基本特征更加清晰。数据资料的统计描述可分为数值变量的描述和分类变量的描述, 本文先讨论数值资料描述指标的正确选用, 而统计图表的正确使用请参阅其它书籍。
  描述数值变量资料的基本特征有两类指标, 一是描述集中趋势的指标, 用以反映一组数据的平均水平; 二是描述离散程度的指标, 用以反映一组数据的变异大小。两类指标的联合应用才能全面描述一组数值变量资料的基本特征。这是目前统计中应用最多、最重要和最广泛的指标体系。描述数值变量资料平均水平的常用指标有均数(算术均数) 、中位数和几何均数等; 而描述数值变量资料离散程度的常用指标有标准差、四分位数间距和变异系数等。

  1  集中趋势指标
  集中趋势的指标, 可用以反映一组数据的平均水平或集中位置。这类指标主要有均数、几何均数和中位数, 通称平均数(Average) 。
  1.1  均数(Mean)
  1.1.1  应用条件: 资料服从正态分布或近似正态分布。
  1.1.2  计算方法: Xi 为各个观察值, n为观察例数。
  1.2  几何均数( Geomet ric Mean)
  1.2.1  应用条件: 资料服从对数正态分布, 或近似对数正态分布, 即等比级数资料。
  1.2.2  计算方法: lgXi 为各个观察值的对数值, n 为观察例数。
  1.3  中位数(Median)
  1.3.1  应用条件: 资料的分布不明, 即偏态分布、两端无界和未知分布的资料。
  1.3.2  计算方法:在一个从小到大的有序数列中,位置居中的那个数,即是中位数。
     

  L : 中位数所在组段的下限。
  i : 中位数所在组段的组距。
  f m : 中位数所在组段的频数。
  Σf L : 小于中位数所在组段的累计频数。

  2  离散程度指标
  离散程度的指标, 可用以反映一组数据间变异大小或个体差异。
  2.1  方差与标准差(Variance , Standard deviation)
  2.1.1  应用条件: 与均数同。资料服从正态分布或近似正态分布。
  2.1.2  计算方法

  

  2.2  四分位数间距(Quartile)
  2.2.1  应用条件: 与中位数相同。即适用于分布不明即偏态分布、两端无界和未知分布的资料。
  2.2.2  计算方法: 在一个从小到大的有序数列中,上四分位数(第75 %百分位数) 与下四分位数(第25 %百分位数) 之差, 即是四分位数间距。即:
  Qu - QL = P75 - P25
  式中的Px 由下式计算:

   

  L : 第x %百分位数所在组段的下限。
  i : 第x %百分位数所在组段的组距。
  f m : 第x %百分位数所在组段的频数。
  Σf L :小于第x %百分位数所在组段的累计频数。
  213  变异系数(Coefficient of variation)
  21311  应用条件: 当多个资料需要比较其变异程度大小时, 若它们的单位不同或单位相同, 但其均数相差过大, 不能用前述的指标进行比较时, 要用变异系数进行比较。
  21312  计算方法:
  
  

  各常用指标详见表1 、表2 。
 

  在使用这些指标时, 应注意两个问题, 一是各个指标都有其适用范围, 应根据实际资料的情况选择使用, 如: 资料若服从正态分布或近似正态分布, 可选用均数和标准差进行描述; 二是各个指标的计算和应用必须具备同质基础。如: 不分性别和年龄地求其血红蛋白量的均数和标准差, 既不能说明男女, 也不能说明儿童或成人血红蛋白量的基本特征。在应用这些描述指标时, 最常见的错误是不考虑这些指标的适用范围和条件的滥用, 如用均数和标准差描述偏态分布、分布未知或两端无界的资料, 就是目前应用过程中较为普遍和典型的错误。
从表中可看出, 均数与标准差联合使用描述正态分布或近似正态分布资料的基本特征; 中位数与四分位数间距联合使用描述偏态分布或未知分布资料的基本特征。

  3  正态分布的判断
  统计描述指标的使用与分布特征有关, 在众多数理统计分布中, 医学科研工作者起码应熟悉正态分布与偏态分布。
  多数情况下, 可以用均数与中位数的关系来判断某资料是否服从正态分布。在统计理论中, 正态分布资料的均数与中位数的差值等于零, 偏态分布资料的均数与中位数的差值不等于零。因此, 在实际工作中只要均数与中位数相差不大时, 可认为该资料服从正态分布。
  在频数表和直方图中, 正态分布的数值资料呈对称分布, 因此, 也可用方法之一。
  正态分布的判断方法最好是使用正态性检验, 目前常用矩法检验, 利用峰度系数和偏度系数来判断是否服从正态分布, 具体方法可参阅医学统计参考书。
  此外, 还可以用医学知识来对分布进行估计。多数情况下, 正常人群的生长发育指标、生理生化指标均服从正态分布; 而微量元素、有毒有害物质都服从偏态分布。而临床上, 与病人所患疾病相关的指标,其分布特征往往已发生改变, 许多指标已不再服从正态分布。如, 正常人的血液指标服从正态分布, 而血液病患者的血液指标却很少服从正态分布。

  参考文献:
  [ 1 ] 杨树勤1 卫生统计学[M] 1 第3 版1 北京: 人民卫生出版社,1996 , 91
  [ 2 ] 方积乾, 徐勇勇, 余松林1 医学统计学与电脑实验[M] 1 上海:上海科学技术出版社, 1997 , 41
  [ 3 ] 蒋知俭1 医学统计学[M] 1 北京: 人民卫生出版社, 1997 , 81
  [ 4 ] 王家良1 临床流行病学[M] 1 第2 版1 上海: 上海科学技术出版社, 2001 , 81

《成都医药》2002年 第28卷 第2期