Statistics

距离(PROXIMITIES):二分类数据的相似性测量

距离(PROXIMITIES):二分类数据的相似性测量

以下相似性测量可用于二分类数据

 • Russel 和 Rao。这是内(点)积的二分类版本。对匹配项和不匹配项给予相等的权重。这是二分类相似性数据的缺省度量。

 • 简单匹配。这是匹配项与值总数的比率。对匹配项和不匹配项给予相等的权重。

 • Jaccard。在此指数中,不考虑联合不存在项。对匹配项和不匹配项给予相等的权重。又称为相似率。

 • 骰子。在此指数中,不考虑联合不存在项,对匹配项则给予双倍权重。又称为 Czekanowski 或 Sorensen 度量。

 • Rogers 和 Tanimoto。在此指数中,对不匹配项给予双倍权重。

 • Sokal 和 Sneath 1。在此指数中,对匹配项给予双倍权重。

 • Sokal 和 Sneath 2。在此指数中,对不匹配项给予双倍权重,不考虑联合不存在项。

 • Sokal 和 Sneath 3。这是匹配项与不匹配项的比率。此指数有下限 0,无上限。理论上,当没有不匹配项时,此指数就未定义;然而,“距离”在未定义该值或该值大于 9999.999 时会指定随意值 9999.999。

 • Kulczynski 1。这是联合存在项与所有不匹配项的比率。此指数有下限 0,无上限。理论上,当没有不匹配项时,此指数就未定义;然而,“距离”在未定义该值或该值大于 9999.999 时会指定随意值 9999.999。

 • Kulczynski 2。此指数基于特征在一个项中存在的情况下也在另一个项中存在的条件概率。将充当另一个项的预测变量的各个项的各个值进行平均,以计算此值。

 • Sokal 和 Sneath 4。此指数基于一个项中的特征与另一个项中的值相匹配的条件概率。将充当另一个项的预测变量的各个项的各个值进行平均,以计算此值。

 • Hamann。此指数为匹配数减去不匹配数,再除以总项数。其范围为 -1 到 1。

 • Lambda。此指数为 Goodman 和 Kruskal 的 lambda。通过使用一个项来预测另一个项(双向预测),从而与误差降低比例 (PRE) 相对应。值范围为 0 到 1。

 • Anderberg 的 D。类似于 lambda,此指数通过使用一个项来预测另一个项(双向预测),从而与实际误差降低相对应。值范围为 0 到 1。

 • Yule 的 Y。此指数为 2 x 2 表的交比函数,独立于边际总计。其范围为 -1 到 1。又称为捆绑系数。

 • Yule 的 Q。此指数为 Goodman 和 Kruskal 的 gamma 的特殊情况。它是一个交比函数,独立于边际总计。其范围为 -1 到 1。

 • Ochiai。此指数是余弦相似性测量的二分类形式。其范围为 0 到 1。

 • Sokal 和 Sneath 5。此指数是正匹配和负匹配的条件概率的几何平均数的平方。它独立于项目编码。其范围为 0 到 1。

 • phi 4 点相关。此指数是 Pearson 相关系数的二分类模拟。其范围为 -1 到 1。

 • 离散程度。此指数的范围为 -1 到 1。

(可选)您可以更改“存在”和“不存在”字段以指定可指示某个特征存在或不存在的值。该过程将忽略所有其他值。

链接:

    SPSS 距离(PROXIMITIES)
    SPSS 距离(PROXIMITIES):非相似性测量
    SPSS 距离(PROXIMITIES):定距数据的非相似性测量
    SPSS 距离(PROXIMITIES):计数数据的非相似性测量
    SPSS 距离(PROXIMITIES):二分类数据的非相似性测量
    SPSS 距离(PROXIMITIES):相似性测量
    SPSS 距离(PROXIMITIES):定距数据的相似性测量
    SPSS 距离(PROXIMITIES):转换值
    SPSS 距离(PROXIMITIES):PROXIMITIES 命令的附加功能