数据变量是构造样本的基本参数,不同的变量对所解决的问题所起的作用贡献不等,通常应选择作用大的变量,相关性好的变量。变量选择的目的是选出与研究目的有关的、最重要的变量,使变量的结构最优化(即使系统内变量个数尽可能少,且各变量独立,同时对主要信息没有多大损失)。这样不仅经济,而且能获得最佳的地质效果。
从众多的变量中筛选重要变量,必须以地质理论、物化探理论为基础,应用数学方法进行选择,而且不能只强调一个方面而忽视另一个方面,为此需注意如下问题:①由于地质现象的复杂性,各地区工作程度和研究程度不同,取值空间不一致,因此人们的认识必然会存在差异,学术观点也难免不同,这时要想选出合适的变量就要明确研究目的,兼顾各种观点,尽量多选变量,以免漏掉有用信息。②样本是统计分析的基础,需要十分注意样本中变量的代表性。要全面收集三度空间的变量资料,特别是深部资料,例如某些物化探资料和反映深部地质构造、地壳结构的资料。③通过数学方法选出的变量,有时会与研究对象密切相关的变量不一致,有的地质意义不明确,这就需要认真研究,明确其地质意义。同时谨防漏掉隐含意义的变量。对未被选上但地质意义明确,又确实与研究对象密切相关的变量,应查找原因,使其尽可能被数学方法选上。
(一)几何作图法
几何作图法可直观地显示变量与研究对象之间的关系以及变量与变量间的关系。它是根据直角坐标系中样本数据的散点凝聚趋势或离散特点决定变量取舍的方法。这种方法大致分两类。
1.点聚图法
该方法是把变量值点在直角坐标系中,视散点的凝聚趋势来考查变量间关系的方法。图6-15是变量y与x的点聚图,它清楚地表明,取值(xk,yk)(k=1,2,…,n)是沿着一条曲线分布的,它也表明x,y之间有密切关系。这时x可选作y的相关变量。图6-16是两个自变量x1,x2与一个因变量y的点聚图。它的作法与等值图的作法类似,即把x1x2看作一个地理平面或纵、横坐标。按(xij)(i,j=1,2,…,n)两坐标的分度把对应的此值逐个标在x1x2平面上,构成y值数据图;并画出y值等值线图。若y值散布的趋势性明显,y等值线就随x1x2呈现规律性的变化,那么x1x2与y的关系就密切,说明x1x2对y的贡献大,可选作y的相关变量。否则关系不密切,不能作为相关变量。对于三个或三个以上的相关变量的选择,可采用逐步回归分析法。以上所述均属相关变量选择方法。若利用相关程度分类,则这些方法也可作为选择分类变量的方法。
2.数轴法
数轴法是在单一数轴或多条辐射状排列的数轴上标以点值,然后用某一个点值或多个数轴点值构成的多边形图来选择分类变量的方法。
图6-15 一个自变量的点聚图
图6-16 两个自变量的点聚图
(1)单数轴法
它是把已知且分别属于两总体的样品按某变量的值标在一条数轴(即一个变量轴)上,若两总体的散点聚能用数轴上某一点值分开,且区分率在70%以上,该变量即可作为分类变量。又如对两个变量的散点图,若通过某一条直线能把两总体的散点聚基本分开,区分率在70%以上时,这两个变量可选作分类变量,如图6-17(a)所示。
图6-17 数轴法
1~8为样品编号
(2)多数轴法(雷达图法)
以选择分类变量为例来阐明该方法的基本思想。假设在已知有矿及无矿的两类样品中每个样品取p个变量(x1,x2,…,xp),构作雷达图。作图方法:以O为原点,取适当长度(图面清晰即可)为半径画圆。将圆周分成p等分,连接圆心与等分点得p条辐射状的半径,以这p条半径作为p个变量的坐标轴,根据每个变量观测值的波动大小,对p条坐标轴分度。然后将每个样品中各变量观测值点于坐标袖上,连成p边形,每个p边形代表一个样品,分析对比两类总体所构成的p边形,以选择分类变量。现举一个假设的例子加以说明,设有8个岩体:1,2,3,4为已知含矿岩体;5,6,7,8为已知无矿岩体。在每个岩体内取n个样品,分析5个变量(TiO2,SiO2,FeO,CaO,K2O)的含量值。分别算出8个岩体5个变量的含量平均数,然后作成8个五边形的雷达图,如图6-17(b)所示。由图可以看出,区分两总体最好的变量是 SiO2和 FeO,其次是 TiO2和CaO。但仅依据TiO2和CaO就可能将有矿的4 号岩体错划成无矿岩体。若考虑变量组合SiO2TiO2CaO FeO在有矿岩体中的强相关性,从8个五边形分析,4 号岩体被判为有矿的可能性很大,此外,由图还可以看出,K2O无区分意义,予以删除。
(二)相关法
利用相关原理选择相关变量的方法较多,这里介绍秩相关系数法。对于简单相关系数法可参看(6-34)式和逐步回归分析法。
秩相关系数法又称等级相关系数法。所谓“秩”就是按变量x值由大到小的顺序排成序列(如果有n个数据的值相同,序号取它们对应的序号平均值),则每个数据的序号就称为该数据的“秩”。若需要算出变量x与y的秩相关系数,则应按照上述原则排成两个序列,然后用x、y的秩代替原始变量值,用简单相关系数公式计算,即可得到秩相关系数r:
放射性勘探方法
式中:di为对比序列的秩差,且
(三)秩和检验法
秩和检验法是依据某种变量在两个具有相同分布的总体中,其观测值是否有显著差异来区分两总体的。若差异显著,则该变量就可作为分类变量,否则不能选用。该法的基本假设是:在A、B两总体中,变量x的取值分别为
放射性勘探方法
成立,则两总体关于变量x无差异,即x无区分意义。若上式不成立,说明两总体有差异。差异是显著的,则x可选作A、B两总体的分类变量。
若x的大小用秩表示,由于x的大小在A、B两总体中随机出现,则两总体中,x对应的秩也随机出现。若两总体中,变量x的秩和没有显著差异,说明两总体相似。若有显著差异,说明两总体不相似。也就是说,用变量x可区分这两个总体。
检验步骤如下:①将来自两总体的数据混合起来,根据变量值,由小到大分两总体按秩排成两行;②计算样品数极少的那个总体的秩和,用T表示之;③根据两总体的样品数n1和n2以及给定的显著性水平α,查秩和检验表求出秩和上限T2和下限T1;④若T≥T2或T≤T1,则认为两总体有显著差异,x可选作分类变量。