物种分布模型的理论基础,是生态位的概念,生态位被定义为生态系统中的种群在时间和空间上所占据的位置及其与其他种群之间的关系与作用。
物种分布模型的发展,始于BIOCLIM模型的开发和应用,随后的二十多年内,涌现了HABITAT、DOMAIN、生态位因子分析模型(Ecological Niche Factor Analysis, ENFA)、马氏距离(Mahalanobis Distance, MD)、边界函数方法(Border Function, BF)、最大熵模(Maximum Entropy, Maxent)、广义线性模型(Generalized Linear Model, GLM)、广义加法模型(Generalized Additive Model, GAM)、分类与回归树模型(Classification and Regression Tree, CART)、推动回归树模型(Boosted Regression Tree, BRT)、多元适应性回归样条(Multivariate Adaptive Regression Splines, MARS)等基于统计的和基于规则集的遗传算法(Genetic Algorithm for Rule-set Prediction, GARP)、人工神经网络(Artificial Neural Network, ANN)等基于人工智能的模型。
BIOCLIM模型将生态位定义为在环境变量空间中包含所有研究物种样本的超体积。按照此定义,该超体积是一个以各环境变量的极值(极大值和极小值)界定的超矩形,超矩形所界定的变量范围都被认为是适合于物种分布的。这种定义的缺陷在于,极限环境条件也被认为能够维持种群的稳定,这是不合理的,因为在极限环境条件下,物种虽然能够存活,但是不能维持种群的延续。因此,为减少极值对模型性能的影响,提高模型的预测能力,通常在界定多维超矩形的边界之前,对所有样本上的各变量值进行排序,在其中选择一定数量的极值样本(例如最高的5%)并对这些环境变量的极值进行平均处理以得到超矩形的边界,由此估计物种的潜在分布区。
HABITAT模型将生态位定义为物种在环境变量空间上的凸壳,与BIOCLIM模型不同,在环境变量空间中HABITAT模型不再将环境变量的极值作为生态位的边界,即边界不再是刚性的,而以样本本身所对应环境变量的一个邻域作为适宜物种分布的环境条件,这样就排除了某些极限环境条件。遗憾的是,HABITAT模型对边界的刻画仍然依赖于外围样本。
基于Gower距离算法的DOMAIN模型利用点-点的相似矩阵计算目标点上环境变量的适宜性,该适宜性表示了在环境变量空间中(而非现实分布空间中),目标点与离它最近的分布样本点之间的相似程度。在确定物种的生境或者分布范围时,首先需要确定一个阈值以排除非适宜分布区。与之前BIOCLIM方法相比,DOMAIN模型在环境变量空间中确定的环境超矩形并不一定是连续的。
生态位因子分析模型(ENFA)通过计算边际性和环境偏差来度量目标点的适宜性。在一维情况下,边际性表现为该环境变量的值域上,分布样本点所对应的环境变量的均值(样本均值)与研究区所有点对应的环境变量的均值(全局均值)之间的差;环境偏差其实就是该环境变量的样本方差与全局方差之间的差别。在多维情况下,边际性和环境偏差以多维向量的形式表示。在确定了边际性和环境偏差之后,应用阈值对环境条件进行筛选,可得到物种在环境变量空间中的适宜范围, 将其映射到实际研究区,便可得到物种的分布区域。
BF模型以边界函数界定物种在环境变量空间上的边界。以二维环境变量(V1和V2)空间为例,边界函数的确定方法分为以下步骤: 首先,收集物种分布样本及与之相关的环境变量V1和V2,并作散点图;其次,对其中的一个变量(例如V1)进行分段并取各段的中值(或均值),对各段V1值相对应的V2进行排序,选择一定比例(如5%)的极值并统计极值的平均;再次,在对每一段进行相应分析之后,可得一系列环境变量对偶值,对这些值进行拟合,便可得环境变量的边界函数,对影响研究物种分布的各环境变量都进行相应的分析,则可得出物种在整个环境变量空间上的边界;最后,将所得边界映射至研究区的环境变量,便可估计物种的潜在分布区。该方法更加准确的刻画了环境变量空间上的生态位,其缺憾在于相关计算和处理较为繁琐。
CART模型通过二值递归分割产生二叉树,在每一个可能的节点根据变量的值进行判断并将变量的所有值分割为两个子类。每一次分割都只基于单个变量值,在此过程中,有些变量值可能会被采用多次,而另外一些变量值则可能不会被采用。在每一次分割之后,能够保证包含在两子类中的变量值是“有区别的最大化”。两个子类的变量值根据一定的准则被继续分割,直至达到分类的目的。在物种潜在分布模拟中,通常以物种分布样本上各变量的极值作为节点进行分割。
GARP模型利用物种的分布数据和环境数据运行产生不同规则的集合,判断物种的生态需求,然后预测物种的潜在分布区。GARP模型是一个反复迭代,寻找最优种类分布规则的过程,在模型中,遗传算法本身并不能刻画生物分布与环境因子的关系,被用来刻画这种关系的是“规则(Rule)”,如Range规则, Atomic规则, Logit规则等等,遗传算法的作用是为这些规则寻找最大的参数。GARP模型具有以下优点: 首先,它能快速有效的搜索多变量空间;其次,遗传算法是一种非参数方法,它对变量所属总体的统计分布形式没有严格要求;第三,GARP模型中集成了多类规则,各类规则之间的互补提高了GARP的模拟能力。
2 各物种分布模型的性能表现
应用本文提及的物种分布模型,Elith等对分布于全球6个不同地区的226种物种(澳大利亚湿润赤道地区的鸟类和植物种、加拿大安大略省的鸟类、澳大利亚新南威尔士州的植物种、哺乳动物和爬行动物种、新西兰的植物种、南美5个国家的植物种以及瑞士的植物种)的空间分布进行了模拟研究,并根据实测样本数据对结果进行了评价,相关结论认为,Maxent模型具有较好的性能表现。自2006年被开发以来,应用该模型进行物种保护区规划、入侵物种的潜在分布预测以及物种的空间分布对气候变化的响应等研究的报道已超过2000次,这也从另一个侧面说明了相关研究领域对该模型的认可程度。GLM模型、GAM模型和GARP模型的性能位于Maxent模型之后,但优于DOMAIN模型和BIOCLIM模型。Tsor等选择分布于以色列的42种蛇类、鸟类和蝙蝠物种进行了空间分布的研究和相关模型的性能评价,结论也同样认为,BIOCLIM模型的性能较差。对其他模型性能的评价结果,却与Elith等的结果有所区别:GARP模型和MD模型的性能优异,HABITAT模型、DOMAIN模型和ENFA模型的性能次之。关于物种分布模型性能评价的最新结果显示:选用不同的性能评价手段对模型的性能进行评价,会导致得出不同的结果;另外,若对适宜分布区范围较小的物种进行空间分布的模拟,则模型之间的差异较大,相反,若研究物种的分布较为广泛,则各模型的性能表现出较高的一致性。