年,生态学举办了一个富有成果和争议的论坛——“P值、假设检验和模型选择:一切又似曾相识(Pvalues,hypothesistesting,andmodelselection:it’sdej`avualloveragain)”,该论坛主要探讨了在生态统计方面常用的统计量。我们从论坛中学到了很多知识点,如:关于对常见统计量的误解、不同方法的优缺点以及它们之间的内在联系。但我们对许多重要问题仍然没有明确的答案。我们应该如何在不同的模型选择方法中作出决定?什么时候应该进行模型选择?什么时候应该使用多模型推理?这些问题需要进一步明确。
模型选择在许多生态学研究中至关重要,因为生态系统过程庞大,演替缓慢,我们的假设无法通过相关的时间和空间尺度的控制实验来验证。例如,由于落叶松食芽蛾(larchbudmoth)种群循环是一个跨越整个西欧的时空过程,因此如果要检验这种由拟寄生物驱动的假设的实验必须从整个大陆消除这些拟寄生物,同时保持所有其他因素不受干扰。为了检验扩散对热带森林物种丰度的重要性,我们需要在不影响其他任何过程的情况下阻止所有种子向巴罗科罗拉多岛扩散,然后等上几十年,观察它对树冠树木多样性的影响。因此,为了识别观察到的模式背后的机制,并为生态管理做出预测,需要在拟合不完善的观察数据的竞争模型中进行比较和选择。此外,许多生态学研究人员设计许多控制实验来回答模型选择问题:如果一个模型包含了特定协变量的影响或它们之间的相互作用,是否能更好地解释这些数据?例如,净初级生产是否受氮(N)和磷(P)的限制?没有明确的模式模型,开展生态学研究工作就根本无从谈起
在这里,作者提供了一个模型选择指南,它基于一个前提,即仔细识别分析的目标——探索、推断或预测——阐明应该使用哪种模型选择方法。一个“最佳”模型必须是某些研究目的的最佳模型,而不同的目的将导致不同的最佳模型,即使对于相同的数据集也是如此。在选择和比较模型时,我们需要问:什么是最好的模型?事实上,生态学文献中很少有书籍或论文明确规定了模型的目的,或承认针对不同的目标应该选择不同的模型。这与机器学习和统计文献形成了鲜明对比,在这些文献中,建模目标通常被明确考虑。作者认为模型选择必须适合模型的目的。
为了说明问题和解决方案,作者