小中大我认为在PLS算法中,产生过拟合主要是两个原因:
1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。
2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。