近红外(NIR) » 讨论区 » 分析百问 » 【转载】【讨论】如何避免建模过程中的过拟合

采购询价

点击提交代表您同意 《用户服务协议》 《隐私政策》

 
需要登录并加入本群才可以回复和发新贴

标题:[未解决]【转载】【讨论】如何避免建模过程中的过拟合

  [未解决]本主题悬赏 可用分 1  
vbnm[使用道具]
一星
Rank: 6Rank: 6


UID 119927
精华 2
积分 4008
帖子 7368
信誉分 104
可用分 12070
专家分 0
阅读权限 255
注册 2014-2-3
状态 离线
1
 

【转载】【讨论】如何避免建模过程中的过拟合

虽然有专业化的化学计量学软件,但在建立和维护近红外模型,却依然会遇到很多问题。请问,如何避免建模过程中的过拟合?
顶部
艰苦奋斗[使用道具]
二星
Rank: 7Rank: 7Rank: 7


UID 71375
精华 5
积分 10524
帖子 16352
信誉分 106
可用分 24337
专家分 1
阅读权限 255
注册 2011-8-24
状态 离线
2
 
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
顶部
风往尘香[使用道具]
二星
Rank: 7Rank: 7Rank: 7


UID 71377
精华 2
积分 6046
帖子 10106
信誉分 103
可用分 17361
专家分 0
阅读权限 255
注册 2011-8-24
状态 离线
3
 
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
顶部
adg[使用道具]
一星
Rank: 6Rank: 6


UID 119273
精华 2
积分 4682
帖子 8095
信誉分 104
可用分 12460
专家分 0
阅读权限 255
注册 2014-1-7
状态 离线
4
 
波段选择不当如何引起过拟合呢?这个没有理解。
顶部
ass[使用道具]
一星
Rank: 6Rank: 6


UID 119924
精华 2
积分 4282
帖子 7796
信誉分 104
可用分 12448
专家分 0
阅读权限 255
注册 2014-2-3
状态 离线
5
 
我认为在PLS算法中,产生过拟合主要是两个原因:

1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
顶部
happydream[使用道具]
二星
Rank: 7Rank: 7Rank: 7


UID 72176
精华 2
积分 13076
帖子 20067
信誉分 102
可用分 28092
专家分 10
阅读权限 255
注册 2011-9-5
状态 离线
6
 
如果自己配制样品,一定要看下成分之间是否存在相关性,否则必然过拟合。天然产物类的一般就没有这个问题。

你说的正交验证是指cross validation吗?如果是选择了波段不当,cross validation的效果应该就不好吧,应该不会过拟合。
顶部
iop[使用道具]
一星
Rank: 6Rank: 6


UID 119925
精华 1
积分 4038
帖子 7492
信誉分 102
可用分 12243
专家分 0
阅读权限 255
注册 2014-2-3
状态 离线
7
 
额,从哪个地方可以看出模型是否过拟合呢?
顶部
jiushi[使用道具]
一星
Rank: 6Rank: 6


UID 119272
精华 0
积分 4139
帖子 7578
信誉分 100
可用分 11864
专家分 0
阅读权限 255
注册 2014-1-7
状态 离线
8
 
过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。
顶部
nmn[使用道具]
一星
Rank: 6Rank: 6


UID 119926
精华 2
积分 4087
帖子 7526
信誉分 104
可用分 12354
专家分 0
阅读权限 255
注册 2014-2-3
状态 离线
9
 
那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?
顶部
shuishui[使用道具]
一星
Rank: 6Rank: 6


UID 119322
精华 2
积分 4179
帖子 7650
信誉分 104
可用分 12516
专家分 0
阅读权限 255
注册 2014-1-8
状态 离线
10
 
你说这个貌似和过拟合不是一个概念吧。这个应该是判断出一组数据中异常数据的方法,标准差代表一组数据的离散程度,计算方法是所有数据与平均值偏差的平方和,除以个数,再开根号。
顶部