小中大假设要建立各因素构成的数据矩阵X(包含p个变量)与由各目标构成的数据矩阵Y(包含p1个变量)之间的关系,样本数为m。大体包含以下3步:
首先将X矩阵作双线性分解,即
(2—9)
其中矩阵T含有两两正交的隐变量或得分矢量t。从统计学上看这个表达式与主成分分析法相同。
然后对目标矩阵Y也作双线性分解。即
(2—10)
其中U矩阵包含Y的隐变量u,即u为矩阵Y中变量的线性组合,E为残差阵。
在本课题中,X可以看作是光谱数据矩阵,Y可以看作是茶叶成分含量值。
第三步,PLS方法要求X分解得到的隐变量t与Y分解得到的隐变量u为最大重叠或相关性最大,因此有
(2—11)
式中e为残差矢量,系数v根据最小二乘确定。
在实际问题中,由于矩阵X中的变量之间存在着相关性,同时还包含有噪声,所以PLS方法建模时取X矩阵分解后的隐变量个数h一般小于实际变量个数p,使得一些包含有噪声的隐变量被删除,因而具有噪声过滤作用[27]。
但是如果使用的隐变量数过少,就不能充分反映被测组分浓度变化产生的光谱变化,模型预测准确度就会降低。如果使用过多的隐变量建模,就会引入一些代表噪声干扰的隐变量,使模型的预测能力下降。因此,需要合理确定模型的隐变量数以充分利用光谱信息和滤除噪声。
对隐变量个数的确定常采用所谓的 PRESS(Prediction Residual Error Sum of Squares:预报残差平方和)判据。它的基本思想如下:将样品集分为训练样品集和检验样品集,假定当前的隐变量个数是h1,将检验样品集的样品逐一代入根据训练样品集建立的模型,求得预测值和参考值的差(残差),在计算它们的平方和:
(2—12)
式中m为用来预测的样品数。yn和yn,-n分别为参考值和预测值。PRESS越小,表示模型的预测能力越强。这样可以将其取得最小值的隐变量个数h作为最终的隐变量个数。
若矩阵Y中只有一个目标变量(只对茶叶中的一种成分建模),则PLS方法的计算将会简化。将此时的PLS称为PLS1算法,对多目标变量时称为PLS2法。用PLS1法建立的数学模型的预报能力一般会更高。这主要是因为有时矩阵Y中的目标变量yi不属于同一类型,对应于由X求得的隐变量最优个数不一定相同,而PLS2法只能有一个隐变量个数。
PLS具有以下的特点:
(1)既可以使用全部光谱数据(数据向量多)又可以使用部分光谱数据(数据向量少)。
(2)把数据分解和回归融合在一起,得到的特征向量直接与被测成分或性质相关,而不是与数据矩阵中变化最大的变量相关。
(3)PLS方法比较适用于处理变量多而样本数少的问题。
(4)由于PLS法是一种非线性迭代方法,对于非线性体系和质量参数之间相互干扰的数据回归效果优于多元线性回归方法。
相对于多元线性回归法,PLS法的缺点是模型建立过程复杂,公式含义抽象、较难理解。
在化学计量学定标方法中,偏最小二乘法最为常见[28]。例如:曹干等采用PLS法建立蔗汁蔗糖定量分析的数学模型。蔗汁蔗糖分和转光度预测数学模型的决定系数(R2)分别为0.9980和0.9979,校正均方根差(RMSECV)分别为0.143%和0.155%,预测误差与常规分析方法的误差接近[29];覃方丽等对鲜辣椒中糖份和维生素C的含量用偏最小二乘回归法进行了建模,表明二者的含量与近红外光谱有显著的相关关系(0.9024,0.9122)[30];王东丹等对青烟叶的总糖、还原糖、尼古丁、总氮、总氯等5种主要品质参数建模,用的是偏最小二乘法。其中总糖的平均相对误差最小(4.78%),而总氯的平均相对误差最大(18.60%)[31]。
2.2.3 人工神经网络法
人工神经网络(Artificial neural network,ANN)又称神经网络,是一种模拟人脑功能的信息处理系统。它主要借鉴了人脑神经系统处理信息的过程,以数学网络拓扑结构为理论基础,在信号处理、模式识别、目标跟踪、机器人控制等等领域的应用中获得了引人注目的成果。
虽然目前ANN系统模拟生理神经网络还处于低级水平,但已显示出一些与生物脑类似的特点:
(1)ANN是并行结构,处理顺序也是并行和同时的,其结算功能分布在多个处理单元上,与Von Neumann 型计算机的工作原理不同。
(2)ANN具有学习能力。根据一定的学习算法,网络能通过训练实例来决定自身的行为。
(3)ANN 具有较强的容错能力。因神经网络的知识存储体现在神经元互连分布上,即存在整个系统中。一定比例的神经元不参加计算,对整个系统得性能不会产生重大影响。
人工神经网络有多种算法,目前用的最多的是BP人工神经网络[32]。下面以BP网络为例介绍神经网络的结构。
ANN最基本的构成单位为处理单元,即人工神经元。就像生物神经元一样,人工神经元也可以有很多个输入。人工神经元的每一输入都经过相关的加权,以影响输入的激励作用,就像生物神经元中突触的可变强度,它确定了输入信号的强度。就像生物神经元中的突触可受外界因素影响一样,人工神经元对所有输入信号求和,然后确定其输出。
一个具有R个输入的BP神经元模型如图2-3所示,其中每个输入与对应权值w的乘积之和与阈值一起作为传递函数f的输入。
图2-3 BP神经元结构
在BP神经网络中经常使用的传递函数(transfer function)是对数S形函数、正切S形函数和线性函数(图2-4——图2-6)。对数S形函数产生0到1之间的输出,而正切S形函数产生-1到1之间的输出。所以在多层BP神经网络中,采用不同的传递函数将得到不同范围的输出,如果采用线性函数就可以得到任意大小的输出值。
图2-4 对数S形函数 图2-5 正切S形函数
图2-6 线性函数
图 2-7所示是典型的BP网络拓扑结构。图中从左至右的3层分别称为输入层、隐含层和输出层。从图中可看出,输入层、隐含层和输出层均由许多节点组成。输入信号经输入层节点,向前传递到隐含层节点,经过作用函数后,再把隐含层节点输出的信号传递至输出层节点,再经作用函数作用后由输出层节点给出结果。
图2-7 BP神经网络的结构
确定了神经网络的结构以后要让它“学习”,网络学习公式推导的指导思想是,对网络权值与阈值进行修正,使代价函数沿梯度方向下降[33]。通常代价函数定义为:
(2—13)
式中m为样本数,q为理想输出值(或实际输出值)的个数。算法的学习过程由正向传递和反向传递组成。在正向传递过程中,输入信息从输入层经隐含层节点逐层处理,并传向输出层,每层节点的状态只影响下一层节点的状态。如输出层没得到预期的结果(代价函数E太大),则转入反向传递,将误差信号沿原通道返回,并通过修改各层的权重,使误差(代价函数E)最小。图2-8给出了BP神经网络学习的程序流程。
人工神经网络在红外光谱分析中有较为成功的例子:杨南林等采用近红外光谱法测定冬虫夏草样品中的甘露醇,其含量范围为8.082%~14.548%。在7501.7~6097.8 cm-1与5453.7~4246.5 cm-1波段,分别采用主成分回归(PCR)、偏最小二乘回归(PLSR)和BP神经网络方法建立了样品近红外光谱的一阶微分光谱与其甘露醇含量之间的相关模型。BP神经网络模型的内部交叉验证误差均方根为0.475,预测误差均方根为0.608,均优于PCR和PLSR的处理结果。表明BP神经网络法对非线性检测对象具有较好的建模效果[34]。孙秀云等运用人工神经网络法对多组分大气污染物(8种)进行了定量分析,能得到较为满意的结果[35]。
图2-8 BP神经网络的程序流程
茶叶完整叶的近红外光谱测量结果会有噪声存在;茶叶成分复杂,除水分外被分析组分分子结构复杂,光谱中必然存在非线性因素。多元线性回归适用于线性关系好的体系,不考虑质量参数之间相互干扰的影响,对于数据向量(特征波长)较少的体系回归效果较好。但是对于非线性体系回归效果不好,进而影响模型的预测能力。本文应用偏最小二乘法和人工神经网络法来建立四种成分的校正模型。偏最小二乘法具有噪声过滤作用,是目前十分有效、比较优越的方法。而人工神经网络法是解决非线性问题的最优方法之一。