酿酒葡萄与葡萄酒理化指标的联系分析
作者:薛凌云 刘洋洋
来源:《科技视界》2012年第32期
作者:薛凌云 刘洋洋
来源:《科技视界》2012年第32期
【摘 要】本文针对酿酒葡萄与葡萄酒理化指标之间的联系,首先运用主成分分析的方法分别对葡萄酒样品与酿酒葡萄样品的理化指标进行分析,然后采用典型相关分析的方法建立模型。在分析时,分别在两组变量中提取有代表性的两个综合变量,利用两个综合变量之间的相关关系来反映两组指标之间的整体相关性。最后得出结论两组变量之间具有明显的相关性。
【关键词】主成分分析;典型相关性分析;平均值
1 模型准备
1.1 主成分分析算法
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合[1]主成分分析的基本原理为:
假定有样本,每个样本共有p个特征,构成一个n×p阶的数据矩阵:
X=x■ x■ … x■x■ x■ … x■┇ ┇ ┇x■ x■ … x■
当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。
记x■,x■,…,x■为原变量指标,z■,z■,…,z■怎样酿制葡萄酒(m≤p)为新变量指标:
z■=l■x■+l■x■+…+l■x■z■=l■x■+l■x■+…+l■x■…………z■=l■x■+l■x■+…+l■x■
从以上的分析可以看出,主成分分析的实质就是确定原来变量x■(j=1,2,…,p)在诸主成分z■(i=1,2,…,m)上的荷载l■(i=1,2,…,m; j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。主成分分析的步骤为:
步骤一:计算相关系数矩阵:
R=r■ r■ … r■r■ r■ … r■┇ ┇ ┇r■ r■ … r■
r■(i,j=1,2,…,p)为原变量x■与x■的相关系数,r■=r■,其计算公式为:
r■=■
步骤二:计算特征值与特征向量:
解特征方程λI-R=0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列λ■≥λ■≥…≥λ■≥0。
分别求出对应于特征值λ■的特征向量e■(i=1,2,…,p)■,要求?襓e■?襓 =1,即■e■■=1,其中e■■表示向量e■的第j个分量。
计算主成分贡献率及累计贡献率:
贡献率:
■ (i=1,2,…,p)(1)
累计贡献率:
■ (i=1,2,…,p)(2)
一般取累计贡献率达85%~95%的特征值λ■,λ■,…,λ■所对应的第1、第2、…、第m(m≤p)个主成分。
计算主成分载荷:
l■=p(z■,x■)=■e■■(i,j=1,2,…,p)(3)
各主成分的得分:
z■ z■ … z■z■ z■ … z■┇ ┇ ┇z■ z■ … z■
1.2 典型相关分析算法
典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它能够揭示出两组变量之间的内在联系。
典型相关分析的基本思想和主成分分析非常相似。其目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
首先在每组变量中出变量的一个线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取相关系数仅次于第一对线性组合并且与第一对线性组合不相关的第二对线性组合,依次类推下去,直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数反映了这两组变量之间联系的强度。
设X=[x,x,…,x],Y=[y,y,…,y]是两个相互关联的随机向量,分别在两组变量中选取若干有代表性的综合变量M■,N■使得每一个综合变量是原变量的线性组合。
M■=a■x■+a■x■+…+a■x■=a■X
N■=b■y■+b■y■+…+b■y■=b■Y
在确保典型变量保持唯一性时,取方差为1的X、Y的线性函数a■X与b■Y,求使得它们相关系数达到最大的这一组。若存在常向量a■、b■,在a■X与b■Y的方差相等且为1情况下,使得相关系数ρ(a■X,b■Y)达到最大,则称a■X与b■Y是X与Y的第一对典型相关变量。求出第一对典型相关变量之后,可以类似的求出各对之间互不相关的第二对典型相关变量、第三对典型相关变量……。这些典型相关变量就反映了X、Y之间的线性相关情况。我们可以通过检验各对典型相关变量相关系数的显著性,来反映每一对综合变量的代表性,如果某一对的相关程度不显著,那么这对变量就不具有代表性,不具有代表性的变量就可以忽略。这样就可以通过对少数典型相关变量的研究,代替原来两组变量之间的相关关系的研究,从而容易到问题的本质。
对于X(有p个分量)、Y(有q个分量)两组变量,假设p≤q。则
X■=XY=x■,x■,…,x■,y■,y■,…,y■■Cov(X,Y)=V■ V■V■ V■
其中V■=Cov(X),V■=V■=Cov(X,Y),V■=Cov(Y)即将总的样本协方差分为第一组变量X的协方差阵V■,两组变量之间的协方差阵V■和V■以及第二组变量Y的协方差阵V■。计算p×p阶矩阵A=V■■V■V■■V■和q×q阶矩阵B=V■■V■V■■V■。可以证明,矩阵A和B
具有相同的非零特征根,且非零特征根的个数r=rank(A)=rank(B)。
然后计算矩阵A和B的非零特征根,记特征根为λ■■,λ■■,…,λ■■,且λ■■≥λ■■…≥λ■■。a■,a■,…,a■为A对应于λ■■,λ■■,…,λ■■的特征向量,b■,b■,…,b■为B对应于λ■■,λ■■,…,λ■■的特征向量。则最大特征根λ■■的对应特征向量a■=(a■,a■,…,a■)和b■=(b■,b■,…,b■)就是所求的第一队典型变量的系数向量,即
M■=a■x■+a■x■+…+a■x■
N■=b■y■+b■y■+…+b■y■
最大特征根λ■■的平方根λ■即为两典型变量的相关系数,成为第一典型和相关系数。
类似地,依次可求出第j(j≤r)个特征根λ■■的平方根λ■■,其对应的特征向量a■和b■为第j对典型变量的系数向量,称M■=a■X和N■=b■Y为第j对典型变量,λ■为第j典型相关系数。
根据证明,矩阵A和B的特征值还具有以下的性质:
(1)矩阵A和B有相同的非零特征值,且相等的非零特征值的数目就等于r;
(2)矩阵A和B的特征值非负;
(3)矩阵A和B的全部特征值均在0和1之间。
1.3 模型的建立与求解
数据采用采用2012年全国数学建模竞赛中A题中数据,利用均值法对(附件2-理化指标)做数据处理,然后运用spass对各个样品葡萄作主成份分析。本操作是选择以特征根大于1为标准提取主成份,或按照累积方差的观点,提取大于80%的值。
对红葡萄主成份分析得到解释的总方差和成分矩阵。分析解释的总方差,此处以特征根大于1或按照累积方差大于80%为标准可以提取7个主成份;然后结合成份矩阵具体提取出花苷、DPPH自由基、总酚、总糖、还原糖、可溶性固形物、干物质含量7个主成份,在建立典型相关分析模型时以这7种成份作为对红葡萄进行分析的依据。同样的方法,对白葡萄主成份分析得到解释的总方差和成分矩阵。提取出蛋白质、总酚、葡萄总黄酮、总糖、还原糖、可溶性固性物、可滴定酸、固酸比、干物质含量9个主成份,在建立典型相关分析模型时以这9种成份作为对白葡萄进行分析的依据。
对于红葡萄酒的主要成分,提取出附件2中的第一指标及附件3中其成分在各个样品总和相对较高者,得到花苷、单宁、总酚、酒总黄酮、白藜芦醇、DPPH半抑制体积、辛酸乙酯7中主要成分。
同样的方法,对于白葡萄酒主要成分,提取出单宁、总酚、酒总黄酮、白藜芦醇、DPPH半抑制体积、辛酸乙酯、乙醇、己酸乙酯、癸酸乙酯9中主要成分
根据以上建立的模型,运用matlab[2]对酿红酒葡萄与红葡萄酒所处理过的数据进行求解,采用2012年全国数学建模竞赛中A题中数据,得到矩阵A和矩阵B的特征根及特征向量,由于矩阵A和矩阵B具有相等的特征根,因此可对X、Y两组变量进行典型相关分析,由matlab求解得到7对典型相关变量及典型变量系数和典型相关系数。
第一典型变量:
u1=(1.2549 0.1938- 0.2710-0.1240-0.2158 0.2880 0.0489)T
v1=(0.9215 0.3301 0.1270 0.5590 0.1631-1.0091-0.0130)T
典型相关系数为:0.9426
M1=1.2549x1+0.1938x2-0.2710x3-0.1240x4-0.2158x5+0.2880x6 +0.0489x7
Ni=0.9215y1+0.3301y2+0.1270y3+0.5590y4+0.1631y5-1.0091y6 -0.0130y7
第二典型变量:
u2=(-0.7322 0.1994 1.3059 0.1943 0.1144 -0.1514 0.0455)T
v2=(-1.0678 0.4214 0.2154 0.3990 0.0236 0.4540 0.0756)T
典型相关系数为:0.8045
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论