酿酒葡萄与葡萄酒理化指标的联系分析--慧智精品网

酿酒葡萄与葡萄酒理化指标的联系分析
作者：薛凌云　刘洋洋
来源：《科技视界》2012年第32期

【摘要】本文针对酿酒葡萄与葡萄酒理化指标之间的联系，首先运用主成分分析的方法分别对葡萄酒样品与酿酒葡萄样品的理化指标进行分析，然后采用典型相关分析的方法建立模型。在分析时，分别在两组变量中提取有代表性的两个综合变量，利用两个综合变量之间的相关关系来反映两组指标之间的整体相关性。最后得出结论两组变量之间具有明显的相关性。

【关键词】主成分分析；典型相关性分析；平均值

1 模型准备

1.1 主成分分析算法

主成分分析是一种通过降维技术把多个变量化为少数几个主成分（即综合变量）的多元统计方法，这些主成分能够反映原始变量的大部分信息，通常表示为原始变量的线性组合[1]主成分分析的基本原理为：

假定有样本，每个样本共有p个特征，构成一个n×p阶的数据矩阵：

X=x■ x■ … x■x■ x■ … x■┇ ┇ ┇x■ x■ … x■

当p较大时，在p维空间中考察问题比较麻烦。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息，同时它们之间又是彼此独立的。

记x■，x■，…，x■为原变量指标，z■，z■，…，z■怎样酿制葡萄酒（m≤p）为新变量指标：

z■=l■x■+l■x■+…+l■x■z■=l■x■+l■x■+…+l■x■…………z■=l■x■+l■x■+…+l■x■

从以上的分析可以看出，主成分分析的实质就是确定原来变量x■（j=1，2，…，p）在诸主成分z■（i=1，2，…，m）上的荷载l■（i=1，2，…，m； j=1，2，…，p）。从数学上可以证明，它们分别是相关矩阵m个较大的特征值所对应的特征向量。主成分分析的步骤为：

步骤一：计算相关系数矩阵：

R=r■ r■ … r■r■ r■ … r■┇ ┇ ┇r■ r■ … r■

r■（i，j=1，2，…，p）为原变量x■与x■的相关系数，r■=r■，其计算公式为：

r■=■

步骤二：计算特征值与特征向量：

解特征方程λI-R=0，常用雅可比法（Jacobi）求出特征值，并使其按大小顺序排列λ■≥λ■≥…≥λ■≥0。

分别求出对应于特征值λ■的特征向量e■（i=1，2，…，p）■，要求？襓e■？襓 =1，即■e■■=1，其中e■■表示向量e■的第j个分量。

计算主成分贡献率及累计贡献率：

贡献率：

■ （i=1，2，…，p）（1）

累计贡献率：

■ （i=1，2，…，p）（2）

一般取累计贡献率达85%～95%的特征值λ■，λ■，…，λ■所对应的第1、第2、…、第m（m≤p）个主成分。

计算主成分载荷：

l■=p（z■，x■）=■e■■（i，j=1，2，…，p）（3）

各主成分的得分：

z■ z■ … z■z■ z■ … z■┇ ┇ ┇z■ z■ … z■

1.2 典型相关分析算法

典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它能够揭示出两组变量之间的内在联系。

典型相关分析的基本思想和主成分分析非常相似。其目的是识别并量化两组变量之间的联系，将两组变量相关关系的分析化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。它的基本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两个综合变量，利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

首先在每组变量中出变量的一个线性组合，使得两组的线性组合之间具有最大的相关系数。然后选取相关系数仅次于第一对线性组合并且与第一对线性组合不相关的第二对线性组合，依次类推下去，直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。典型相关系数反映了这两组变量之间联系的强度。

设X=[x，x，…，x]，Y=[y，y，…，y]是两个相互关联的随机向量，分别在两组变量中选取若干有代表性的综合变量M■，N■使得每一个综合变量是原变量的线性组合。

M■=a■x■+a■x■+…+a■x■=a■X

N■=b■y■+b■y■+…+b■y■=b■Y

在确保典型变量保持唯一性时，取方差为1的X、Y的线性函数a■X与b■Y，求使得它们相关系数达到最大的这一组。若存在常向量a■、b■，在a■X与b■Y的方差相等且为1情况下，使得相关系数ρ（a■X，b■Y）达到最大，则称a■X与b■Y是X与Y的第一对典型相关变量。求出第一对典型相关变量之后，可以类似的求出各对之间互不相关的第二对典型相关变量、第三对典型相关变量……。这些典型相关变量就反映了X、Y之间的线性相关情况。我们可以通过检验各对典型相关变量相关系数的显著性，来反映每一对综合变量的代表性，如果某一对的相关程度不显著，那么这对变量就不具有代表性，不具有代表性的变量就可以忽略。这样就可以通过对少数典型相关变量的研究，代替原来两组变量之间的相关关系的研究，从而容易到问题的本质。

对于X（有p个分量）、Y（有q个分量）两组变量，假设p≤q。则

X■=XY=x■，x■，…，x■，y■，y■，…，y■■Cov（X，Y）=V■ V■V■ V■

其中V■=Cov（X），V■=V■=Cov（X，Y），V■=Cov（Y）即将总的样本协方差分为第一组变量X的协方差阵V■，两组变量之间的协方差阵V■和V■以及第二组变量Y的协方差阵V■。计算p×p阶矩阵A=V■■V■V■■V■和q×q阶矩阵B=V■■V■V■■V■。可以证明，矩阵A和B

具有相同的非零特征根，且非零特征根的个数r=rank（A）=rank（B）。

然后计算矩阵A和B的非零特征根，记特征根为λ■■，λ■■，…，λ■■，且λ■■≥λ■■…≥λ■■。a■，a■，…，a■为A对应于λ■■，λ■■，…，λ■■的特征向量，b■，b■，…，b■为B对应于λ■■，λ■■，…，λ■■的特征向量。则最大特征根λ■■的对应特征向量a■=（a■，a■，…，a■）和b■=（b■，b■，…，b■）就是所求的第一队典型变量的系数向量，即

M■=a■x■+a■x■+…+a■x■

N■=b■y■+b■y■+…+b■y■

最大特征根λ■■的平方根λ■即为两典型变量的相关系数，成为第一典型和相关系数。

类似地，依次可求出第j（j≤r）个特征根λ■■的平方根λ■■，其对应的特征向量a■和b■为第j对典型变量的系数向量，称M■=a■X和N■=b■Y为第j对典型变量，λ■为第j典型相关系数。

根据证明，矩阵A和B的特征值还具有以下的性质：

（1）矩阵A和B有相同的非零特征值，且相等的非零特征值的数目就等于r；

（2）矩阵A和B的特征值非负；

（3）矩阵A和B的全部特征值均在0和1之间。

1.3 模型的建立与求解

数据采用采用2012年全国数学建模竞赛中A题中数据，利用均值法对（附件2-理化指标）做数据处理，然后运用spass对各个样品葡萄作主成份分析。本操作是选择以特征根大于1为标准提取主成份，或按照累积方差的观点，提取大于80%的值。

对红葡萄主成份分析得到解释的总方差和成分矩阵。分析解释的总方差，此处以特征根大于1或按照累积方差大于80%为标准可以提取7个主成份；然后结合成份矩阵具体提取出花苷、DPPH自由基、总酚、总糖、还原糖、可溶性固形物、干物质含量7个主成份，在建立典型相关分析模型时以这7种成份作为对红葡萄进行分析的依据。同样的方法，对白葡萄主成份分析得到解释的总方差和成分矩阵。提取出蛋白质、总酚、葡萄总黄酮、总糖、还原糖、可溶性固性物、可滴定酸、固酸比、干物质含量9个主成份，在建立典型相关分析模型时以这9种成份作为对白葡萄进行分析的依据。

对于红葡萄酒的主要成分，提取出附件2中的第一指标及附件3中其成分在各个样品总和相对较高者，得到花苷、单宁、总酚、酒总黄酮、白藜芦醇、DPPH半抑制体积、辛酸乙酯7中主要成分。

同样的方法，对于白葡萄酒主要成分，提取出单宁、总酚、酒总黄酮、白藜芦醇、DPPH半抑制体积、辛酸乙酯、乙醇、己酸乙酯、癸酸乙酯9中主要成分

根据以上建立的模型，运用matlab[2]对酿红酒葡萄与红葡萄酒所处理过的数据进行求解，采用2012年全国数学建模竞赛中A题中数据，得到矩阵A和矩阵B的特征根及特征向量，由于矩阵A和矩阵B具有相等的特征根，因此可对X、Y两组变量进行典型相关分析，由matlab求解得到7对典型相关变量及典型变量系数和典型相关系数。

第一典型变量：

u1=（1.2549 0.1938- 0.2710-0.1240-0.2158 0.2880 0.0489）T

v1=（0.9215 0.3301 0.1270 0.5590 0.1631-1.0091-0.0130）T

典型相关系数为：0.9426

M1=1.2549x1+0.1938x2-0.2710x3-0.1240x4-0.2158x5+0.2880x6 +0.0489x7

Ni=0.9215y1+0.3301y2+0.1270y3+0.5590y4+0.1631y5-1.0091y6 -0.0130y7

第二典型变量：

u2=（-0.7322 0.1994 1.3059 0.1943 0.1144 -0.1514 0.0455）T

v2=（-1.0678 0.4214 0.2154 0.3990 0.0236 0.4540 0.0756）T

典型相关系数为：0.8045

慧智精品网

酿酒葡萄与葡萄酒理化指标的联系分析

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

酿酒葡萄与葡萄酒理化指标的联系分析

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物