在机器学习领域,主要有哪三类不同的学习方法
在机器学习领域,主要有哪三类不同的学习⽅法
在机器学习(Machine learning)领域。主要有三类不同的学习⽅法:监督学习(Supervised learning)、⾮监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning)。
监督学习:通过已有的⼀部分输⼊数据与输出数据之间的相应关系。⽣成⼀个函数,将输⼊映射到合适的输出,⽐如分类。
⾮监督学习:直接对输⼊数据集进⾏建模,⽐如聚类。
半监督学习:综合利⽤有类标的数据和没有类标的数据,来⽣成合适的分类函数。
⼀、监督学习
1、监督式学习(Supervised learning),是⼀个机器学习中的⽅法。能够由训练资料中学到或建⽴⼀个模式( learning model)。并依此模式猜測新的实例。
训练资料是由输⼊物件(⼀般是向量)和预期输出所组成。函数的输出能够是⼀个连续的值(称为回归分析)。或是预測⼀个分类标签(称作分类)。
2、⼀个监督式学习者的任务在观察完⼀些训练范例(输⼊和预期输出)后,去预測这个函数对不论什么可能出现的输⼊的值的输出。要达到此⽬的。学习者必须以"合理"(见归纳偏向)的⽅式从现有的资料中⼀般化到⾮观察到的情况。
在⼈类和动物感知中。则通常被称为概念学习(concept learning)。
3、监督式学习有两种形态的模型。
最⼀般的。监督式学习产⽣⼀个全域模型,会将输⼊物件相应到预期输出。⽽还有⼀种,则是将这样的相应实作在⼀个区域模型。(如案例推论及近期邻居法)。为了解决⼀个给定的监督式学习的问题(⼿写辨识),必须考虑下⾯步骤:
1)决定训练资料的范例的形态。
在做其他事前,project师应决定要使⽤哪种资料为范例。譬如,可能是⼀个⼿写字符,或⼀整个⼿写的词汇。或⼀⾏⼿写⽂字。
2)搜集训练资料。这资料需要具有真实世界的特征。所以。能够由⼈类专家或(机器或传感器的)測量中得到输⼊物件和其相相应输出。
3)决定学习函数的输⼊特征的表⽰法。
学习函数的精确度与输⼊的物件怎样表⽰是有⾮常⼤的关联度。传统上,输⼊的物件会被转成⼀个特征向量。包括了很多关于描写叙述物件的特征。由于维数灾难的关系。特征的个数不宜太多,但也要⾜够⼤。才⼲准确的预測输出。
4)决定要学习的函数和其相应的学习算法所使⽤的数据结构。譬如。project师可能选择⼈⼯神经⽹络和决策树。
5)完毕设计。project师接着在搜集到的资料上跑学习算法。能够借由将资料跑在资料的⼦集(称为验证集)或交叉验证(cross-validation)上来调整学习算法的參数。參数调整后,算法能够执⾏在不同于训练集的測试集上
另外对于监督式学习所使⽤的词汇则是分类。现著有著各式的分类器。各⾃都有强项或弱项。分类器的表现⾮常⼤程度上地跟要被分类的资料特性有关。
并没有某⼀单⼀分类器能够在全部给定的问题上都表现最好,这被称为‘天下没有⽩吃的午餐理论’。
各式的经验法则被⽤来⽐較分类器的表现及寻会决定分类器表现的资料特性。决定适合某⼀问题的分类器仍旧是⼀项艺术,⽽⾮科学。
眼下最⼴泛被使⽤的分类器有⼈⼯神经⽹络、⽀持向量机、近期邻居法、⾼斯混合模型、朴素贝叶斯
⽅法、决策树和径向基函数分类。
⼆、⽆监督式学习
1、⽆监督式学习(Unsupervised Learning )是⼈⼯智能⽹络的⼀种算法(algorithm)。其⽬的是去对原始资料进⾏分类,以便了解资料内部结构。有别于监督式学习⽹络,⽆监督式学习⽹络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种⽹络提供输⼊范例。⽽它会⾃⼰主动从这些范例中出其潜在类别规则。当学习完成并经測试后,也能够将之应⽤到新的案例上。
2、⽆监督学习⾥典型的样例就是聚类了。聚类的⽬的在于把相似的东西聚在⼀起,⽽我们并不关⼼这⼀类是什么。因此,⼀个聚类算法通常仅仅须要知道怎样计算相似度就能够開始⼯作了。
三、半监督学习
1、半监督学习的基本思想是利⽤数据分布上的模型如果, 建⽴学习器对未标签样本进⾏标签。
形式化描写叙述为:
给定⼀个来⾃某未知分布的样本集S=L∪U, 当中L 是已标签样本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, U是⼀个未标签样本集U=
{x’1,x’2,…,x’|U|},希望得到函数f:X → Y能够准确地对样本x预測其标签y,这个函数可能是參数的。如最⼤似然法;可能是⾮參数的。如最邻近法、神经⽹络法、⽀持向量机法等;也可能是⾮数值的,如决策树分类。当中, x与x’ 均为d 维向量, yi∈Y 为样本x i 的标签, |L|和|U| 分别为L 和U 的⼤⼩, 即所包括的样本数。半监督学习就是在样本集S 上寻最优的学习器。怎样综合利⽤已标签例⼦和未标签例⼦,是半监督学习须要解决的问题。
2、半监督学习问题从样本的⾓度⽽⾔是利⽤少量标注样本和⼤量未标注样本进⾏机器学习。从概率学习⾓度可理解为研究怎样利⽤训练样本的输⼊边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好性能的分类器。这样的联系的存在是建⽴在某些如果的基础上的。即聚类如果(cluster assumption)和流形如果(maniford assumption)。
⼈⼯智能、⼤数据、云计算和物联⽹的未来发展值得重视,均为前沿产业,多智时代专注于⼈⼯智能和⼤数据的⼊门和科谱,在此为你推荐⼏篇优质好⽂:
⼈⼯智能,机器学习和深度学习之间,主要有什么差异?
机器学习已经被⼴泛应⽤,但是⼊⾏机器学习主要难在哪⾥?
⼲货:深度学习 vs 机器学习 vs 模式识别三种技术对⽐大数据要学什么

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。