迁移学习在金融行业的应用探索
迁移学习在金融行业的应用探索
作者:盛瀚北京银行
摘要:通过迁移学习技术,解决少量数据(较少重叠样本和特征)和个性化(较少标记)的问题,从数据丰富的领域迁移到数据匮乏的领域。通过迁移学习在保证模型准确率的同时,也提高了建造模型的效率,快速解决问题。
关键词:迁移学习,联邦学习
1.引言
迁移学习(Transfer Learning)是一种机器学习技术,它通过将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。迁移学习同时也是一种优化,它允许在第二个任务上建模时取得快速进步和改善性能。
迁移学习其实离我们的生活并不遥远,人类的迁移学习能力其实是与生俱来的。例如,如果我们已经会打乒乓球,就可以类比学习打网球;已经学会英语,就可以类比着来学习其他语言;再如,如果我们已经会下中国象棋,就可以类比着下国际象棋。
根据学习方法的不同,迁移学习可以分为以下四个大类:基于实例的迁移学习(Instance Based Transfer Learning),基于特征的迁移学习(Feature Based Transfer Learning),基于模型的迁移学习(Model Based Transfer Learning)以及基于关系的迁移学习(Relation Based Transfer Learning)。其中比较热门的是基于特征和模型的迁移方式。
2.迁移学习与联邦学习的区别与联系
在迁移学习中,我们已有的知识叫做源域(Source Domain),要学习的新知识叫目标域(Target Domain)。在机器学习领域中,迁移学习研究如何将已有模型应用到新的不同的、但有一定关联的领域中。传统机器学习在应对数据的分布、维度,以及模型的输出变化等任务时,模型不够灵活、结果不够理想,而迁移学习放松了这些假设。在数据分布、特征维度以及模型输出变化条件下,有机地利用源域中的知识来对目标域更好地建模。另外,在有标定数据缺乏的情况下,迁移学习可以很好地利用相关领域有标定的数据完成数据的标定。
图1 迁移学习过程示例
说到迁移学习,大家经常首先想到的是热词“联邦学习(联邦机器学习)”,联邦机器学习是一个机器学习框架,包括模型训练和模型推理两个过程。而迁移学习和联邦学习两者之间也是有明显区分的。联邦学习是把“碎数据”和“数据孤岛”连接起来,其设计目标是在保障大数据交换时的信息安
全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效
率的机器学习。而迁移学习是从“大数据”到“小数据”的迁移,重点解决了“小数据”的问题,让知识可以从一个源领域迁移到另一个目标领域,是一种“举一反三”的学习能力。
两者之间又存在着紧密的联系,比如在进行联邦学习时常常需要做知识迁移,因为数据孤岛分布不均匀,有的大有的小。于是后来有专家提出的“联邦迁移学习”,这正是把联邦学习和迁移学习结合起来,发挥两种机器学习的优势。让不同机构在保护数据隐私的前提下合作,没有算法、领域、数据类型的限制,而且模型效果无损失。
3.迁移学习解决的主要问题
迁移学习中存在的三个研究问题,即“迁移什么”、“如何迁移”和“何时迁移”。而结合迁移学习的特性,从应用场景的角度,迁移学习解决的主要问题包括:
(1)小数据的问题。比如在网上销售一种新产品A,考虑到没有历史数据作为依据,无法建立模型对用户进行推荐。但用户买某个产品的同时同样有机会购买另外一些产品,所以如果知道用户在另外一个领域,已经有了积累的销售数据,比如产品B,利用这些数据建一个模型,结合用户买B产品习惯和A产品习惯的关联,我们就可以把B产品的推荐模型给成功地迁移到A产品的领域,这样,在数据不多的情况下可以成功推荐一些用户可能喜欢的A产品。这个例子就说明,我们有两个领域,一个领域已经有很多的数据,能成功地建一个模型,有一个领域数据不多,但是和前面那个领域是关联的,就可以
把那个模型给迁移过来。
(2)个性化的问题。比如我们每个人都希望自己的手机能够记住一些习惯,这样不用每次都去设定它,我们怎么才能让手机记住这一点呢?其实可以通过迁移学习把一个通用的用户使用手机的模型迁移到个性化的数据上面。所谓的千人前面其实就是大量的用户数据分析,推荐最精准的功能产品,比如银行APP首页的展示,也是根据用户手机操作的偏好来排列展示,任何操作应该控制在3步以内。
4.迁移学习的实际应用
(1)机器人训练
在实际的机器人上训练模型是非常缓慢和昂贵的。从模拟中学习并且将知识迁移到现实世界的机器人上的方式能缓解这个问题,并且这种方面最近正得到越来越多的关注。例如自动驾驶汽车。早在5年前Udacity已经开源了它用来进行无人驾驶汽车工程纳米学位教学的模拟器,OpenAI 的Universe平台通过视频游戏来训练无人驾驶汽车。
(2)图像理解
从目标识别到行为识别的很多图像理解任务已经运用了迁移学习。通常,这些计算机视觉任务需要大量有标签数据来训练模型,例如使用众所周知的ImageNet 数据集。然而,当计算机视觉的情景稍有变
化(例如从室内到室外、从静止摄像机变为移动摄像机)时,需要调整模型以适应新情况。迁移学习是解决这些适应问题的常用技术。
(3)推荐系统
迁移学习也可以用在推荐系统中,在某个领域做好一个推荐系统,然后应用在稀疏的、新的垂直领域。比如在图书商城搜索的行业书籍,可以应用到不同题材类型的电影。
(4)自然语言处理和文本挖掘
文本挖掘旨在从文本中发现有用的结构性知识并将其应用于其他领域中。在文本挖掘的所有问题中,文本分类旨在用不同的类标签标记新的文本文档。一个典型的文本分类问题是情感分类。在线论坛、博客、社交网络等在线网站上有大量用户生成的内容,能够总结消费者对产品和服务的看法非常重要。情感分类能够通过将评论分为正面和负面两个类别来解决这个问题。但是,在不同的域中,例如不同类型的产品、不同类型的在线网站、不同的行业,用户可能使用不同的词语表达他们具有相同情感的观点。因此,在一个域上训练的情感分类器可能在其他域上表现不佳。在这种情况下,迁移学习可以帮助调整已训练完成的情感分类器以适应不同的领域。
(4)个性化对话
先训练一个通用型的对话系统,然后再根据特定领域的小数据修正它,使得这个对话系统适应该特定领域的任务。比如,一个银行客户需要办理信用卡,他并不想回答所有繁琐的问题,例如信用卡种类,信用卡申请额度,信用卡还款方式、信用卡账单接收方式等。
图2 个性化对话系统
北京信用卡还款

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。