一种基于大数据挖掘的医保反欺诈系统[发明专利]
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710329362.9
(22)申请日 2017.05.11
(71)申请人 成都四方伟业软件股份有限公司
地址 610041 四川省成都市高新区科园三
路4号1栋2层
(72)发明人 赵红军 王纯斌 覃进学 
(74)专利代理机构 成都金英专利代理事务所
(普通合伙) 51218
代理人 袁英
(51)Int.Cl.
G06F  17/30(2006.01)
G06F  19/00(2011.01)
G06Q  40/08(2012.01)
(54)发明名称
一种基于大数据挖掘的医保反欺诈系统
(57)摘要
本发明涉及一种基于大数据挖掘的医保反
欺诈系统,它包括以下子系统:数据抽取、转换、
加载子系统、大数据存储子系统、数据挖掘子系
统、规则库和知识库子系统、实时流计算子系统
和可视化子系统,所述数据抽取、转换、加载子系
统与大数据存储子系统连接,大数据存储子系统
与数据挖掘子系统连接,数据挖掘子系统与规则
库和知识库子系统连接,规则库和知识库子系统
与实时流子系统连接,大数据存储子系统、规则
库和知识库子系统以及实时流计算子系统再分
别与可视化子系统连接。本发明的有益效果是:
医保要交多少年可以享受终身
通过数据挖掘建立更客观的规则,能适应业务场
景变化,基于数据挖掘的技术可以自动建立和更
新规则库,无需外部干扰,能识别更复杂、更隐蔽
的欺诈手段。权利要求书2页  说明书6页  附图2页CN 107145587 A 2017.09.08
C N  107145587
A
1.一种基于大数据挖掘的医保反欺诈系统,其特征在于,它包括以下子系统:数据抽取、转换、加载子系统、大数据存储子系统、数据挖掘子系统、规则库和知识库子系统、实时流计算子系统和可视化子系统,所述数据抽取、转换、加载子系统与大数据存储子系统连接,大数据存储子系统与数据挖掘子系统连接,数据挖掘子系统与规则库和知识库子系统连接,规则库和知识库子系统与实时流子系统连接,所述大数据存储子系统、规则库和知识库子系统以及实时流计算子系统分别与可视化子系统连接。
2.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述数据抽取、转换、加载子系统从系统外部数据库抽取、转换所需要的数据,并将处理后的数据加载到大数据存储子系统中;所述外部数据库包括关系型数据库、非关系型数据库和日志文件。
3.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述大数据存储子系统用于存储经过数据抽取、转换、加载子系统处理后的数据,存储数据类型包括结构化、非结构化以及半结构化数据;所用存储方式包括分布式关系型方式、非关系型数据库方式和分布式文件系统方式。
4.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述数据挖掘子系统包括分类模块、聚类模块、关联规则和社交网络图分析模块;挖掘所需要的数据来自上述大数据存储子系统、规则库和知识库子系统,挖掘出的规则、模型和知识存储到规则库和知识库子系统;数据挖掘子系统还包括调度更新规则、模型和知识的功能。
5.根据权利要求4所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述调度更新规则、模型或知识的功能包括两种调度方式:以设定时间间隔周期性地调度和以新数据增加到设定的定量调度。
6.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述规则库用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式;所述知识库子系统用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式。
7.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述实时流计算子系统运用规则库和知识库子系统中的规则或知识对新的医保报销数据进打标(分开描述),标记为正常或欺诈,
实时流计算子系统输入的数据包括上述存储在规则库和知识库子系统中的规则、模型或知识和外部业务系统新的报销数据;与外部业务系统的数据传输接口包括:消息队列接口和WebSocket接口;实时流计算框架包括:单独采用Storm框架、单独采用Spark框架和Storm框架、Spark框架两者均采用。
8.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述可视化子系统用于对系统数据进行可视化显示,可视化显示的数据来源于大数据存储子系统、规则库和知识库子系统和实时流计算子系统,可视化展示的方式包括各类图、表,显示的硬件设备为外部显示设备;所述可视化子系统包括显示经实时流计算子系统打标的欺诈报销记录的欺诈记分板,还包括对可视化显示的数据项进行上探和下钻。
9.根据权利要求8所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,所述欺诈记分板使用但不限于红、粗体的醒目方式显示欺诈报销记录,还可以将欺诈报销记录
相关信息以短信和语音的方式推送到外部终端。
10.根据权利要求1所述的一种基于大数据挖掘的医保反欺诈系统,其特征在于,存储库包括关系数据库、非关系型数据库和文件存储系统。
一种基于大数据挖掘的医保反欺诈系统
技术领域
[0001]本发明涉及大数据分析处理技术技术领域,具体涉及一种基于大数据挖掘的医保反欺诈系统。
背景技术
[0002]人社部公布的《2014年度人力资源和社会保障事业发展统计公报》显示,2014年全年城镇基本医疗保险基金总收入9687亿元,支出8134亿元,分别比上年增长17.4%和19.6%,尽管收仍然大于支,但收入增幅明显低于支出增幅,且很多地区的城镇职工医保资金出现收不抵支的情况,医保资金已不堪重负,而且现在各项医疗保险基金支出增长率均超过收入增长率。导致医保资金紧张局面的原因除了人口基数庞大和人口老龄化外,通过各种手段骗取医保资金造成的浪费尤为重要,据初步统计,医保欺诈造成的资金浪费占总医保资
金支出的5%
~10%左右。这些欺诈手段包括:挂床住院;病人和医生合谋伪造资料,倒卖高利
润药品;使用医保卡套取现金、有价证券或购买日用品、食品;伪造、变造诊断证明、病历、处方等证明材料或虚假医疗票据、收费明细骗取基本医保基金支出等。
[0003]为监管医保资金支出,各地政府建立了医保反欺诈系统,这些系统主要是由熟知医保业务知识并有反欺诈侦测经验的专家建立的一系列规则库,这类系统称为基于商业规则的专家系统。这类反欺诈系统的规则一般较为简单,比如普通感冒病人的医保报销费用显著超过当地感冒的平均费用时,认为是欺诈。此类医保反欺诈系统存在以下的缺限:只对已知的欺诈策略起作用,无法自动发现新的欺诈策略;难于维护和更新,当新政策出台时,必须手动更新规则库;新的欺诈策略很容易绕过内部定义的规则;受限于专家的知识水平,通常无法识别如医生和病人合谋欺诈的等场景。
发明内容
[0004]本发明的目的在于克服现有技术的不足,提供一种基于大数据的医保反欺诈系统,解决了基于商业规则的医保反欺诈系统过度依赖专家知识水平和新的医保政策和新的欺诈策略对已有系统造成冲击的问题。
[0005]本发明的目的是通过以下技术方案来实现的:一种基于大数据挖掘的医保欺诈系统,它包括以下子系统:数据抽取、转换、加载子系统(ETL)、大数据存储子系统、数据挖掘子系统、规则库和知识库子系统、实时流计算子系统和可视化子系统,所述数据抽取、转换、加载子系统(ETL)与大数据存储子系统连接,大数据存储子系统与数据挖掘子系统连接,数据挖掘子系统与规则库和知识库子系统连接,规则库和知识库子系统与实时流子系统连接,大数据存储子系统、规则库和知识库子系统以及实时流计算子系统再分别与可视化子系统连接。
[0006]数据抽取、转换、加载子系统(ETL)从系统外部数据库抽取、转换所需要的数据,并将处理后的数据加载到大数据存储子系统中;所述外部数据库包括关系型数据库、非关系型数据库和日志文件。
[0007]大数据存储子系统用于存储经过数据抽取、转换、加载子系统(ETL)处理后的数据,存储数据类型包括结构化、非结构化以及半结构化数据;所用存储方式包括分布式关系型方式、非关系型数据库方式和分布式文件系统方式。
[0008]数据挖掘子系统包括分类、聚类、关联规则和社交网络图分析模块;其挖掘所需要的数据来自上述大数据存储子系统、规则库和知识库子系统,对存储在大数据存储子系统和规则库和知识库子系统中的数据运用预测、聚类、社交网络图分析等技术进行挖掘,形成模型、规则或知识,挖掘出的规则、模型和知识存储到规则库和知识库子系统;数据挖掘子系统还包括调度更新规则、模型和知识的功能。
[0009]规则库用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式;知识库子系统用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式,存储技术包括关系或非关系型数据库和文件存储系统。
[0010]实时流计算子系统运用规则库和知识库子系统中的规则或知识对新的医保报销数据进打标,标记为正常或欺诈,实时流计算子系统输入的数据包括上述存储在规则库和知识库子系统中的规则、模型或
知识和外部业务系统新的报销数据;与外部业务系统的数据传输接口包括:消息队列接口和WebSocket接口;单独采用Storm框架、单独采用Spark框架和Storm框架、Spark框架两者均采用。
[0011]实时流计算子系统中带有标记结果的报销数据有三个流向:实时返回给医保业务系统,医保业务系统可根据标记结果进行相关处理,比如拒绝支付医保资金等;存储到大数据存储系统中作为历史数据供数据挖掘子系统使用;标记为欺诈的报销记录将在可视化子系统中的欺诈记分板上显示。
[0012]可视化子系统用于对系统数据进行可视化显示,可视化显示的数据来源于大数据存储子系统、规则库和知识库子系统和实时流计算子系统,可视化展示的方式包括各类图、表,显示的硬件设备为外部显示设备;所述可视化子系统包括显示经实时流计算子系统打标的欺诈报销记录的欺诈记分板,还包括对可视化显示的数据项上探、下钻的交互功能。[0013]可视化子系统对大数据存储子系统中历史进行简单的统计分析并用图或表的形式进行显示;对规则库和知识库按表或图的形式进行显示;对实时流计算子系统打标为欺诈的医保报销记录进行可视化显示。
[0014]欺诈记分板使用但不限于红、粗体的醒目方式显示欺诈报销记录,还可以将欺诈报销记录相关信息以短信和语音的方式推送到外部终端。
[0015]存储库包括关系数据库、非关系型数据库和文件存储系统。
[0016]本发明的有益效果是:
1)本发明是基于大数据挖掘技术的医保反欺诈侦测系统,解决了传统基于商业规则的专家系统中高于依赖于专家知识水平的限制,通过数据挖掘建立的规则较专家建立的规则更客观;
2)本发明基于数据挖掘的技术解决了传统基于商业规则的专家系统难以适应业务场景变化的情况,比如新的医保政策、新的欺诈策略和场景,解决了基于商业规则的专家系统面对变化需要手动更新规则库导致在规则更新之前系统处于无效状态的难题,由于近实时的模型学习和更新使这系统能对各种变化近实时地作出反映;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。