中石化加油卡客户流失预测方法与研究
作者:肖文斌
来源:《神州·中旬刊》2013年第06期
摘要:本文提供一种加油卡客户流失预测分析方法,收集一定期限内每个加油卡客户行为的原始数据,建立数据库;对原始数据进行整理汇总,计算出和加油卡客户流失行为相关的若干基本属性,并进行离散化或布尔化处理,利用信息增益参量对属性的重要性进行评估,并利用多维关联规则对数据库的数据进行过滤合并,得到多维频繁项集,然后采用决策树方式建立模型,并根据持续变化的加油卡客户数据对决策树模型进行修正,从而预测客户流失情况,并发布预警信息。本文综合并改进了属性关联和决策树模型,增加了决策树生成效率和可理解性,属性的合并具有石化行业特,从而解决传统决策树模型无法解决的问题,为石化行业提出了一种可行的客户流失预警方案。
关键词:中石化加油卡 客户流失预测 属性关联 决策树模型
1. 研究背景
中石化加油卡是中国石化股份有限公司2003年发行的,在北京、上海、天津、河北、河南等全国19个省市,14000余座加油站均可享受加油的油品消费储值卡。截止到2012年底,加油卡售卡突破三千万张。作为国内最大的一体化能源公司,中国石化运用信息化手段提升服务水平,为客户提供更优质的服务取得了突破性进展。
在上海无论是市中心,还是郊区县城、高速公路上,都有中石化身影的出现。现有加油站600多家,发卡网点500多家,占所有加油站的90%,发卡网点仍在持续扩充、建设当中,中石化加油卡网站和易捷网还提供网上充值、预分配等功能,为顾客提供了更便捷的途径,更好的用卡体验。
中国的石化行业经过多年的信息化建设,取得了巨大的经济效益和良好的社会效益。然而经过一轮高速发展之后,尤其是随着行业内竞争的加剧,各运营商加油卡客户的增长逐渐放慢,客户呈现出动态亦增亦减趋势,在每月都有客户新开卡的情况下,也有大量客户停止使用。每个月都有出现的零充值、零消费客户,大量占用了客户维护的信息资源,客户数量的增加却不能带来收入的增加,而发展新客户的成本要远远大于挽留老客户的成本,所以客户流失分析的重要意义对石化运营商来说不言而喻。在当前运营基础设施不断改善,服务意识也逐步提升的情况下,对有价值客户的关注和流失防范成为关注的焦点。本文通过分析加油卡客户单月的消费金额、单月的充值金额,单月产生的积分、单月消费的积分,单月沉淀资金等数据分析
、计算,通过数字化手段,判定加油卡客户的增减情况。以简单有效的数学公式,判定一段时间内加油卡客户的增加或者流失的情况,从宏观上掌握中石化加油卡在一段时间内的增减情况及发展趋势。
2.加油卡客户流失预测方法的数学模型
本文要解决的技术问题就是为了克服现有技术缺陷而提供一种加油卡客户流失预测方法。
本文的目的通过以下技术方案来实现,如图1所示:
■
■
加油卡客户流失预测分析方法,包括步骤:
S1、收集一定期限内每个加油卡客户行为的原始数据,建立数据库;
S2、以颗粒度为月对所述原始数据进行整理汇总,计算出和加油卡客户流失行为相关的若干基本属性;
S3、对所述各基本属性进行离散化或布尔化处理;
S4、利用信息增益参量对所述各基本属性的重要性进行评估,筛选出若干重要属性;
S5、对所述各重要属性,利用多维关联规则对数据库的数据进行过滤合并,得到多维频繁项集,并以每个频繁项集中的频繁项与该频繁维谓词集合并起来作为新属性;
S6、针对所述多维频繁项集的新属性,采用决策树方式建立模型;
S7、将实际已经流失的客户的数据输入所述决策树模型进行分析,比较分析结果和实际历史结果的差异,对所述决策树模型进行修正;
S7、根据修正后的决策树模型进行客户流失预测,发布预警信息。
其中,步骤S1中加油卡客户行为的原始数据包括充值明细、圈存明细、加油明细、积分明细、沉淀资金。
其中,步骤S2中和加油卡客户后续行为相关的若干基本属性,包括前六个月的月平均消费额,以往充值的平均金额,最后一次充值距当前时间,最后一次的充值的金额,最后一次消费距当前的时间。
其中,步骤S4包括以下步骤:
S41、计算任意基本属性的期望信息:
■
其中,数据库的数据集为S,m 为S 的基本属性数目,■,ci 为某基本属性标号,pi 为任意基本属性ci 的概率,si 为ci上的样本数;
S42、由A 划分为子集的熵:
■
A 为任意基本属性,具有v 个不同的取值;
S43、计算信息增益■;
S44、设定阀值,去除信息增益很小的基本属性。
其中,所述步骤S6包括:
S61、对步骤S5中所述的每个新属性计算信息增益,取信息增益最大的新属性作为根节点;
S62、为该新属性的每一个取值建立一个树的分叉;
S63、对每一个分叉,选出样本子集,对其余的新属性计算信息增益,建立节点;
S64、递归以上过程,直到没有其余的新属性,该节点定义为叶子节点;
S65、将没有样本的叶子节点剪掉;
S66、将该结点归类为所含样本中个数最多的类别。
其中,步骤S62进一步包括:如果该新属性为布尔型,则取值为真或假。
该方法的积极进步效果在于:综合并改进了属性关联和决策树模型,属性的筛选使增加了决策树生成效率和可理解性,属性的合并具有石化行业特,从而实现传统决策树模型不能解决的问题,为石化行业提出了一种可行的客户流失预警方案。
3.加油卡客户流失预测方法具体实施案例
当前中国的石化行业掌握的加油卡客户行为原始数据包括:每个加油卡客户的充值明细(时间,网点,金额等)、圈存明细(时间、网点、金额等)、加油明细(时间、网点、油品、金额等)、积分明细(时间、网点、产生的积分、消费的积分)、沉淀资金(账户余额、卡备付金余额、卡帐余额)等。由于每个加油卡客户拥有主卡和很多张副卡,因此明细数据具有很大的随机性,所以需要对以上数据进行汇总整理。根据预测的需要,选取以月为颗粒度,整理出每个加油卡客户单月的消费金额(简称Cons), 单月的充值金额(简称Charge), 单月产生的积分(简称AccuCreate), 单月消费的积分(简称AccuCons), 单月的沉淀资金(简称Balance)。
根据以上整理出的数据,计算出和客户流失行为相关的各种基本属性,包括:前六个月的月平均消费ConsAver,以往充值的平均金额ChargeAver,最后一次充值距当前的时间ChargeLong,最后一次充值的金额ChargeLast,最后一次消费距当前的时间,等等。
为了便于分析,将以上各基本属性进行离散化或布尔化处理,比如将最后一次充值距当前时间ChargeLong布尔化为是否超过30天,沉淀资金Blance占最后一次充值金额ChargeLast的比例是否低于5%等。
如果用户选择了较多的基本属性用于分析,就可能会影响数据挖掘的效率以及挖掘结果的可理解性,
因此需要对以上各基本属性进行筛选,利用一个称为信息增益的参量对各基本属性的重要性进行评估,任意样本分类的期望信息:
其中,数据集为S,m 为S 的分类数目,■,ci 为某分类标号,pi 为任意样本ci 的概率,si 为分类ci上的样本数。
由A 划分为子集的熵:
A 为属性,具有v 个不同的取值:
中国石化加油卡充值 针对这些得到的新属性,采用自上而下,分而治之的方法建立决策树模型,具体步骤为:
1、对每个新属性计算信息增益,取信息增益最大的属性作为根节点;
2、为该属性的每一个取值(如果该属性为布尔型,则取值为真或假)建立一个树的分叉;
3、对每一个分叉,选出样本子集,对其余的属性计算信息增益,建立节点;
4、递归以上过程,直到没有其余的属性,该节点定义为叶子节点;
5、将没有样本的叶子节点剪掉;
6、将该结点归类为所含样本中个数最多的类别。
经过上述步骤,可以得到如图2所示的决策树模型。
由此模型,可以预测:本月消费值较低,充值量下降,沉淀资金较少,且长时间没有充值的用户较可能流失。
这个模型建立后,根据后续的实际数据对模型进行修正,结合石化运营商实际经验进行检验,能比较准确的预测出加油卡客户流失情况。
4.结论与展望
以上描述了本文的具体实施方式,在不背离本文的原理和实质的前提下,可以对实施方式做出多种变更或修改,已期待达到最佳预测目的,为更加有效率的维护中石化加油卡客户信息资源提供一个客观的参考指标。通过具体的数据,总结各个数据的属性,筛选出针对不同需求的数据类型,可以科学预测一段时间内某系统、项目的发展趋势,为决策者提供客观有效的决策数据依据。
参考文献:
[1] 《SYBASE数据库系统基础知识》 中国水利水电出版社
[2] 《统计学》(第4版) 中国人民大学出版
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论