大数据在移动用户上网记录查询中的应用研究
引言
随着移动智能终端的普及和3G 网络的部署运营,移动用户上网流量高速增长,随之产生的数据流量争议和投诉也不断上升。以中国联通为例,2011年各省分公司3G 客户数据流量问题争议占3G 业务投诉的比例达7~11%,且呈现上升趋势,如图1所示,个别省分比例高达20%。
23
22
21:9876
3122/23122/3
3122/4
mc门任务路线3122/53122/63122/73122/9
3122/8 Բ 0&
图1 3G客户数据流量争议占投诉比例
(数据来源:中国联通客户服务部)
数据流量争议主要来自用户对数据流量计费不认可,占比达到95%。主要原因如下。
1) 移动用户对智能手机上网行为和流量计费方式
不了解,主观认为自己未使用或使用较少数据流量。在语音时代,手机用户打多长时间电话、发几条短信,是可以直观感知的,能够做到“心中有数”。而在数据时代,流量“看不见,摸不着”,用户对流量计量单位(千字节,KB)难以直观理解,更无法预知每次业务使用的流量,流量消费充满不确定性。再者,有些数据流量的产生并非来自用户的主动行为,如软件自动更新、数据自动同步、应用后台推送等。因此,消费者难免对流量消费有“雾里看花”的感觉[1]。
2) 运营商无法提供流量详单。语音时代,运营商可以提供语音和短信详单,明确告知用户在何时、与何人进行了通信行为,发生时间和使用时长多少,用户可以做到“明明白白消费”。而在数据消费时代,运营商提供的数据流量话单无法做到这一点。运营商计费系统
主要依赖于GGSN 产生的G-CDR 进行流量计费[2],如图2所示。计费话单的产生规则是:用户上网流量累计到一定限度(如5MB),或者达到一定时长(如30分钟)、或者PDP 去激活时生成一条话单。内容包括:手机用户的IMSI 、手机用户的MSISDN 、当前GGSN 的IP 地址、GGSN 的代号、PDP 上下文的计费标识、APN 的网络标识部分、PDP 类型、数据流量(上行流量、下行流量)、
王志军 黄文良
中国联通研究院 北京 100032
摘 要 在移动互联网时代,提供移动用户上网记录详单是解决流量计费“雾里看花”问题的必然要求。而上网记录详单数据是典型的“大数据”,传统技术架构设计模式已不再适用。文章分析当前主流的大数据处理技术,对其在移动用户上网记录查询系统中的应用进行研究。通过搭建以上网记录数据为核心的大数据平台,为数据挖据分析奠定基础。
关键词 上网记录;大数据;数据采集;数据存储;移动用户上网记录查询
基金项目:新一代宽带无线移动通信网国家科技重大专项资助项目(课题编号:2012ZX03002022、2012ZX03002009)
话单的持续时长、记录过程中使用的SGSN PLMN标识(MCC及MNC)等,并不包含用户访问的地址(网址)信息。由此可见,流量话单不是流量详单,即它只能告诉用户一段时间内产生了多少流量,而无法告知用户到底因为什么而产生了流量。
THTO HHTO
图2 数据计费话单生成
作为运营商,解决流量计费“雾里看花”的问题,就是不仅要向消费者提供累计使用的流量,还必须提供流量花费的详细清单,即上网记录详单(Flow Detail Record,FDR)。这不仅有助于减少消费纠纷,也是运营商改进管理的内在要求。
1 移动用户上网记录是典型的大数据
1.1 上网记录详单
提供用户上网记录详单,就是要提供用户每一次网络访问的时间、位置、源地址、目的地址、网址信
息(URL)、流量大小、使用的终端以及软件客户端等。但在存储和处理上网记录数据时,却带来技术上的极大挑战:上网记录详单数据量非常庞大。以中国联通为例,每月的上网记录数已超过2万亿条,是目前运营商所有计费数据的30倍以上,并且以每月7%的速度递增。
数据规模之所以如此庞大,是因为:1)详单是用户(终端)所有上网行为的记录。对于智能手机用户,一次简单的上网行为,就会产生几十条甚至上百条不同流向的记录。举例来说,用户在终端浏览器中访问新浪网首页(sina),将会产生约20个HTTP请求,再加上域名解析请求,一次访问将会生成至少24条上网记录。还有,当前智能终端普遍永久在线(Always Online),并且存在大量永久在线类应用,如等。这类终端和应用,即使用户不在使用,也会产生大量的后台访问,包括心跳消息,通知消息等,这都会生成记录;因此,一个用户每月的上网记录通常有几万、几十万甚至上百万条之多。2)用户规模大。截至2013年6月,中国联通移动用户总规模达到2.6亿,其中3G用户已突破1亿。3)上网记录包含的信息字段多,包括手机号码、位置区编码、编码、终端设备标识(IMEI)、流量类型、开始时间、结束时间、上行流量、下行流量、访问的网络类型、终端IP、目的IP、状态码、用户代理(User Agent)、APN、IMSI、SGSN IP、GGSN IP、内容类型(Content-Type)、源端口、目的端口、访问URL等。根据实际测算,采用文本方式存储上述信息平均需要近300个字节。以当前每月上网记录2万亿条计算,中国联通一个月就需要近546TB的存储容量。
面对如此大规模的数据,运营商传统采用的IOE(IBM+Oracle+EMC2)架构设计模式,即为了追求高性
能而采用高端计算处理设备——小型机(以IBM为代表)、为了满足数据存储和处理需要而采用商用关系型数据库(以Oracle为代表)、为了满足数据高可靠快速读写需要而采用高端磁盘阵列存储设备(以EMC2为代表),将不再适用。原因如下:1)关系数据库查询性能随数据量的增加呈现指数级下降;2)关系数据库插入性能由于索引更新的关系,也随数据量的增加呈指数级下降。
实验数据表明,采用传统关系型数据库,当数据量增大时,查询统计延时呈指数增加。图3中采用关系数据库存放实验数据,运行较复杂SQL Select语句(包含Group By和较多过滤条件),当数据量达到500GB时,查询延时达到3 000秒(50分钟);当数据量更大时,关系数据库系统已经变得不可用。即使采用分区和索引方式优化后,时间能减少到1 700秒(接近30分钟),但是随着数据量的增加,延时仍呈现指数级增加(如图3中SQL Idx曲线所示)。也就是说关系数据库已经无法扩展,无法胜任海量数据处理工作。以中国联通在某省分公司建设的系统为例,在一个中等用户规模的省分公司,通过关系型数据库对移动用户一个月的上网数据进行检索,等待时间至少超过半个小时。
由此可见,上网记录数据已经“大到传统数据库无
法处理”,而这正符合大数据的定义。
U j n f !j o !t f d p o e t !4611411136113111261121116111
Rvfsz!fyfdvujpo!qfsgpsnbodf!
Kbwb!71!Opeft Qfsm!23!Opeft Kbwb!23!Opeft TRM!Gmbu TRM!Jey
67
24:
388516626
73:845948
Ebubtfu!Tj{f0HC 0
0HC
桌面上的图标不见了怎么办图3 关系型数据库查询性能
(数据来源:英特尔亚太研发有限公司)
1.2 大数据
大数据是指无法在可接受的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合[3]。大数据首先体现在数据规模“大”上:以目前技术看,单一数据集的规模至少应该在TB 级以上;其次,大数据超过传统数据库系统处理能力,不再适宜用传统数据库管理工具来进行分析处理。
因此,运营商要向用户提供上网记录详单,首先面临的挑战是必须跳出传统技术架构设计模式、寻新的处理技术。
2 大数据处理技术
在大数据处理技术方面,谷歌(Google)无疑是业界的先驱和领先者。谷歌分别于2003、2004和2006年发表了《Google 文件系统》(The Google File System)[4]、《MapReduce :大集上的简化数据处理》(MapReduce: Simplified Data Processing on Large Clusters)[5]、《大表:一个分布式的结构化数据存储系统》(Bigtable: A Distributed Storage System for Structured Data)[6]三篇论文,分别描述一个可以部署在数千台普通配置计算机上面向大规模数据密集型应用的可伸缩分布式文件系统、一个并行化处理和生成超大数据集的算法模型和一个适用于
PB 级海量数据的分布式
结构化数据存储系统,
解决了大数据存储和高效处理的三大难题。
千户苗寨旅游攻略详细Hadoop 是一个分布式系统基础架构,由
Apache 基金会开发[7]。作为一个开源软件系统,它源于上述谷歌三篇论文,可以说是谷歌三篇论文的开源实现。Hadoop 已经成为大数据处理领域应用最广泛的技术之一,图4描述了其主要组件。
ք ;IEGT
ք ;ICbtf
ք ǖNbqSfevdf
ք ;[pplffqfs
图4 Hadoop基本组件
1) HDFS(Hadoop Distributed File System ,Hadoop 分布式文件系统),对应谷歌的GFS(Google File System ,谷歌文件系统)。在一个HDFS 集中通常包含一个名字节点(NameNode)和一系列数据节点(DataNode)。HDFS 有着高容错性,并且用来部署在低廉的硬件设备之上。它提供高传输率来访问应用程序数据,适合有着超大数据集的应用。
2) HBase(Hadoop Database)是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,对应于谷歌的Bigtable 。HBase 采用四维表空间设计,横向可以随意扩展。它充分利用底层HDFS 的存储特性,可在廉价PC 服务器上搭建起大规模结构化存储集,支持TB 到PB 级的海量数据存储和高速读写。
3) MapReduce 是为解决TB 、PB 级数据处理而开发出的一种编程模式。它提供一个并行处理大数据集的软件框架,是分布式计算的核心。用户首先创建一个Map 函数处理基于“键值对(key/value pair)”的数据集合,输出中间“键值对”集合,然后再创建一个Reduce 函数合并所有具有相同中间键值的结果。MapReduce 基于这样一个理念:在大数据场景下,移动计算比移动数据更加经济。为此,框架可以让程序自动分布到一个超大集上并发执行,极大地提升处理效率。
4) Zookeeper是针对大型分布式系统的一个可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。可以用来维护系统配置、组用户和命名等信息。
曼哈顿追逐5) Pig提供一个基于Hadoop的分布式数据分析语言和运行平台。
6) Hive是一个分布式数据仓库引擎,可以将数据存放在分布式文件系统或分布式数据库中,并使用类SQL语言进行海量数据统计、查询和分析操作。
7) Mahout提供可扩展的机器学习类库,与Hadoop 结合后可以提供分布式数据分析功能,帮助开发人员更加方便快捷地创建智能应用程序。
Hadoop的优势在于:①使用低成本服务器和存储设备构建高可靠和高容错系统,数据自动复制,并可自我修复;②支持GB到TB级别的大文件;③简化了数据一致性模型,非常适合数据“一次写入,多次读取”的情况;④提供各种结构化和非结构数据存储工具,提供PB级别的存储容量;⑤易于扩展,可动态扩容至数千个节点,满足数据的快速增长需要;⑥负载均衡,能够在节点之间动态移动数据,保证各个节点间的动态平衡;⑦MapReduce为大数据的高效处理提供了可能;
⑧提供了一系列工具,方便进行数据分析和挖掘。
通过分析移动用户上网记录的数据特性,不难发现,它特别适合采用Hadoop框架进行处理:①上网记录数据规模庞大,是PB级规模数据(目前存储2个月的数据就超过1PB);②上网记录是用户上网过程的日志,不存在后续数据修改问题,这与Hadoop适合“一次写入、多次读取”的特性相吻合;③Hadoop
对硬件设备要求很低,并且系统开源,因此,可以大幅降低上网记录数据存储的软硬件成本;④上网记录数据增长迅速(目前,移动网络数据流量每年增长超过167%),而Hadoop集易于快速扩展;⑤上网记录数据蕴含巨大价值,需要持续挖掘和分析,而Hadoop提供这样的计算框架和工具。由此可见,Hadoop是解决上网记录数据存储和后续处理的最佳选择。3 移动用户上网记录查询系统
3.1 系统实现
Hadoop为上网记录数据存储和处理提供了一条解决路径,但不是全部。图5描述了上网记录查询系统的系统架构。
HHTO
THTO
Ibeppq
火影之六道佩恩GUQ0 QD QD
QD
VUSBO
图5 移动用户上网记录查询系统
1) 数据采集子系统。构建上网记录查询系统首先要面对移动用户上网记录数据从哪里采集的问题,移动数据网络的设计通常包含一个网关设备。以GSM/ WCDMA网络为例,GGSN是移动分组域核心网与互联网之间的网关设备,GGSN一面与移动网络侧的SGSN 相连接(在3GPP规范中定义为Gn接口),一面与互联网相连接(在3GPP规范中定义为Gi接口)。Gn和Gi接口是用户所有上网数据的必经通道,不同的是移动网络侧的Gn接口采用GTP协议(GPRS Tunneling Protocol,GPRS隧道协议),除用户流量外,还承载着移动网络管理所必须的信令信息,可以获取用户手机号码等用户标识和网络上下文信息,因此是数据采集的最佳点。
Gn接口通常采用光纤传输(较少情况也采用电路传输),可以通过在Gn接口部署分光设备(若为电路传输,则部署TAP设备),将流经Gn接口的所有数据流输出至采集处理设备。采集处理设备可根据预定的策略,进行GTP及用户有效负荷数据的识别处理,生成用户流量详单记录(FDR),并将流量详单记录文件上传至数据入库子系统。
FDR包含的字段有手机号码、位置区编码、小区
电烤箱烤土豆标识、终端类型、流量类型、开始时间、结束时间、上行流量、下行流量、访问的网络类型、终端IP、目的IP、状态码、用户代理、APN、IMSI、SGSN IP、GGSN IP、内容类型、源端口、目的端口、网址/特征信息等。
2) 数据入库子系统。该系统完成记录入库功能。每当有新的上网记录文件到达时,读取文件中的上网记录,完成必要的校验核对,入库至“数据存储子系统”中,并根据预定的策略定期删除。
3) 数据存储子系统。该系统基于开源Hadoop和HBase,并进行了创新改造,构建了全国集中的大数据平台,存储全国所有用户的上网记录信息。按照设计要求,至少存储4个月的数据,即历史3个月加上当前月。
4) 数据查询子系统。该系统的主要功能是完成上网记录查询。根据服务对象,分为两大部分:一部分提供给最终客户,实现自助查询;另一部分提供给客服人员,解决流量投诉问题。用户可以进行多种方式的查询,按用户号码、上网方式、时间段、网络承载类型、业务类型、信息类型以及按以上各种条件进行组合查询。
此外,系统还包括必备的管理功能,如用户管理、权限管理、系统监控等。
3.2 系统部署
移动用户上网记录数据采用总部集中存储的方式进行部署。这主要基于如下考虑。1)技术上可行;2)资源利用更加集约化,可以有效节约投资;3)数据集中才可以有效发挥大数据的威力,从数据挖掘中发现更高的价值。因此,移动用户上网记录查询系统分成两个部分,即总部集中的以上网记录为核心的大数据平台和查询系统、以及遍布中国联通全国31个省分公司的采集系统。
总部大数据平台(一期工程)包含178个数据节点(DataNode)、3个名字节点(NameNode)、7个Zookeeper节点和1个集监控节点。为满足海量数据的及时入库要求,部署了24个入库服务节点。为满足大规模用户(含最终手机用户)的Web查询需求,部署了20个Web查询应用服务节点。数据节点间通过万兆交换机进行连接,以保证快速的数据交换要求。
省分公司采集系统覆盖了中国联通移动网络所有Gn接口,涵盖全部2G和3G移动用户上网数据。
3.3 系统性能
系统已达到很高的性能指标,完全可以满足上网记录存储和快速检索的要求。1)可实现话单即时生成,即时上传和即时入库,可以保证用户查询到10分钟前的用户上网记录;2)上网记录查询速度一般不高于1秒(不包含用户访问查询页面的时间);3)集整体入库速度峰值达到180万条/秒;4)每条用户上网记录中,用户号码填充率在99%以上、业务类型识别率在95%以上;5)CRM 计费详单与上网记录中的流量比对精度在98%以上。
系统可以进行线性扩展,意味着当数据量增大时,可以简单地通过增加数据节点和入库服务节点数量来满足数据存储、快速入库和分析检索的要求。
4 结束语
随着移动互联网的迅猛发展,移动通信已经从语音消费时代快速过渡到数据消费时代。为用户提供上网记录详单不仅有助于减少消费纠纷,实现数据业务的“明明白白消费”,也是运营商改进管理、提升服务的内在需求。
移动用户上网记录是大数据,传统的IOE技术架构设计模式已不再适用,必须探索新的数据处理技术。基于开源的Hadoop框架,并围绕数据特性进行创新是解决上网记录高效存储、快速检索和分析处理的有效方法。除此之外,向用户提供上网记录详单查询,还必须解决数据采集和快速入库等问题。
通过上述问题的解决,中国联通构建了以用户上网记录为核心的大数据平台,实现全国所有移动用户上网记录数据的一点集中存储,并在全球运营商中首次提供移动互联网用户上网详单查询服务,实现了零的突破。
作为颗粒度最细、最原始的用户移动互联网访问日
志,上网记录数据蕴含着“高价值”:包含用户的喜好和行为特征、隐藏着移动互联网和相关行业的业
务发展趋势,是一个真正的“数据宝藏”。对其进行深度的数据挖掘和分析处理、充分发挥大数据的价值将是更大的意义所在。
此外,发挥数据的价值,构建合理的大数据业务生态环境尤为重要[8]
。这就要求在保障安全和用户隐私的情况下,对数据进行开放,为产业所共享,使数据在推动信息消费和经济社会发展方面发挥更大的价值。
参考文献
[1] 北岸.流量计费不能“雾里看花”[N].人民日报,2013-08-02(18)
[2] The 3rd Generation Partnership Project(3GPP).3GPP
TS 32.251 V7.8.0:Packet Switched(PS)domain charging (Release 7)[S/OL].[2013-09-20]./ftp/
Specs/html-info/32251.htm
[3] Wikipedia. Big data[EB/OL].[2013-10-11].
/wiki/Big_data
[4] Ghemawat S,Gobioff H,Leung S T.The Google file
system[C]//ACM SIGOPS Operating Systems Review. ACM,2003,37(5):29-43
[5] Dean J,Ghemawat S.MapReduce:simplified data
processing on large clusters[J].Communications of the ACM,2008,51(1):107-113
[6] Chang F,Dean J,Ghemawat S,et al.Bigtable:A
distributed storage system for structured data[J].ACM
Transactions on Computer Systems(TOCS),2008, 26(2):4
[7] The Apache Software Foundation.Apache Hadoop[EB/
OL].[2013-09-20].
[8] 王志军,黄文良.面向移动互联网的业务创新生态环境研究
[J].电信科学,2012,28(3):1-8
作者简历
Research on the Application of Big Data Technology in Query System of Flow Detail Records for Mobile Users
Wang Zhijun Huang Wenliang
Abstract Providing customers with flow detail records (FDRs) is necessary for solving the opaque problems of data traffic consumption in the era of the Mobile Internet. The FDRs can be classified as a typical big data, then the traditional patterns of technical architecture are no longer applicable. In this paper, the main big data processing technologies are introduced and their application on the Query System of Flow Detail Records for Mobile Users is studied. The establishment of the big data platform based on the FDRs also lays a solid foundation for future data mining.
Keywords Flow Detail Records; Big Data; Data Collection; Data Store; Query System of Flow Detail Records for Mobile Users
China Unicom Research Institute, Beijing 100032, China
黄文良
博士,高级工程师,现任中国联通研究院副院长。
王志军
高级工程师,移动互联网产品开发事业部主任,主要研究方向为业务平台及支撑系统体系架构、面向
移动互联网的开放平台、新业务及下一代网络等。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论