运营商反电信技术手段研究
教师寄语运营商反电信技术手段研究
杜刚,朱艳云,张晨,杜雪涛
(中国移动通信集团设计院有限公司,北京 100080)
摘 要 电信给社会带来巨大利益损失,运营商需要从网络侧研究如何有效地进行反诈工作,而反诈工作的核心
任务是发现网络中伪造身份的通信行为。本文提出了一套通用的反诈流程,能够有效发现网络中存在的伪造身份通信行为,针对流程中的每一个环节,介绍了相关技术手段和算法。最后,本文介绍了如何结合多种技术手段发现网络中的事件。
关键词 反电信;机器学习;数据挖掘
中图分类号  TN918      文献标识码  A      文章编号  1008-5599(2021)03-0070-05
收稿日期:2020-01-19
电信极大损害用户利益,给运营商带来了声誉损失。运营商如何利用技术手段进行反诈一直以来都
是研究重点。起初电信特征并不复杂,通过一些简单的行为分析与内容检测就可以达到不错的反诈效果。随着分子与反诈人员技术对抗不断升级,电信在网络侧的行踪已经越来越隐蔽。具体表现在分子开始进行精准,针对不同用户量身定制脚本;分子同时用多个号码实施,避免反诈行为分析;分子采用多种渠道实施,运营商无法获得完整剧本。在新的反诈形势下,为了能够有效发现网络中发生的电信事件,需要对新的反诈技术手段进行研究。
1  电信的本质
电信的本质是通过伪装身份来骗取对方的信任从而牟取不法利益。由此可以看出,发现电信最根本手段是发现通信者是否在伪造自己的身份进行通信。
比如消息发送者声称自己是10086的客服,但如果可以通过技术手段发现其不是,则该消息发送者较大概率是电信分子。分子的手段总是不断翻新,但这一本质特征是永久不变的。所以,如何通过技术手段发现分子的伪装身份是反电信的核心工作。
2  反电信的优劣势分析
电信分子能够让受害者受骗,证明其传递的信息从语义上很难辨识真伪。但运营商具有受害者所没有的全网视角,可以全面分析号码与不同受害者的通信行为,这是运营商反诈的有力条件。
相比于互联网即时消息公司的反诈条件,运营商存在如下不利条件。
(1)互联网即时消息服务通常是一个熟人网络,用户必须彼此添加好友后才可以进行通信。而电信运营商的网络是一个陌生人网络,任何人可以在得知对方手机
号码的情况下与对方进行通信。这无疑降低了分子联系到受害者的门槛。
(2)互联网即时消息服务安装在用户终端处,消息既可以在网络侧拦截,也可以在终端侧拦截。在终端侧拦截的好处是用户可以恢复误拦截的消息。另外,在终端侧可以结合更多用户信息(如手机通讯录)进行反诈。而运营商唯一的治理手段是在网络侧拦截,存在误拦截风险,且用户感知度差。
(3)互联网即时消息服务会留存用户一段时间内的全量消息记录,包括文字、图片和语音消息等,反诈数据基础比较完备。运
营商则默认不保存用户正常通信内容,仅保留用户的通信行为数据。此外,运营商仅会对网络中传播的不良信息(垃圾短信、垃圾彩信、骚扰电话语音和违规图片信息等)进行实时监控并保存留证,其规模远远小于全量的通信内容。
综上所述,电信网是陌生人网络,无法直接获得熟人关系。运营商只能进行网络侧治理,要结合多方数据进行精准判定才能进行实施消息拦截。运营商反诈数据基础不足,需要最大化利用现有信息与外
部安全厂商实现数据共享。
3  反诈技术框架
如图1所示,整个电信流程可分为数据源选择、无关数据过滤、脚本粗筛、身份属性挖掘、身份属性检查和分析识别几个阶段。
3.1 数据源选择
反诈的第一步是要选择好数据源。数据源包含内部数据源和外部数据源。其中内部数据源可以有很多种,比如垃圾短信数据、垃圾彩信数据、骚扰电话数据和电话话单等。外部数据源包括外部公司或组织共享的投诉举报数据、号码标记数据和外部提供的其它安全服务能力等。
数据源的选择一般遵循两个标准。第一,数据源便于身份属性挖掘。比如在国际电话数据中,分子通常会将号码改成公安局的号码来实施公检法类的。所以国际电话中的主叫号码信息就体现了分子身份属性。又如分子发送的消息、语音类数据中往往会包含姓名、手机号和网站等身份属性信息。第二,数据源便于检查身份属性。比如通过分析用户之间的通信行为可推断二者是否为熟人关系,通过安全公司共享的号码标记数据可检查手机号码是否为电话等。3.2 无关数据过滤技术
在数据源确定以后,可以对数据源中的数据进行预处理。预处理主要是对无关数据进行过滤。方法大体可以分为对结构化数据(如通话话单)过滤和对非结构化数据(如短消息)过滤。结构化数据过滤主要是筛选或限定字段的取值,非结构化数据过滤主要依靠人工智能分类模型进行处理。比较常用的有朴素贝叶斯分类、卷积神经网络分类和循环神经网络分类。
谷歌地图高清街景
3.3 脚本粗筛
分子通过各种黑、灰产业购买潜在受害者隐私信息,并将潜在受害者分类,编制不同的脚本。分子在与同类潜在受害者接触时,会使用相同的脚本。
因此网络上会产生大量内容相似的通信数据。如相似措辞的短消息数据、相似开场白的语音数据和相似内容的图片数据等。故对过滤后的数据进行相似内容聚类可粗略定位网络中的脚本。
图1  反诈技术框架图
随着大量深度学习预训练模型的涌现,将任意类型的信息特征化为特征向量变得容易实现。如word2vec 和bert等模型可将任意词语或短消息转为特征向量;vgg16和resnet50等模型可将任意图片转为特征向量;lstm和transformer可将任意语音转为特征向量。将信息向量化后就可以方便地使用K-means等聚类算法对信息进行聚类。在数据聚类完成后,就可以以聚类为单位,按聚类的大小降序分析每个聚类中的信息内容,挖掘聚类中的身份属性信息。
3.4 身份属性挖掘
伪造身份信息是脚本的核心,所有的套路都是围绕伪造身份展开的。分子会使用各种伪造身份取信于受害者。同时,分子通常会准确地说出受害者的姓名和身份证号等隐私信息来强化自身身份。因此,身份属性信息在消息中是无法避开的内容。可以通过分析聚类中是否包含身份属性信息来进一步定位潜在的信息聚类。
最常见身份属性信息就是姓名、地名、组织机构名、手机号、QQ号和号等。所有这些信息在自
然语言处理领域统称为命名实体。从自然语言中提取出这些信息的任务称为命名实体识别。目前命名实体识别技术仅适用于文本类数据。针对语音类信息,可以首先将语音转化为文本后再进行处理。针对包含文字较多的图片类信息,可以考虑使用光学字符识别(OCR)功能将图片转文本后进行处理。
对于一些遵循特定格式要求的命名实体(如手机号、网址和邮箱等)可以使用正则表达式实现精确提取。对于其它命名实体,需要使用命名实体识别算法进行抽取。命名实体识别算法有很多,比较著名的是CRF模型和深度神经网络模型。
3.5 身份属性检查
在提取出身份属性信息后,需要对提取出的身份属性信息进行检查,以确定身份属性是否是已知具有性质的属性。比如号码是否为已知号码,网址是否是钓鱼网站。属性检查方法可以利用内部数据自行检查,也可借助外部安全服务进行检查。
在利用内部数据的检查手段中,针对手机号码检查,本文介绍两种检查方法,一种是检查号码通信双方是否为熟人关系,另一种是通过号码的行为判断是否具有电话特征。针对网址类属性检查,本文重点介绍钓鱼网站识别技术。
3.5.1 熟人关系挖掘技术
通过信息内容来判定信息的发送者与接收者是否为熟人存在技术困难。一些分子会冒充熟人身份进行,比如在语音中说“猜猜我是谁”。又比如在短消息中说自己是领导。随着深度伪造技术的应用,分子甚至可以生成任何人的语音和人脸信息,从而快速得到受害者信任。
电信网是一个陌生人网络,运营商无法直接获取到网络中存在的熟人关系网,必须通过算法挖掘才能够实现。一种能够获取熟人关系的方法是分析通信双方的话单记录。当通信双方在较长的时间内形成了比较稳定的呼叫关系,则可以认为双方是熟人关系。熟人关系是具有方向性的。即当号码A呼叫号码B比较稳定时,则熟人关系将从号码A指向号码B。按照如上思路分析全网所有通信记录得到描述全网熟人关系的有向图。网络中每个节点代表一个手机号码,每条边代表一个熟人关系,边的方向代表呼叫的方向。可以通过pagerank方法对这个有向图中每个节点的权重进行打分。
如图2所示,给定任意号码
中秋祝福语送客户
X,可以到其指向的
图2  任意号码X的熟人圈示意图
节点A、B、C,在其中选择打分最高的节点A作为第一熟人关系圈中心,则所有指向节点A的节点构成了X的第一熟人关系圈(所有紫节点)。同理可以得到X所在的第二熟人关系圈(所有蓝节点)。这些关系圈可以用来检查任意号码是否在指定号码的熟人关系圈中,进而辅助系统分析号码是否是冒充熟人号码。
3.5.2 行为分析技术
一些电话在行为上符合骚扰电话的特征。即呼叫频次较高、平均通话时长较短、号码被挂断次数较高、不同被叫较多等。可定期对一段时间的话单记录中的每
个主叫号码计算如上行为统计指标,并通过机器学习方法(如使用决策树、随机森林或梯度提升机等)对电话与正常电话的差异进行研究。
行为分析仅能以较粗的粒度筛选出潜在的电话。因为一些电话与电话行为非常接近,比如快递和送餐类电话呼叫频次、不同被叫数量等指标与电话类似。因此,电话行为分析的结果需要结合其它手段进行更精确的识别。
3.5.3 钓鱼网站识别技术
描写自然风光的诗句
运营商可以使用技术手段对提取的网站类身份属性信息进行钓鱼网站检测。如图3所示,钓鱼网站的检测可划分为域名角度和网站内容角度。
从域名角度检测是检查网站域名是否和知名网站域名相似。比如分子通常会使用等与10086类似的域名作为模仿中国移动的钓鱼网站。域名比较方法可以使用编辑距离或最长公共子序列等。为了规避域名分析,分子通常使用短链接服务隐藏域名。直接对短链接域名进行分析没有意义。需要将短链接还原后再进行钓鱼域名检测。
从图3中可看出,网页内容角度检测可从4个方面入手。
(1)需要检查网站中引用的图片元素,尤其是logo 是不是已知知名网站的logo。
(2)检查网页文字内容是否与知名网站相似。
(3)检查网页中是否存在提示用户输入敏感信息的表单元素。
(4)检查网页源代码是否经过加密,如使用类似凯撒加密方法进行加密,并使用javascript在客户端运行时进行解密。
3.5.4 借助外部安全服务
针对号码类属性信息,运营商可以利用自身和外部提供的垃圾信息举报平台和反诈平台获取用户举报数据,帮助发现分子的手机号。但更多情况下,用户更喜欢使用终端安全软件来标记接收到的电话或举报垃圾信息,因此可以考虑与终端安全厂商进行合作,共享号码标记数据,从而提高反诈的治理精准度。
针对网址类属性信息,运营商可以考虑使用安全厂商提供的钓鱼网站检测功能,对信息中包含的钓鱼网站进行识别,从而发现分子。类似来确定合法网站的手段还有域名备案网站和域名流量排名网站等。
3.6 分析识别
在完成了数据聚类和身份属性提取后,结合属性检查能力,可采用多种方法发现网络中的事件。本文列出了比较常用的4种手段。
(1)直接借助外部服务发现号码。比如跟踪被安全公司标记为电话的号码在网络中发送的信息或乔四美戚成钢结局
拨打的电话,在取证无误后就可以对号码进行处理。另外,可以使用安全公司的钓鱼网站识别服务检
查垃圾信息中附带的链接信息,若出现钓鱼网站,且发送量较大,则发送信息的号码可判定为号码。
图3  钓鱼网站识别步骤逆境成才的名言
(2)使用身份属性之间的矛盾来发现号码。分子在同时联系多个受害者实施时,会出现身份属性自相矛盾的情况。比如在相同脚本中,同一个手机号码给多个不同的手机号发送冒充子女类短信,明显不符合逻辑。又比如在相同脚本中,同一个手机号码声称自己的姓名不一致,甚至出现数十个不同的名字,也属于身份属性自相矛盾。
(3)结合身份属性与熟人关系圈发现号码。当手机号码的通信行为同时影响到多个不同的熟人关系圈,且这些熟人关系圈在之前彼此没有交集时,则这个手机号码很可能是号码。
(4)结合行为分析与外部服务发现号码。单纯依靠行为分析很难确定号码是否是号码。可以用安全公司提供的标记信息从疑似号码中踢除非电话号码(快递和网约车等),从而大幅提升识别精确度,减少对疑似号码的人工拨测验证工作量。
4  结束语
反诈工作的核心内容是识别分子的伪造身份。在合理选择数据源后,在预处理阶段,首先通过分
类技术过滤掉不相关的数据,其次通过相似聚类技术来粗略
定位潜在的脚本。接下来使用命名实体识别技术进行身份属性提取,进一步缩小潜在脚本范围。针对号码类属性,可以使用行为分析技术或熟人关系圈进行号码判别。结合使用外部号码标记数据能够大幅提高查准率。针对网址类属性,可以使用钓鱼网站识别技术或外部安全服务来实现脚本的锁定。针对其它类别的属性可以通过发现相同脚本中的身份矛盾来锁定脚本。
本文提到的身份属性信息主要来自于文本信息。图片和语音也需先转为文本后再进行提取。实际上,图片中的人脸信息,语音中的声纹信息一样体现了身份信息。随着深度伪造的发展,这些身份信息有可能被伪造滥用,成为分子实施的新利器。未来工作有必要针对深度伪造技术背景下的反诈技术进行研究。
Research on operators' anti-fraud technology
DU Gang, ZHU Yan-yun, ZHANG Chen, DU Xue-tao (China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
Abstract        Telecommunication fraud has brought huge losses to society. Operators need to study how to effectively
carry out anti-fraud work from the network side. The core task of anti-fraud is to discover the communication behavior of forged identity in the network. First, this article proposes a set of general anti-fraud processes that can effectively detect forged identity communications in the network. Secondly, for each link in the process, this article introduces related technical means and algorithms. Finally, this article describes how to combine multiple technical means to detect fraud incidents on the network.
Keywords      anti-fraud; machine learning; data mining
参考文献
[1] 刘冠军. 新技术条件下电信网络治理研究[J]. 山东农业
工程学院学报, 2019(11).
[2] 黎宏. 电信中的若干难点问题解析[J]. 法学, 2017(5).[3] 胡向阳, 刘祥伟, 彭魏. 电信犯罪防控对策研究[J]. 中
国人民公安大学学报(社会科学版), 2010(5).
[4] 刘宏成. 电信的分析与防范[J]. 法制与社会, 2009(1).

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。