今天分享的是来自CCS 2020的一篇关于伪基站垃圾短信生态系统测量的论文——“Lies in the Air: Characterizing Fake-base-station Spam Ecosystem in China”。首次对真实世界中电信诈骗人员利用伪基站发送垃圾短信的生态系统进行了大规模的测量分析。
01
【背景介绍】
伪基站(Fake Base Station)是一种非法无线电通信设备,攻击者利用主机(如笔记本电脑)控制无线电收发装置(SDR设备),接入一定半径范围内的移动终端、拦截其与公用电信网络的链接,进而向手机发送垃圾短信、完成电信欺诈。
图1:伪基站工作原理示意图,通过提高信号强度和修改地理位置信息等方式欺骗用户设备接入。
尽管针对伪基站设备的检测已陆续有方法提出(利用其信号强度、基站地理位置等),由于该犯罪行业收益率极高,利益驱动下,犯罪团伙仍会借助各种逃逸措施顶风作案。在中国,由伪基站引发的诈骗短信问题长期存在,造成巨额的社会经济损失。
图2:2019年6月四川警方缴获的伪基站设备[1]
据国家无线电管理局报告[2],2019年,全国无线电管理机构联合相关部门共查处伪基站违法犯罪案件61起,缴获非法无线电发射设备1500余套。
图3:伪基站发送的诈骗短信示例。该设备发出的短信可随意设置发送者号码,与普通的如短信网关等发出的诈骗短信相比更具迷惑性。
本文重点关注伪基站短信文本内容的识别,借助自然语言处理技术与机器学习分类方法,完成了对伪基站生态系统细粒度的检测与分析,尤其对伪基站犯罪团伙实现了识别与追踪。对理解犯罪团伙的行为特征、探索行为策略、从而更好地打击伪基站犯罪提供了帮助。
02
【数据收集】
研究人员通过与安全厂商360手机卫士合作,参考已有研究提出的伪基站设备检测方法,在3个月的时间内,收集到来自国内真实用户的27万条伪基站短信数据。
图4:伪基站垃圾短信数据收集流程及数据样例
抽样分析发现伪基站短信文本具有以下特征:
作为黑灰产推广内容,受到较为严重的文本混淆(例如,使用同音/形词替换原始词汇或插入特殊符号等)影响;
伪基站主要应用于广告推销、诈骗以及非法内容传播,文本语义特征明显;
短信中需要嵌入后续的联系方式(如微信客服、网站链接)
图5:伪基站垃圾短信的类型分布
基于上述分析,研究人员首先通过构建同义/形/音词列表,对文本进行了去混淆处理;其次利用人工标注数据集,对混淆后的文本提取词频特征、构建了多种文本分类器,最终在标注数据集上取得了F1值为96.87%的分类效果,可将伪基站短信精准地识别为14种类型。
此外,研究人员还以短信文本中的联系信息为线索,利用层次聚类的方法,对伪基站的犯罪团伙进行了无监督的聚类分析,在数据集中识别出了7,884个伪基站犯罪团伙。
03
【主要发现】
基于上述两大分类器,借助被动DNS、WHOIS、域名黑名单、基站地理位置信息库等数据,本研究对伪基站生态特征进行了全面、系统的分析。主要发现包括:
图6:伪基站发送垃圾短信的时域特征
伪基站犯罪者行为特征:
主要利用伪基站发送非法内容(而不是普通推广)短信;
倾向于在不同的城市、同一城市的不同地点针对性地发送不同内容的短信;
发送行为常于人口密度较大(如小区)或便于逃逸(如环路)的地理位置发生;
图7:活跃伪基站的地理位置分布(左-中国范围,右-成都市区示例)
本文还对根据文本内容信息识别出的7,884个伪基站犯罪团伙的行为策略(从提高诈骗成功率与逃避检测两方面)进行了分析。
图8:伪基站犯罪团伙概貌
伪基站团伙策略举例:
不同伪基站团伙存在资源共享现象,如短信模板、客服联系方式等,说明该系统已经形成了层次化的结构;
伪基站短信往往通过添加恐吓、金钱诱惑等内容吸引用户;
犯罪团伙的地理位置变动非常灵活,会通过在临近的多个城市之间移动逃避检测;
表1:发送垃圾短信最多的10个伪基站犯罪团伙
最后,本文基于研究发现,也从安全厂商、政府监管部门、移动运营商等多个角度对缓解伪基站危害提出了相应的建议。研究人员标注的分类数据集也已开源[3]。
04
【结语】
尽管伪基站利用的是GSM(2G)网络通信协议漏洞,由于当前终端设备普遍向前兼容,即使在3G、4G网络下,攻击者仍可将终端强制降级至2G、进而完成攻击。因此,伪基站的问题仍将长期存在。
本文利用了伪基站短信的文本特征,通过构建内容识别分类器以及犯罪团伙聚类算法,完成了首个对伪基站生态系统的大规模、系统分析。本文的研究结果也表明,伪基站犯罪生态系统仍处于不断地发展、进化之中,研究人员也将对该领域长期保持关注。
【参考文献】
[1] 央广网: 利用伪基站发送300多万条信息 四川攀枝花警方抓获3名嫌疑人https://baijiahao.baidu.com/s?id=1635281940783939930&wfr=spider&for=pc
[2]无线电管理局:2019年打击治理“黑广播”“伪基站”情况https://www.miit.gov.cn/jgsj/wgj/djzlhgbwjz/art/2020/art_76629296b08b4008a1ddbbb1a7488042.html
[3]FBS_SMS_Dataset. https://github.com/Cypher-Z/FBS_SMS_Dataset
【论文原文链接】
https://cypher-z.github.io/ccs20.pdf
本文作者:公众号:安全女巫
本文为安全脉搏专栏作者发布,转载请注明:https://www.secpulse.com/archives/199174.html