AI加持下的互联网反欺诈 | 反欺诈AI全域治理三部曲(上)
星期四, 八月 27, 2020
互联网是一把双刃剑。随着互联网成为各行业加快业务开展的关键技术,各行业都面临着诸如垃圾评论、排名欺诈、交易欺诈、薅羊毛、账户盗用、扫码/信用卡套现、批量虚开等欺诈问题,反欺诈也成为各行各业保证运营业务与营销业务正常开展的前提。这些欺诈现象的背后往往是黑产团伙协同作案,企业与日俱增的反欺诈成本。
反欺诈模型作为一个重要的技术手段,在互联网、金融、传统零售等各行各业广泛的存在,但却没有一套完整的理论框架和方法论。本文结合互联网反欺诈的现状,罗列总结了互联网反欺诈模型体系建设过程中的经验和教训。
随着互联网欺诈团伙化、产业化,风控、反欺诈、信贷、异常检测等领域均需要认真思考如下六个方面的问题,并提出尽可能合理的解决方案:
1. 原始案件数据标注来源
2. 历史案件深度挖掘应用
3. 专家经验规则自学习机理
4. 风评结果可解释性说明
5. 模型实时计算预测服务
6. 案件核准闭环运维思维
01、原始案件数据标注来源
反欺诈案件标注数据是极为珍贵的资源。绝大多数场景下,项目初始化阶段是没有任何数据标注的。标注数据来源从技术手段分类有:
名单库
传统的黑白名单通过内部积累和外部获取的各种人员信息、手机号、设备、IP、证件号等对欺诈行为进行判断,是一种实施简单、成本较低的反欺诈手段。但存在准确度低、覆盖面窄等缺点,仅可作为互联网反欺诈的第一道过滤网使用。
专家规则
专家规则是目前较为成熟的反欺诈方法和手段,基于反欺诈策略人员的经验和教训,制定反欺诈规则,当用户的操作行为触发了反欺诈规则时,启动相应处置策略。
• 优点:实现较为简单、可解释性强、可快速响金融行业的监管文件。
• 缺点:存在严重的滞后性,对于新出现的欺诈手段和方法无法及时应对,往往需要付出大量损失代价后才能总结规律,提取新的规则。
此外,由于人脑的限制,专家规则只能使用一个或几个维度的标量进行计算和识别,存在着较大的误报率。同时,专家规则严重依赖于策略人员的经验水平,不同水平的策略人员制定的专家规则效果也会存在较大区别,主要作为互联网反欺诈的应急响应手段和兜底防线。
统计分析
运用对比分析、趋势分析、分布分析、漏斗分析等数据分析手段,挖掘数据一致性、集中性等特征发现欺诈规律,适用于静态数据场景,如模型POC、机器学习比赛等,具体采用数据分析技术+客群分类+场景化先验知识假设综合技术手段,可以获取很好的召回率和模型可解释性。
在生产环境实时计算场景,劣势也很明显,主要包括如下几点:
• 作为一种事后分析技术手段,不具实时性,无法在事中实时检测中发挥作用。
• 作为基于业务先验经验基础上分析推理,不具备对抗性,模型有效时间短,容易被经验丰富,组织化黑产团伙分析绕过。
• 基于场景化欺诈特性假设和数据分布假设,在业务演化和场景变化后,模型大多数情况会失去原有预测效果,模型不具备场景普适性和时间稳定性。
异常检测
适用于场景化个体欺诈场景和场景化团伙欺诈场景。在账号盗用、盗转盗刷、防内鬼等个体欺诈场景,常规打法有两类:一类是规则+简单统计模型,基于用户注册、登录、消费、转账信息构建统计特征、拟合特征和分类特征等,对接指数移动平均算法、LOF、IForest、Holt-Winters、ARIMA算法发现异常点。
• 优点:开发部署快,可解释性强。
• 缺点:误报率高,不适应用户正常行为的突然改变,随着时间的迁移,特征工程将会变得越来越复杂,并且在预测的时候,时间复杂度也会大量增加。
另一类是深度学习+时间序列检测算法,常用的LSTM模型来拟合周期型的时间序列,或利用自编码器的重构误差和局部误差,输入数据是归一化之后的原始数据(normalized raw data),输出的是两个标签(正常&异常)。
• 优点:可以实现端到端(End to End)的训练过程,有效拟合用户行为规律。
• 缺点:维护模型的成本比较高,不太适用于大规模的时间序列异常检测场景,周期型的曲线效果比较好,如果是毛刺型的数据有可能就不太适用。
关联图谱
图数据是一种更加广泛的数据表示方式,夸张地说,没有任何一个场景中的数据彼此之间是孤立存在的,这些数据之间的关系都可以图的形式进行表达。最近一年,GNN 的应用场景不断延伸,覆盖了计算机视觉、3D 视觉、自然语言处理、科研、知识图谱、推荐、反欺诈等场景。
关系数据的挖掘是绝大部分反欺诈业务开展最重要的技术视角,不论是基于欺诈风险传播的关联分析还是基于黑产团伙模式的结构化挖掘,图都是反欺诈业务人员的首选工具。在这样的背景下,GNN 也变得极有发挥空间。例如,GNN 对支付宝欺诈用户进行识别检测, GNN 对咸鱼上的评论进行欺诈识别。
场景化团伙欺诈场景,引入关联图谱关系定义,通过共用、共享、连接指向等关系定义,构建基于不同资源维度的复杂关系图谱,如账号图谱、设备图谱、电话号码图谱等。引入图论领域出入度、中心度、模块度、最短链路、Riskrank、顶点嵌入、图卷积等图算法,对大部分团伙欺诈场景有很好的适用性。
• 优点:通过部署一个模型可以应对多个场景的团伙性欺诈挖掘,项目部署实施成本低,运维成本低等。
• 缺点:相对于独立的场景化团伙欺诈检测,模型召回率在可接受范围内有一定损失。
02、历史欺诈案件深度挖掘应用
项目上线一段时间后,原始案件数据有一定沉淀积累,这个阶段面临的问题是如何更好地从已有沉淀案件中深度挖掘隐藏的欺诈模式,提供在线实时预测服务。深度欺诈检测常用算法列表有XGBoost、DeepFFM、XDeepFM、Wide&Deep、DIN等以及算法融合。
有监督学习模型在发现历史案件中蕴含的欺诈模式方面相对于专家经验有如下5个方面的优势:
• 发现深度复杂隐式欺诈特征,这点对比专家规则,具有较强针对性;
• 发现的规则是非线性的,对事后分析绕过对抗有较强的免疫力;
• 具有正反双向作用力,对比专家规则单向作用模型,正反双向作用性质,可以对模型过拟合风险起到很好对冲作用;
• 通过深度网络多层交叉组合,一方面进一步加强规则集对抗性、持续性,另一方面提升模型泛化能力、增强欺诈场景的普适性;
• 做到在线实时风评防控,提升模型风控时效性,从事后分析前置到事中实时防控,通过一个模型可以覆盖全渠道场景欺诈类型检测,真正做到One Model Rule All。缺点是相对专家规则模型单规则理解性差,算法复杂度高。
当然,要正确理解机器学习模型作用和功能,需要模型相关的业务人员、技术运营人员建立模型治理理念和认知,从单规则角度转变为模型整体防控角度来更好更全面理解模型效果。从检出率,误报率,漏报率,准确率等全局性指标中,分析研判模型整体效果和趋势。
芯盾时代是业务安全产品和服务提供商,率先提出“以人为核心的业务安全”理念的公司。芯盾时代持续引领业务安全技术发展方向,以人工智能赋能信息安全,为客户提供场景化全生命周期业务安全防护方案,助力客户打造安全、智能、可信的业务体系。