原文标题:Your Style Your Identity: Leveraging Writing and Photography Styles for Drug Trafficker Identification in Darknet Markets over Attributed Heterogeneous Information Network
原文作者:Zhang, Yiming, Yujie Fan, Wei Song, Shifu Hou, Yanfang Ye*, Xin Li, Liang Zhao, Chuan Shi, Jiabin Wang, and Qi Xiong
发表会议:WWW '19: The World Wide Web Conference
原文链接:https://dl.acm.org/doi/abs/10.1145/3308558.3313537
主题类型:图数据挖掘、暗网生态研究
笔记作者:ShuiChang
主编:黄诚@安全学术圈
通过分析毒品贩运者(即供应商)是否在不同的市场或同一个市场内维护的多个账户来打击毒品运输地下贩毒市场:如DreamMarket、Valhalla。
作者提出并开发了一个名为uStyle-uID的系统,其集成了“写作风格”(writing style)和“摄影风格”(photography style),分别提取了文字和图像的特征。
对于分析系统中起核心作用的AHIN(Attributed Heterogeneous Information Network, 属性异构信息网络),作者提出了一种新的网络嵌入模型Vendor2Vec来学习AHIN中节点的低维表示。其根据节点附加的互补属性信息来引导基于元路径的随机漫步进行路径实例采样,再用skip-gram模型来学习AHIN的有效节点表示。之后,作者提出了一个二分类学习模型,称为vIdentifier,来判断给定的一对毒品贩运者是否相同。
论文的主要方法(uStyle-uID的系统框架)如下:
四个实体,三种元路径。
meta-path的随机漫步+skipgram
在第i步转换概率的公式如下图。
组合通过每个元路径采样的路径实例,然后输入skipgram模型来学习节点嵌入。
分类模型,预测两个节点间存在一条链接的可能性
首先应用深度神经网络,输入节点嵌入,输出低维流形(low-dimensional manifold),将该过程定义为函数f
在获取低维流形后,可将通用链路函数g(u,v)分解为两个节点,u和v嵌入通过f转化后,f(u)乘L的转置、f(v)乘R。
然后进行优化,优化函数定义如下。
其中Duv是贩毒者u和v在元路径游走时,采样的路径实例中出现在特定窗口中的频率。
通过自研爬虫(Valhalla、DreamMarket)和可公共获取的datadump(SilkRoad2、Evolution)收集了四个不同的暗网数据。
仅保留了至少发布两种毒品的毒贩。
对于给定的毒贩,将其发布文本和照片随机分为两个部分作为正例;将其随机匹配其他供应商作为负例。
使用了10-fold,用ACC和F1来评估。
Vendor2Vec参数经验性地设置为:节点维度D=100,行走r=10,行走长度l=80,窗口大小w=10。
vIdentifier的参数设置为:降维到d=30。
Hybrid-DNN:直接把特征放到深度学习模型里
AHIN-DNN:把vIdentifier换成深度学习模型
AHIN-SVM:把vIdentifier换成SVM
作者还做了case study,发现了某个芬兰贩毒团伙。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com