原文标题:iDev: Enhancing Social Coding Security by Cross-platform User Identification Between GitHub and Stack Overflow
原文作者:Yujie Fan , Yiming Zhang , Shifu Hou , Lingwei Chen , Yanfang Ye∗ , Chuan Shi , Liang Zhao and Shouhuai Xu
发表会议:28th International Joint Conferences on Artificial Intelligence
原文链接:https://par.nsf.gov/servlets/purl/10103990
主题类型:图数据挖掘
笔记作者:ShuiChang@安全学术圈
主编:黄诚@安全学术圈
提出一种跨平台(Github、StackOverflow)的用户识别方案,用于防止攻击者嵌入和分发恶意代码。
该方法包括:
方法大致可总结为三点:
AHIN的创建-AHIN2Vec模型的节点表示-对跨平台用户的对比识别。
用户特征属性(来自用户profile):
对于GitHub用户,考虑用户建的仓库;对于StackOverflow用户,考虑其贴出的问题和回答。(使用Doc2Vec经验性地设为100维)
社交编码属性:
GitHub的关系:
StackOverflow的关系:
跨平台的关系:如果StackOverflow的问题/答案存在直接指向GitHub的链接,那么就存在:
AHIN由实体类型、属性和边构成,其中的每个节点都有一组属性,边表示不同实体类型之间的关系,这些关系由一组元路径描述,用于描述节点间的语义关系。
AHIN2Vec的工作可大致总结为:首先将构建的AHIN映射到一个多视图网络中,然后应用子空间分析来获取一个统一的带属性的图形,最后利用图形自编码器来学习节点嵌入。
首先,将AHIN映射到一系列单视图网络中,分类依据为不同的元路径。每个单视图的图都表现了一种不同的用户间交互。在这个案例中,每个节点就为一个用户,每条边都表示二者可以通过某条元路径相联系。用户在某张单视图中的特征矩阵即可表示为所有用户的矩阵拼接。之后,这些特征矩阵首先被融合,之后进行图自动编码。这里的编码器为GCN,通过GCN来获取图隐性表示。之后作者训练一个Decoder用于预测两个节点间是否存在边连接。
在应用AHIN2Vec后,作者对所有节点运用了平均池化。之后,这些节点被放入分类器中通过SVM进行用户分辨。
作者从StackExchange中抽取了9737249个用户,其中42840个用户在个人档案里提供了GitHub链接,这些用户被进一步抽取GitHub的相关信息。
之后,作者随机抽取了提供了GitHub链接的10%用户(4284个)作为正例,通过随机链接StackOverflow用户和GitHub用户作为负例(4284个)。
在这个基础上构建了AHIN,其包含25875个节点(4284个GitHub用户节点、4864个GitHub项目节点、4284个StackOverflow节点、2184个问题节点和10259个答案节点)和75824个边。
不同特征:
f-1:仅用用户特征;
不同的基于AHIN特征:
f-2:在表现最好的单视图中直接连接用户属性和用户关系特征;
f-3:直接将不同的单视图中的用户属性和用户关系特征融合连接;
f-4:连接通过使用文章提出的子空间分析融合方法得到的、融合了不同单视图的用户属性和用户关系特征;
和DeepWalk、LINE、metapath2vec、HIN2Vec做对比;向量维度为200,随机选定10%到90%的数据训练,余下的数据做测试。
Yujie Fan 博士于 2022 年 6 月加入 Visa Research,担任研究员。2022 年获得凯斯西储大学 (CWRU) 计算机科学博士学位。
Yanfang Ye 目前是圣母大学计算机科学与工程系(CSE)计算机科学与工程学院副教授,在此之前,是凯斯西储大学(CWRU)计算机和数据科学系副教授,研究领域主要包括网络安全、数据挖掘、机器学习和健康智能。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com