工作来源
ARES
2023
工作背景
Tor 从 2004 年开始运营,到 2022 年 1 月为止已经有超过 70 万个 Tor 域名,以近 8Gbps 的速率为 250 万用户提供服务。
探测 Tor 服务的情况有几个难点:Tor 服务通常只能用 Tor 浏览器或专用客户端通过 Tor 网络访问;以公钥的哈希值作为域名非常难记;Tor 网络的路径较长且性能较低;只能通过口口相传或者网页链接发现域名。
工作设计
Dizzy 的架构如下所示:
爬取数据
通过 OnionDir 与 Torch 获取初始种子,取爬取网页。每一个响应都会对应生成一个原始 HTML 文件及其渲染版本,以及各种元数据(如图片的哈希值)。
分析数据
提取用于分类的特征:
服务一共被分为六类:
使用感知哈希与 PRNU 识别相似的图片与来源相机。另外,将加密货币钱包地址的流入流出行为存入图数据库中。
应用数据
工作准备
2021 年 4 月在 35 节点的 Kubernetes 集群上部署了 Dizzy,每个节点 32 核+ 64GB 内存。整个集群拥有 100 个 Tor 客户端、100 个 JS 渲染器与 150 个爬虫,可以实现每秒爬取 75 个 Tor 服务的速度。
训练好的分类器如下所示:
注:Dizzy 仍然尊重 Tor 的准则,不爬取需要身份验证等诸多情况的服务。
工作评估
截至 2022 年 1 月 31 日,Dizzy 爬取并分析了 39536 个 Tor 服务的 63267542 个网页,95.2% 的服务只有不到 75 个网页。JavaScript、CSS 与图片哈希的数量分别为 3200 万、230 万与 150 万,共发现 5720 个加密货币钱包地址。
域名情况
53.6% 的域名严格满足第三代 Tor 服务,33.1% 的域名严格满足第二代 Tor 服务。如下所示,大多数第三代 Tor 服务都是在 2021 年 6 月以后出现的,也就是 Tor 官方表示 Tor 浏览器新版本放弃支持第二代 Tor 服务的时候。
Dizzy 每天能够发现 8.9 个新域名,但服务可用性其实相对较低。
86% 的服务使用 Nginx 部署,其次是 Apache HTTP Server、Lighttpd、Microsoft-IIS 与各种不知名的服务。由于 Tor 提供端到端加密,再使用 TLS 其实是多余的,但仍然发现了 173 个域名使用 156 个 TLS 证书进行访问。
网页内容
93% 的服务使用英语作为主要语言,其次是俄语、德语与法语,以及其他四十多种语言。大约 50.6% 的服务是交易市场,其次是色情网站(9.4%)、加密货币服务、搜索引擎、社交媒体等。
61.7% 的 Tor 服务被标记为非法,几乎所有的色情网站都是非法的。
48.7% 的图片都是 PNG 格式,其次为 JPG 与 GIF。82.4% 的图片小于 64 像素,剩下的图片只有 5.7% 带有 EXIF 信息。
加密货币
41.4% 的服务提供了 325653 个加密货币地址,但前 10% 的服务提供了 74% 的地址。已使用地址中,9.1% 被标记为恶意地址。
10.2% 的已使用地址收款超过 1 万美元,1.6% 的已使用地址收款超过 10 万美元。这些钱包 423400 笔共计收款 2.015 亿美元,146200 笔共计提款 1.84 亿美元。
TOP
5 的钱包如下所示:
网络连接
图库中共有3.95 万个节点与 74.32 万条边,最大的簇连接 40.3% 的节点与 44.7% 的边。度(入度+出度)与频度的情况如下所示:
工作思考
有意思的是暗网中也有诈骗,服务声称其分析了加密货币并且发现了漏洞,可以让用户收到比发送的还多的加密货币。诱导用户将加密货币发送到该网站的钱包地址,还列出了部分交易,表示用户可以获利超过 200 倍。