Tor 服务的大规模爬取与分析
2023-11-8 00:7:1 Author: mp.weixin.qq.com(查看原文) 阅读量:5 收藏

工作来源

ARES 2023

工作背景

Tor 2004 年开始运营,到 2022 月为止已经有超过 70 万个 Tor 域名,以近 8Gbps 的速率为 250 万用户提供服务。

探测 Tor 服务的情况有几个难点:Tor 服务通常只能用 Tor 浏览器或专用客户端通过 Tor 网络访问;以公钥的哈希值作为域名非常难记;Tor 网络的路径较长且性能较低;只能通过口口相传或者网页链接发现域名。

Tor 服务不仅提供端到端加密,还提供双向匿名。如下所示:

2018 2 月,Tor 开始推广第三代 Tor 服务。该代 Tor 服务有 56 个字符,包含 Tor 服务公钥的 base32 编码、校验和与版本号。此外,还支持同故宫椭圆曲线加密技术将整个公钥嵌入域名中。新版本 Tor 服务还更新的密钥派生方案,从 Tor 域名作为服务的标识符转而使用 Tor 域名与特定元数据派生新的公钥。三年后的 2021 10 月,Tor 浏览器在新版本中正式废弃了第二代 Tor 服务,全面拥抱第三代 Tor 服务。

工作设计

Dizzy 的架构如下所示:

爬取数据

通过 OnionDir Torch 获取初始种子,取爬取网页。每一个响应都会对应生成一个原始 HTML 文件及其渲染版本,以及各种元数据(如图片的哈希值)。

分析数据

提取用于分类的特征:

服务一共被分为六类:

使用感知哈希与 PRNU 识别相似的图片与来源相机。另外,将加密货币钱包地址的流入流出行为存入图数据库中。

应用数据

工作准备

2021 4 月在 35 节点的 Kubernetes 集群上部署了 Dizzy,每个节点 32 + 64GB 内存。整个集群拥有 100 Tor 客户端、100 JS 渲染器与 150 个爬虫,可以实现每秒爬取 75 Tor 服务的速度。

训练好的分类器如下所示:

注:Dizzy 仍然尊重 Tor 的准则,不爬取需要身份验证等诸多情况的服务。

工作评估

截至 2022 1 31 日,Dizzy 爬取并分析了 39536 Tor 服务的 63267542 个网页,95.2% 的服务只有不到 75 个网页。JavaScriptCSS 与图片哈希的数量分别为 3200 万、230 万与 150 万,共发现 5720 个加密货币钱包地址。

域名情况

53.6% 的域名严格满足第三代 Tor 服务,33.1% 的域名严格满足第二代 Tor 服务。如下所示,大多数第三代 Tor 服务都是在 2021 6 月以后出现的,也就是 Tor 官方表示 Tor 浏览器新版本放弃支持第二代 Tor 服务的时候。

Dizzy 每天能够发现 8.9 个新域名,但服务可用性其实相对较低。

86% 的服务使用 Nginx 部署,其次是 Apache HTTP ServerLighttpdMicrosoft-IIS 与各种不知名的服务。由于 Tor 提供端到端加密,再使用 TLS 其实是多余的,但仍然发现了 173 个域名使用 156 TLS 证书进行访问。

网页内容

93% 的服务使用英语作为主要语言,其次是俄语、德语与法语,以及其他四十多种语言。大约 50.6% 的服务是交易市场,其次是色情网站(9.4%)、加密货币服务、搜索引擎、社交媒体等。

61.7% Tor 服务被标记为非法,几乎所有的色情网站都是非法的。

48.7% 的图片都是 PNG 格式,其次为 JPG GIF82.4% 的图片小于 64 像素,剩下的图片只有 5.7% 带有 EXIF 信息。

加密货币

41.4% 的服务提供了 325653 个加密货币地址,但前 10% 的服务提供了 74% 的地址。已使用地址中,9.1% 被标记为恶意地址。

10.2% 的已使用地址收款超过 1 万美元,1.6% 的已使用地址收款超过 10 万美元。这些钱包 423400 笔共计收款 2.015 亿美元,146200 笔共计提款 1.84 亿美元。

TOP 5 的钱包如下所示:

网络连接

图库中共有3.95 万个节点与 74.32 万条边,最大的簇连接 40.3% 的节点与 44.7% 的边。度(入度+出度)与频度的情况如下所示:

工作思考

有意思的是暗网中也有诈骗,服务声称其分析了加密货币并且发现了漏洞,可以让用户收到比发送的还多的加密货币。诱导用户将加密货币发送到该网站的钱包地址,还列出了部分交易,表示用户可以获利超过 200 倍。


文章来源: https://mp.weixin.qq.com/s?__biz=MzkyMzE5ODExNQ==&mid=2247486690&idx=1&sn=e46b3b52b78a3dc8b872a3c0ba884c98&chksm=c1e9fb2ef69e72381eb724db4d3b4ef28d1820b58009b4dc518367419f308b1ae956e9e51bc5&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh