众所周知,由于 Facebook 被封锁而 Twitter 受到限制,Telegram 在俄语互联网上非常受欢迎,它也是俄罗斯互联网用户完全可以访问的最后一个社交网络应用程序之一。
近期,它一直是记录俄乌战争的重要工具,通过一些在 Telegram 上发布的视频、照片等内容,我们能够及时了解战争局势的变化情况。
但目前俄罗斯和乌克兰的网络媒体环境波动很大,许多帖子可能会随着时间的推移会突然失效,因此,我们需要对一些内容进行及时存档以防帖子被用户删除或平台无法访问。福韵君在前期也分享了关于如何防止信息404,点击下方图片即可阅读:
2 月 25 日,Telegram 频道@MariypolCalling 发布了一段军车视频。但是没过几天研究人员就发现该帖子已不再可见。但是,幸好研究人员之前对该内容副本进行了存档。那具体是如何操作的呢?
相比其他平台, Telegram 是最容易存档的通信平台之一,也是最后一个可以保存图像元数据的平台之一。这对用户来说是一种隐私风险,但对开源研究人员来说往往是一个福音。同时,Telegram 的聊天导出格式还可以轻松使用 Google 翻译来翻译整个频道。即使对于技术小白用户,这些步骤也很简单。
Telegram 内容在许多其他情况下也很有用。例如,Bellingcat 之前已将 Telegram 帖子存档,以对极右翼团体和QAnon 阴谋进行多次调查过程中就有所展现。虽然下面提供的示例侧重于与上述任何主题无关的通用组,但所描述的原则可以应用于任何 Telegram 组或帖子。
如何归档特定的例子、图像或视频
存档媒体的最简单方法是使用适用于 Windows、Mac 和 Linux的Telegram 桌面应用程序。然后,你只需右键单击图像或视频并单击“另存为...”即可保存媒体。如果图像作为文件附加,它也将包含所有原始元数据。
你可以在 Telegram 应用程序中查看的任何消息执行此操作,即使你不是该组的成员。如果你拥有格式为https://t.me/euronews_tr/2011的帖子 URL ,则按“在频道中查看”将允许你在 Telegram 应用程序中打开它。
此外,你还可以截取原始帖子的屏幕截图以保存时间戳、用户并记住你在哪里找到了媒体项目。更进一步,你可以保存整个帖子内容和元数据的完整副本,方法是将其转发到Show Json Bot并将返回的JSON 内容保存在单独的文本文件中。
JSON 是指用于计算机可读信息的特定文件格式。这与应用程序编程接口 (API)可能返回的内容相同。请注意,切勿将敏感或私人消息转发给机器人。保存元数据很有用,因为它包含来自帖子的尽可能多的信息,包括用户 ID、聊天 ID 和完整时间戳。
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人类阅读和写作,机器也很容易解析和生成。它基于 JavaScript 编程语言标准 ECMA-262 第 3 版 - 1999 年 12 月的一个子集。JSON 是一种完全独立于语言的文本格式,但使用 C 系列语言(包括 C)的程序员所熟悉的约定, C++、C#、Java、JavaScript、Perl、Python 等等。这些属性使 JSON 成为一种理想的数据交换语言。
https://t.me/ShowJsonBot
如何归档整个频道或群组
Telegram 超越了其他聊天平台,具有以人类可读和机器可读格式(包括文件和媒体)导出整个聊天历史记录的能力。但是,此功能在 Mac OS 上不可用。解决这个问题的最简单方法(如果使用 Mac 或 Linux)是使用 Windows 虚拟机。VMWare Fusion为非商业用户提供免费许可证,并且可以在此处找到有关如何使用它的指南。
首先,通过从对话中选择或搜索来在 Telegram 应用程序中打开一个聊天。电报聊天可以是私人对话、频道(单个用户向观众广播)或群组(许多用户聊天)。有时公共频道作为在线预览链接共享。
如果你有其中之一格式为
https://t.me/s/[username]
例如:https://t.me/s/euronews_tr,
我们单击频道的用户名将提供一个选项来打开它Telegram 应用程序,如果你的计算机上安装了该平台,你还可以使用这些预览 URL 来查找在搜索结果中隐藏的某些频道。
https://t.me/s/euronews_tr
打开一个群组或频道(即使是不是其成员),单击右上角的菜单按钮并选择“导出聊天记录”。
有多种导出设置可供选择。选中每个框将导出频道中包含的所有媒体。最大化大小限制会捕获尽可能多的媒体,但它会显著增加导出时间。
有两种格式可供选择,HTML 或 JSON。HTML 格式被设计为人类可读的。它可以在网络浏览器中打开,对于人工审核最有用。JSON 格式设计为机器可读,在导出数据以供进一步分析时最有用。
你还可以指定一个日期范围,如果你只想要完整频道存档的一个子集,这可以加快处理速度。最后,单击“导出”开始导出过程。对于大型聊天记录,这可能需要几个小时。
要查看导出,请在 Web 浏览器中打开 messages.html 文件。
遗憾的是,目前无法使用此技术导出频道评论。
如何翻译Telegram 消息
Telegram 最近在移动应用程序中添加了翻译功能。通过转到应用程序中的设置 > 语言 > 显示翻译按钮来激活该功能。要翻译消息,可以按住以调出上下文菜单,然后选择“翻译”选项。
但是,使用此功能,你一次只能翻译一条消息。通过将聊天记录导出为 HTML(如上所述)并在 Google Chrome 中打开,可以一次翻译整个频道的内容。如果 Chrome 不提供翻译该页面,你可以通过右键单击并选择“翻译成英语”(或你的首选语言)来请求它。
抓取和API
对于高级用户,Telegram 的 API 也提供了对平台的非常开放的访问,使得归档消息和媒体以及用户、频道和组元数据变得容易。对于 Python 开发人员而言,Telethon API功能齐全且文档齐全。
https://docs.telethon.dev/en/stable/basic/quick-start.html
下载 Telegram 消息的另一种方法是使用非 API 抓取工具。这种方法可以比 Telegram 的原生导出功能更快,但它只适用于公共频道,不适用于聊天组。JustAnotherArchivist 的工具 snscrape可以很好地解决这个问题,Bellingcat 已经对其进行了 fork 以支持检索媒体和频道转发信息。
特此声明:本文旨在分享工具以交流学习,请广大读者在合情合理合法的范围内使用,时刻谨记法律红线,不得利用该工具和技术做出任何违法违规的事情。
文章来源:福韵
原创内容,未经授权禁止转载
福韵原创IP形象设计,原创勿盗,侵权必究
封面来源:technobezz
长按识别下面的二维码可加入星球
里面已有近千篇资料可供下载
越早加入越便宜
续费五折优惠