摘要
本文概述了多种工具,这些工具能够从Facebook平台上抓取有价值的数据和重要信息,并详细介绍了这些工具的技术细节。文中通过Python和Selenium抓取“职业机会”群组中的广告图片并下载到本地文件夹的实例,展示了如何实践操作。之后,使用了一个叫Tesseract的开源算法,对下载的图片进行文本识别,并将识别出的句子添加到文本文件中。这些都是公开来源情报调查的示例,如分析招聘海报上的广告是否包含了求职者所需的全部重要信息。未来的工作将包括研究更多更新和付费的工具版本,这些工具将助力从Facebook平台上以合适的格式提取信息,并提供多种选择选项。此外,就像图片文本转换一样,还有更多的人工智能模型可以使用,例如图像分类、图像分割等,并且可以选择并下载更多其他类型的数据,比如帖子、点赞、评论和分享,并对评论进行情感分析以评价一个帖子。
本文讨论了与Facebook数据收集和分析部分相关的各种工具和方法。在本文的最后,读者将对可用的技术、工具以及这些工具提供的描述有深入而清晰的了解,以从Facebook平台上获取数据,并对收集到的数据进行各种调查和分析。
背景
OSINT已经取得了长足的发展。它仍在不断发展思想,许多调查即将很快进行。所有OSINT调查的基本要求是来自优秀来源的有价值数据信息。
本文的背景聚焦于公开来源情报(Open Source Intelligence, OSINT)在Facebook上的调查。随着OSINT理念的不断发展,未来还有许多研究将陆续进行。论文讨论了几种与Facebook数据收集及分析方法相关的工具,最终让读者对这些工具的技巧及描述有更深入清晰的理解,并揭示如何从Facebook平台抓取数据以及如何运用这些数据进行各类调查和分析。论文呈现的是截至2022年11月的Facebook上OSINT调查的状态。
结论
文章对从Facebook平台上抓取有价值数据和重要信息的各种工具进行了详细描述。
文中提供了清晰的技术讲解,并演示了一个具体实例:使用Python和Selenium抓取职业机会组中的广告图片并下载。
进一步运用开源算法Tesseract对图片进行文本识别,并将结果存储为文本文件,以开源情报调查的方式分析了广告上的文本信息。
未来工作将探索工具的更新和付费版本,以提高信息抓取和提取效率,并通过多选项进行格式化。
应用更多的人工智能模型,如图像分类、图像分割,扩展数据类型(帖子、点赞、评论、分享),并进行情感分析以评价帖子内容。
Facebook是一个社交媒体平台,也在很大程度上为SOCMINT的机会做出了贡献。Facebook是数百万人访问的地方,他们在这里展示他们对各种话题的想法和兴趣;这是人们数字化言说、争论和展示情感的地方。Facebook也是一个广泛传播一般和信息性话题(如新闻、职业选择等)的平台。Facebook还扩大了其选项的多样性,如Facebook页面、Facebook群组、Facebook通话和Facebook Messenger 。所有这些选项都提供了SOCMINT更强大和更好地分析相关Facebook数据的机会。
现在,我们的主要议程是主要集中在Facebook平台上。尝试从平台上爬取必要和有价值的信息,并使用这些数据进行分析、评估和预测。有许多在线工具,特别用于Facebook数据爬取。但并非所有可用的工具都能正常工作。目前,许多工具已经过时或者不能正确地工作,或者在某些情况下,它们不能给出我们所需的精确输出。本文将评估一些目前正在工作的工具及其易用性。以下列出了一些正常工作的工具。
1、APIFY
APIFY是一个在线的网站/平台,提供了一些网络爬虫技术,包括可以在Facebook平台使用的网络爬虫,如• Facebook页面爬取器• Facebook最新帖子爬取器• Facebook最新评论爬取器。这个工具给我们一个令人满意的输出,就像我们需要的和适当的一样。这个工具非常容易使用,计算和给出输出不需要太多时间。
APIFY网址:https://console.apify.com/
在搜索框中输入“facebook”就可找到一堆与facebook相关的数据采集工具。
输入要采集的facebook网页链接地址,就可对相关信息进行爬取。
2、OSINT Combine
OSINT combine是一家由澳大利亚退伍军人拥有的全球知名公司。其中包含了许多免费工具,如:
• Sanctions Search(处罚搜索)
• Multi-keyword search for photos(图片多关键词搜索)
OSINT Combine网址:https://www.osintcombine.com/
3、Sowsearch
Sowsearch是一个工具,它可以帮助我们使用所有适当的过滤器从Facebook平台找到正确的数据。这个工具是一个教育目的的实验项目,目前仍在开发中。这个工具与之前存在的Graph搜索工具几乎相似,使用了相同的处理方法。Sowsearch提供了各种选项和过滤器,用于在Facebook平台上进行搜索。
Sowsearch提供八种不同类型的搜索,每种搜索都有独特的筛选器用于此搜索过程:岗位、人名、照片、页面、地点、视频、事件、门楣。
Sowsearch下载网址:https://www.sowsearch.info/
4、LookupID
网址:https://lookup-id.com/
5、Whopostedwhat
网址:https://whopostedwhat.com/
6、Nairaland
Nairaland是尼日利亚英语 互联网论坛。该网站由尼日利亚企业家Seun Osewa于 2005 年 3 月 8 日创立,主要针对尼日利亚国内居民,是尼日利亚访问量排名第六的网站。
目前,它拥有超过 300 万注册用户,迄今为止创建了超过 740 万个主题,据估计,大约有 3% 的尼日利亚互联网用户在 Nairaland 上注册,而Facebook的尼日利亚用户有 1100 万,这一比例约为 20%当地互联网人口。仅在发帖、评论或点赞帖子时才需要注册。
网址:https://www.nairaland.com/
7、Facepager
Facepager 旨在从 Facebook、Twitter 和其他基于 JSON 的 API 获取公共可用数据。
网址:https://github.com/strohne/Facepager