人工智能技术从根本上改变了组织和个人使用互联网的方式。自 ChatGPT 发布以来,人工智能工具在互联网用户和公司中得到了大力发展。在开源情报领域,分析师已经开始使用人工智能技术来加快情报生产。
本文将讨论人工智能工具如何帮助开源情报分析师在 OSINT 收集活动中增强他们的能力,涉及一些人工智能工具用法并提供相应的工具链接,这些工具可以在搜索过程中为 开源情报分析师提供帮助。
在开源情报中可以利用人工智能工具的情况有很多,比如:
人工智能技术可用于从社交媒体平台、博客、论坛和深度互联网数据库等各种来源获取大量在线数据。收集到的信息可以用于不同的分析场景,例如一段时间内的跟踪某个实体或监控一段时间内的公共行为。可以训练机器学习模型来收集特定类型的信息,例如人们在社交媒体上的评论和回复,并自动提取它们。
1.1AnyPicker
AnyPicker 是一款免费的网络数据抓取工具,作为 Chrome 扩展提供。
https://chrome.google.com/webstore/detail/anypicker-ai-powered-no-c/bjkpgfhekfmdffdphnniobddhkjlmmlj
1.2Bardeen Scraper
Bardeen Scraper 服务允许将抓取的网页内容发送到其他应用程序(Google Sheets、Notion 或 Airtabl)中进行自动分析,而无需编写任何代码。
https://chrome.google.com/webstore/detail/bardeen-automate-manual-w/ihhkmalpkhkoedlmcnilbbhhbhnicjga
https://status.diffbot.com/
机器学习技术可以识别大型数据集中的实体:例如,分析大量文件并查找不同实体之间的链接关系。这些实体可以是个人姓名、公司名称、地址、电子邮件、电话号码或任何数据。
自然语言处理算法可用于总结大量数据。开源情报分析师可以使用摘要功能从数据集中分析和提取信息;例如,我们可以要求AI摘要工具提取一组由数百页组成的PDF文件中提到的所有公司名称。同样,我们可以训练机器学习模型来总结大量文本或社交媒体帖子。
使用人工智能技术的一个显著好处是它能够通过阅读文本(例如社交媒体帖子)来解释人类情感。OSINT 研究人员可能无法仅通过阅读特定用户在网上写的内容(例如社交媒体帖子和评论)来准确识别他们的情绪状态。另一方面是了解一群人或社会的普遍态度。例如,我们可以监控互联网用户在社交媒体平台上的评论以及客户对在线商家对特定品牌或产品的评论,以预测他们未来的购买行为。同样的事情可以大规模地应用(例如,一个国家内的所有人)来了解他们对政治、经济或体育事务的看法。
spaCy是一个免费的开源库,用于Python中的高级自然语言处理(NLP)。它可以帮助您构建可以从各种来源提取大规模信息的应用程序,或者构建自然语言理解系统。
4.2nlp.js
NLP.js是一个用JavaScript编写的情感分析包。它可以做网页抓取和情绪分析任务。
https://github.com/clips/pattern
Pattern可以从谷歌、Twitter和维基百科中提取数据。
计算机视觉是人工智能的一个子类型,它解释数字媒体文件信息,例如图像和视频内容。在开源情报领域,计算机视觉在进行涉及分析数字媒体的开源情报调查时可以提供无与伦比的能力,例如:
人脸识别:使用人工智能识别人脸并通过不同媒介(例如街道监控摄像头)跟踪他们的活动。
元数据分析:几乎所有数字文件都有一些元数据。从收集的数字文件中提取元数据的手动过程可能令人望而生畏。通过使用人工智能解决方案,这项任务可以大大简化。
反向图像搜索:人工智能工具可以显著加快反向图像搜索速度。它还可以检测使用深度伪造技术生成的图片。
人工智能技术不只是好人使用的;威胁行为者已开始利用人工智能工具来促进犯罪分子的活动。人工智能技术可用于检测人工智能工具产生的图像、视频和文本等内容。
在 OSINT 任务中利用人工智能的优势似乎很明显;然而,我们仍然必须考虑使用人工智能驱动的工具来调查和处理敏感数据的道德和安全(隐私)方面。本文不会涉及法律和隐私方面的内容;然而,在进行在线调查时应谨慎使用人工智能工具,原因有两个:
避免透露调查员的身份。
避免将敏感信息暴露给人工智能工具。例如,调查员可以将机密文件上传到 ChatGPT 以获取摘要。ChatGPT 并非完全私密,可能会暴露您上传的文件和调查人员使用的文本提示。
在我们总结了人工智能可以在开源情报调查中使用的关键领域之后,是时候提到一些可以帮助开源情报调查人员进行研究的人工智能工具了。
人工智能驱动的工具可以加快互联网资源的搜索速度并返回更准确的结果。一些工具可用于在特定领域内进行搜索。
Tapesearch 是一项在播客转录中进行搜索的服务。截至撰写本文时,该工具可以在 4,670 个播客中搜索人工智能生成的 915,468 个转录内容。该工具承诺每天都会添加新的成绩单。
https://dorkgpt.com/
DorkGPT 是创建 Google Dorks 查询的便捷工具。您所需要做的就是使用简单的英语提供您建议的搜索查询,该服务将创建等效的 Google dork。
https://dorkgenius.com/
DorkGenius 服务与DorkGPT 类似;但是,它可以为 Google、Bing 和 DuckDuckgo 生成自定义搜索查询。
https://googlewordsniper.eu/
在同一标题/标题中(8 个字范围内)
在同一句话中(17个单词范围内)
在同一段中 (30个单词范围内)
https://ossinsight.io/explore/
GitHub Data Explorer是一个独特的人工智能服务,用于探索GitHub事件数据。OSINT收集器可以使用此服务来询问有关GitHub数据的自然问题,并且该服务将这些问题转换为SQL查询。结果将以视觉方式显示,这简化了对结果的解释。例如,要求GitHub Data Explorer获取与键盘记录器相关的所有项目。
14.分析大文件内容
OSINT 收集的常规任务是在大量文件中搜索特定名称、地址、地点、电话或任何关键字。大多数程序,例如:Acrobat Reader和MS Office Suite都提供内置搜索功能。
https://play.google.com/store/apps/details?id=com.adobe.reader&hl=nl
然而,使用人工智能更快、更准确,并且可以轻松地分析和提取这些文件中的信息。以下是一些可以帮助您分析大型文件内容的人工智能工具。
Claude.ai 是 Anthropic 构建的另一个大型语言模型(LLM),可以分析文件内容。上传一个 PDF 文档,可以要求 Claude 提取文件中提到的所有名称。
Chatpdf 是另一种用于分析文件内容(例如科学论文、学术文章和书籍)的人工智能工具。它还可以分析法律合同、财务报告、手册和培训材料。ChatPDF 允许用户与上传的文件进行交互并询问有关其内容的问题,类似于我们与 ChatGPT 聊天的方式。
随着每秒产生的数字数据量的增加,传统的情报收集技术很快就会变得不够用。利用人工智能工具来收集和分析数据变得必须。这使得开源情报(OSINT)分析师可以将时间集中在更高级别的情报评估和评估上,而不是被寻找和组织相关数据的较低级别任务所淹没。像自然语言处理、计算机视觉和机器学习这样的人工智能技术可以帮助我们在调查过程中获得的大量非结构化数据进行结构化、解析和标记。此外,人工智能技术有望识别被操纵或虚假的内容,如篡改的图像和视频、捏造的新闻和虚假的社交媒体参与。
【作者简介】
尼哈德·哈桑(Nihad A. Hassan)是一名独立的网络安全顾问,数字取证和网络OSINT专家,在线博主和作者,在信息安全研究方面拥有超过15年的经验。他已经完成了多个技术安全咨询项目,并撰写了六本书和许多关于信息安全的文章。尼哈德高度参与安全培训、教育和激励。Nihad持有英国格林威治大学(University of Greenwich)的计算机科学荣誉学士学位。