【AI速读】基于OSINT技术的twitter和instagram定位:一个案例研究
2024-9-1 09:42:11 Author: mp.weixin.qq.com(查看原文) 阅读量:10 收藏

这篇研究论文主要探讨了在社交媒体时代,用户地理位置信息泄露的问题。研究通过利用开源情报(OSINT)技术,分析了如何在不通知目标用户的情况下,自动化地从Twitter和Instagram这些社交平台上获取个人敏感数据(如地理位置信息),并探讨了这些数据如何被恶意用户所利用。

Twitter、Instagram、社交媒体、开源技术、地理定位研究案例分析论文介绍了如何利用公开来源情报(OSINT)技术在Twitter和Instagram平台上进行用户地理位置追踪的方法。研究人员通过用户的推文和照片中的地理位置数据,创建了一个系统来匿名收集和分析这些社交媒体的公共数据,并展示了如何在Google地图上以时间顺序展示用户的活动轨迹。该研究表明,即使在不告知目标用户的情况下,恶意用户也能够自动化地获取和使用个人敏感数据来进行攻击。最后,作者讨论了这种方法的限制以及未来的研究方向。

【机器翻译】

我们生活在一个技术时代,信息交流量大,社交媒体是非常重要的一部分,因为它极大地改变了我们的交流方式。使用这项技术,不可避免地会导致用户个人数据的泄露。在区分媒介本身(社交网络平台)和用户如何使用它时,我们提出了研究问题,即恶意用户以自动且不可察觉的方式检索个人数据并将其用于对使用社交媒体的不设防人员的可能性有多大。回答上述问题,本文旨在检测在未经目标用户同意或告知的情况下,通过两种流行的社交网络,推特和Instagram,以自动方式检索信息的可能性。结果表明,我们通过社交媒体进行的社交网络活动,可能会被恶意用户利用开源情报(OSINT)技术所利用,并收集敏感的个人信息(通过智能手机上的推文/Instagram收集的用户位置)。这项工作在谷歌地图上展示了用户活动(地理定位推文、Instagram),并使用地图动画按时间顺序将这一活动与向量连接起来。兴趣点被聚类。显示推特和Instagram的用户不能完全防止入侵者和对个人信息的滥用,这不幸地继续传播媒介的性格。值得一提的是,在两个特定的社交网络中进行的定位活动,通过针对目标用户智能手机,揭示了用户活动的GPS坐标,并在类似谷歌地图上再现,我们在其中也按时间顺序放置了连接点。通过这种方式,恶意用户可以跟踪一个人的活动,并有可能预测未来的位置。

引言:

社交网络促使用户快速与广泛分布的网络分享信息。用户能够以各种格式发布内容,这些内容可以立即向其整个社交网络开放。因此,社交网络已成为信息传播、网页内容发现、观点分享、讨论和辩论的重要平台。通过社交网络流动的大量公共数据有可能为学术界、市场营销机构提供有价值的新见解,这些机构有兴趣了解在线行为并监控社会趋势。

Twitter 是一个平台,允许移动用户将他们的精确地理位置嵌入到简短的文本更新中,这些更新被称为推文。收集和挖掘位置感知推文的能力开辟了新的研究方向,使其有可能研究在线内容的空间和文本特征。它还提供了一种手段,可以在区域基础上监测社会趋势和在线活动。在最近的智能手机热潮之前,当时对社交网络的手机访问受到限制,Twitter 使任何拥有手机的人都能通过短信迅速与广泛分布的人群网络进行沟通。

随着在社交网络上公开分享的内容数量持续增长,人们越来越需要能够协助收集和挖掘这些内容的技术。推特快速成长,成为互联网上的主流通信渠道,凸显了其作为研究分析工具的潜力。现有的对推特的研究大多集中在基于使用模式和推文文本内容的社交网络分析上。

由于大多数用户生成的内容通过其网络流动时具有公开性,推特是一个特别有用的情报收集和大规模数据分析的来源。这与Facebook形成了鲜明对比,在Facebook上,用户生成的内容仅面向预先选定的用户列表提供。

本文描述了一个软件系统的架构和实现,该系统为Twitter和Instagram匿名收集数据。这两个平台都是以移动设备为先,并且通过现代智能手机的使用更加吸引人和丰富。Instagram用户可以发送一张照片或一个15秒的视频,并附上最多2200个字符的评论。另一方面,Twitter用户只能发送160个字符的文本。这两个平台都可以标记位置。该工具包旨在为研究人员提供访问相关Twitter和Instagram数据的权限,数据格式适合进一步分析和数据挖掘。该系统集成了数据收集、离线数据的空间存储、空间数据检索、完整文本搜索、地理定位数据、数据映射和导出等功能模块。

首先,本文讨论了使用REST API和“geoJSON”收集Twitter数据背景的模块,以便提取有关用户位置的信息,并同时将这些数据转换为空间格式。虽然实时Twitter数据收集功能已经集成到多个现代软件系统中,但值得注意的是,缺乏以允许用户执行高级空间查询的格式存储数据的工具。其次,本文概述了连接匿名用户与互联网的架构。第三,本文介绍了“Instagram实时API”的应用,它与“Genymotion”一起可以提取有关用户位置的信息。这些技术在2015年7月至11月的研究期间运行。最后,本文描述了用于数据可视化和导出的方法。最后,本文讨论了系统测试使用及其局限性。

相关工作:

其他研究人员及其相关工作主要集中在以下方面:
1.特定用户的定位确认
2.特定推文的定位确认
3. 用户空间密度的建模
我们的方法与第一类以往研究的基本区别在于,它们关注于与提供区域相关的用户和推文的地理位置,而我们的目标是通过使用免费应用程序来获取关于用户地理位置的信息,该信息被用作输入。Eisensten等人试图通过地理主题模型解决用户地理位置提取问题,通过捕捉不同地区用户在特定主题上使用语言的差异。Ahmed等人通过对他们进行分类并提取位置特定主题和地点用户,提出了一个层次结构主题方案。另一方面,Cheng等人使用了短语的位置而不是主题。Mahmud等人通过使用贝叶斯分类器来预测用户的国家、州和城市,从而改进了以前的方法。Ren等人采用了一种方法,将每个用户定位在与其大多数朋友相关的地方。
第二类相关研究关注于推文的地理定位。Ikawa等人试图通过结合具有位置信息的表达式来估计推文的位置。Li等人通过识别兴趣点(POI)获得了更高的准确性。Kinsela等人使用查询似然模型来查找用户和推文的位置。

第三组相关方法的重点是模拟用户的空间密度。Cho等人使用了高斯混合模型来获取用户行为模式的多样性。Lichman等人通过使用核密度估计器(KDE)改进了之前的方法。通过这种方式避免了数据稀疏性。

我们的工具的一般工作流程如图1所示。该系统使用一个抓取服务来启动,该服务收集与用户提供的关键词相对应的源信息。然后,将收集到的源信息作为事件检测服务的输入,事件检测服务返回给定时间间隔内发生的事件列表,每个事件对应于一簇推文。最后,对推文聚类进行本地化。事件识别已在我们的先前的工作中报告过。简要来说,时间被分割成时间段。在每个时间段中,收集在该时间段内发布的微博,并识别出与先前时间段相比在给定时间段内出现严重不成比例的关键词元组。这些元组被称为具有高信息增益。高信息增益的不同元组被视为不同的事件签名。包含相同签名的推文被假定为指向同一事件,因此被放入一个不同的集群中。显然,这种技术是不精确的。然而,利用推文数量,一旦位置与单个推文相关联,就可以通过异常值消除克服上述聚类的近似性质。

系统架构:Twitter REST API。Twitter是一个流行的在线社交媒体和微博服务,允许用户发送和阅读最多140个字符的文本帖子,称为“推文”。该服务于2006年7月推出。它迅速获得了全球范围内的普及,截至2012年,拥有超过1.4亿活跃用户,每天产生超过3.4亿条推文,并处理超过16亿的搜索查询。Twitter REST API遵循RESTful API设计,这意味着应用程序使用标准的HTTP方法来获取和操作Twitter资源。许多API调用需要应用的用户被授予访问其数据的权限。Twitter使用OAuth 2.0协议允许授权的应用程序访问用户数据。Twitter REST API中的资源可以使用JSON、XML、RSS或ATOM数据格式表示。它还支持分页。API提供了用于读取和创建、更新或销毁资源的HTTP GET和POST方法。Twitter REST API文档的作者将API提供的20种主要方法分为20个类别:时间线、推文、搜索、流、直接消息、朋友与关注者、用户、推荐用户、收藏夹、列表、账户、通知、保存的搜索、地点与地理、趋势、阻止、垃圾邮件报告、OAuth、帮助、法律、已弃用。Twitter还为各种编程语言(包括Python、PHP、Ruby、Javascript和Java)提供免费客户端库。

识别与事件相关位置的任务具有挑战性,因为包含位置信息的流很稀少。在这种情况下,描述物理事件的流通常倾向于包含可作为隐含标签使用的空间地标,以便确定可能的位置。然而,由于这些流的非结构化性质,任务需要在实际提取空间信息之前进行一些预处理步骤。然后,如图2和图3所示,将事件显示在图形地图上,标记表示确切位置。与每个事件位置关联一个信息弹出框,以提供描述相关事件的推文样本。

在我们的Python脚本中使用这个集成库,隔离社交媒体API的感兴趣字段并将结果存储在CSV文件中。

利用地理数据,使目标用户几乎实时了解目标在地图上的位置和路径。恶意用户可能退出社交媒体平台推特和 Instagram,甚至可以匿名且不留痕迹。

地理定位问题已被研究人员彻底研究,他们提出了多种从互联网社交媒体平台提取用户位置信息的解决方案。这些社交媒体平台包括网页和博客等。这些工作依赖于外部资源,如词汇表和数据库,来识别相关的地理信息。在我们的工作中,我们不需要使用任何外部资源来估计用户的地理位置。此外,工作研究了Twitter上语言使用的变化。这也可以用于增强我们的工作,以提高预测用户地理位置的准确性。

已经有一些作品关注于:地理标签之间的关系,搜索引擎查询日志中的地理位置估计,地理标签的用户隐私,基于邻近性预测地理位置,以及使用不同公开信息片之间的相关性来提取关于一个人的私人信息的研究试验。另一项最近的工作涉及基于某人的社交网络预测推特用户的定位。与我们的工作最相关的是刘等人提出的内容基础方法,以估计推特用户的地理位置。在我们的工作中,我们使用了描述如下的过程通过Rest API和互联网上的匿名功能。

在我们的方法中,我们使用一个互联网访问无法回溯到我们身份的点(例如家庭或亲戚的家庭、我们的工作场所等)。我们位于市中心的一家受欢迎的国际咖啡连锁店,该店提供免费无线互联网接入。我们将通过从USB启动实时发行版Tails Linux来使用笔记本电脑。这种发行版提供了匿名和隐私保护。它使用Tor网络在互联网上路由所有流量,以确保匿名。全称是Tor:洋葱路由器(Tor)。“onion”(=洋葱)一词表示操作过程中使用的多个“层”。最常用的目标多种多样,不一定都是道德或合法的。Tor网络是一个由多台在线计算机组成的网络(见图6)。

通过Tor连接的用户数量是一个重要因素,并且数量越多,网络的整体质量就越好,甚至可以实现更高的个人匿名性。因此,希望有一些信息从一台计算机传输到另一台计算机,这些信息将通过数千条替代路径加密传输,从而确保相互连接的计算机之间具有匿名性。连接到节点的过程是随机的,并且在IP数据包中,最终目的地和起始点也是显而易见的,这保证了匿名性。本质上,一组分布在各地的中继节点被用于混合和处理信息。

互联网流量在多层(洋葱层)中进行加密,因此到最后很难找到信息包的起始位置。当Tor用户想要访问一个网站时,浏览器会发送一个加密请求并将其传递给Tor网络。接收请求的第一个服务器是一个入口 guard。

“守卫”服务器会剥去加密层并将请求传递给另一个随机选择的服务器。这个过程不断重复,直到移除所有加密层,最后一个服务器(输出节点或出口节点)将用户浏览器程序的请求转发到实际托管所选网站的服务器。

以Tor的匿名性为出发点,我们在tutanota.com服务上创建了一个加密邮箱。在注册过程中,该服务不需要申报个人信息。此外,进入和发出的电子邮件的IP地址不会记录在该服务中,从而增强了匿名性。还提供对电子邮件(主题、内容、附件)和联系人的加密。加密和解密是在本地计算机上进行的,而不是在服务器上进行(使用AES 128位和RSA 2048位算法)。我们的电子邮件几分钟内即可使用。电子邮件帐户将用于我们即将注册的所有其他在线服务。

为了增加我们方法中的匿名百分比,我们将额外使用一个技术功能较低的服务器云,其中将在Ubuntu 14.04 LTS 32位上安装一个VPN服务器。通过这种方式,我们将为我们的工具添加另一层匿名性。我们与互联网的连接将根据下图进行。

下一步是确保我们在支付服务器云服务期间的匿名性,而不会泄露我们的真实身份。使用信用卡和流行的电子支付方式,如贝宝,不需要我们的身份证明。解决这类交易的办法是使用电子货币比特币及其衍生品。根据该页面,比特币是“一个协商一致的网络,可以实现新的支付系统和完全数字化的货币形式。它是第一个在没有中央权威或中介的情况下由用户操作的对等(点对点)之间的分散支付网络。从用户的角度来看,比特币很像互联网上的现金。

实际上,有三种方式可以获得比特币:
•直接在比特币中挖矿(cpu, gpu,基本挖矿)。
•用欧元在ATM机上购买比特币。
•通过比特币兑换服务进行替代性电子货币兑换的挖矿。

对于必须在同一系统中使用多个cpu /内核和多个显卡运行挖矿项目的人来说,第一种方法既不高效也不有利可图,即使用多台计算机,在这种情况下,不需要具有相同的组成或处理能力来协同运行挖矿项目。在写这个研究的时候,正如前面提到的,这种方法并不划算。
第二种方法是相对较新的方法,涉及使用自动取款机,但以比特币作为交换媒介和欧元,但它不提供匿名性。
第三种方法,也是在这种方法论下选择的,是用CPU和GPU生产替代加密货币,然后兑换成比特币。应该指出的是,即使这种方式具体来说在经济上是不可行的。
既然发现加密货币所需的电流价值大于加密货币的价值,那么就给我们一个无法检测的支付系统吧,我们将用它来购买在线服务,以帮助我们实现我们的目标。
用于挖矿的数字货币是门罗币(XMR)。它是一种安全、私密、不可检测的数字货币。该产品是开源的,它使用分布式共识网络(P2P)进行安全交易,其中每笔交易都是加密的。它是安全的,因为交易不会在全球交易文件(区块链)中公开可见。
在收集了相当数量的比特币后,我们开始寻找能够接受比特币而不是其他支付方式(如贝宝、信用卡)的云服务器服务,以保持我们的匿名性。接受比特币支付的提供商与其他大型云计算提供商(如亚马逊、谷歌、Digital Ocean等)具有相同的特性。
Instagram实时API截至2014年,Instagram每月有2亿活跃用户,超过200亿张照片被分享,每天平均有16亿个赞和6000万张照片被发布。Instagram作为一个智能手机应用程序,代表了不同的实践和兴趣,如通过社交媒体推广的共享体验,包括即时发布状态和现场图片,标记在场的朋友,评论他人的内容;推广少量信息,如照片、15秒视频和推文。
Instagram API3940 提供了一个专门的标签搜索钩子,这立即提供了比较的机会。调用选定标签的 Instagram API 然后提供类似推特项目的结果,尽管具有不同的元数据,从而引发了进一步的方法论问题。
Instagram的API查询(图5)提供了平台上相关媒体分享的海量元数据。对于每个与标签查询匹配的媒体对象,该API返回的不只是其唯一标识符(ID)和指向低分辨率及标准分辨率版本内容的链接(无论是图像还是视频),还包括用户名、创建时间、标题、评论(以及评论的用户和时间信息)、标签、喜欢以及当用户对其媒体进行地理标记时的位置信息。这些数据允许进行定量和定性分析,无论是计算随时间、用户或标签的内容数量,根据位置数据映射媒体,还是查看媒体及其标题的内容。然而,Instagram上的内容是比推文更动态的数据点。同样,每张图片或视频都是自己的数据点。但是,如果用户通过发表评论来回应一张图片,这就会成为原始数据点的额外信息。
过滤掉Instagram上的评论并思考发布的媒体内容,因为媒体可能吸引很多或较少的评论,数据点之间没有一致性:虽然结果可以存储在数据库中,但分析可能在数据捕获过程中变化的变量评论线程是一个新的方法论问题,这与Twitter研究无关。
搜索特定标签将检索到与相关标签一起发布的媒体信息。然而,同样的搜索也会提供关于包含该标签在评论中的媒体结果,即使原始标题中没有出现该标签,并且只要评论和标签是由原始用户发布的。包括标签可以为媒体带来以前没有的宣传效果,增加了围绕标记的可能用途和意图所需的差异性。

通过Instagram实时API(Realtime API),可以实时检查用户、标签和位置的活动情况。因此,当通过Instagram实时API搜索某个用户时,会导出有关新发布内容的信息。当涉及到标签的搜索时,会根据标签导出信息,并在相应的媒体上发布。通过搜索位置,可以获得关于上传照片或视频的新通知,这些照片或视频被标记了特定位置。此外,还可以导出与任意位置发布的最新照片相关的数据。

谷歌地图JavaScript API谷歌地图API提供快速直接的谷歌地图功能。它是一个由谷歌提供的网络应用程序服务,为网站或移动应用程序提供街道地图和导航服务。

提供的服务包括:
• 创建并显示地图。
• 导入标记(图钉)、多边形、弹出窗口、折线(图7)和信息窗口。
• 事件处理器。
• 地理编码器:坐标/地址转换服务。
• 方向:路线和包裹设计,路线导航(驾车、公共交通或步行)。

• 在全球各国识别企业。

谷歌地图API用于商业用途时是免费的,前提是使用它的应用程序可以免费向公众开放,并且每天产生的访问量不超过25,000次。当然,还有付费的高级套餐可以满足应用程序和使用的更大需求。对于SocialMap Python脚本来说,免费套餐的规格已经绰绰有余了。

在谷歌地图API中,问题是通过向网络应用发送HTTP GET请求来完成的,并以XML或JSON格式返回响应。本文档中描述的应用程序使用JSON消息,正如我们已经提到的那样。要从应用程序中使用谷歌地图API,需要从使用它的应用程序的创建者那里获取一个“密钥”(谷歌地图API密钥)以及应用程序代码的介绍。

我们使用Google Maps JavaScript API的功能来编写SocialMap脚本,包括:
•标记(图钉)。
•具有激活标记触摸事件(单击时)的信息窗口。
•多边形。
•移动地图中心。

在推特和Instagram用户通过智能手机使用服务但已禁用GPS功能的情况下,我们可以改用位置标签(而非坐标标签)的参数,来获取对他们所在位置不太精确的估计(误差约1公里内)。这样我们就能获得更多与位置相关的记录,从而在地图上显示更多用户活动地点。

结论:

本文讨论了基础研究问题,即在未经目标用户同意的情况下,恶意用户是否可以监控两大社交网络Twitter和Instagram的活动,并得出结论,获取与每个时间点位置相关的数据。

开源情报(OSINT)是从公开来源收集的情报。在情报界,“开放”一词指的是公开的、可获得的资源。根据我们在各自章节中分析的OSINT技术和方法,我们设法访问了Twitter、Instagram和Google API,而无需透露我们的真实身份和目的,也没有东西可以轻易追溯到我们。

我们作为终端用户可以完全保护自己不受此类恶意行为的侵害吗?可能不会百分之百,因为社交媒体的性质本身就要求用户自己创建内容,而这往往会传达出媒介本身的个性。使用常识,区分和保护敏感个人信息并提高对安全问题的意识(安全意识),可以帮助显著减少我们受到此类攻击的风险。

关于未来这项工作的改进建议,我们可以提到支持更多的社交网络平台以及创建具有友好用户操作环境的图形化网页界面/应用程序。此外,还可以集成功能以根据特定时间段和相应的曝光程度为每个用户视图创建自动报告。另一种可能性——可以纳入的扩展是预测目标未来的位置,基于过去的访问历史和访问特定站点的频率。最后,特定工作能否从大公司那里得到适应,这些大公司希望确定来自其自身员工(内部威胁)的信息泄露威胁程度,或者通过他们在社交媒体上的存在来捕捉处于关键职位的员工的心理学—社会学特征轮廓。

上述原文及机器翻译已上传知识星球
长按识别下面的二维码可加入星球
里面已有万余篇资料可供下载
越早加入越便宜
续费五折优惠


文章来源: https://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651145943&idx=1&sn=76ce6a773e8fa5c09166504cd7244fe9&chksm=f1af31edc6d8b8fb1dd2aa6209e29f52dacca8a3f999a1645b04d2e1027be5a2e47e6ea02cdb&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh