这篇研究论文主要探讨了在社交媒体时代,用户地理位置信息泄露的问题。研究通过利用开源情报(OSINT)技术,分析了如何在不通知目标用户的情况下,自动化地从Twitter和Instagram这些社交平台上获取个人敏感数据(如地理位置信息),并探讨了这些数据如何被恶意用户所利用。
Twitter、Instagram、社交媒体、开源技术、地理定位研究案例分析论文介绍了如何利用公开来源情报(OSINT)技术在Twitter和Instagram平台上进行用户地理位置追踪的方法。研究人员通过用户的推文和照片中的地理位置数据,创建了一个系统来匿名收集和分析这些社交媒体的公共数据,并展示了如何在Google地图上以时间顺序展示用户的活动轨迹。该研究表明,即使在不告知目标用户的情况下,恶意用户也能够自动化地获取和使用个人敏感数据来进行攻击。最后,作者讨论了这种方法的限制以及未来的研究方向。
【机器翻译】
我们生活在一个技术时代,信息交流量大,社交媒体是非常重要的一部分,因为它极大地改变了我们的交流方式。使用这项技术,不可避免地会导致用户个人数据的泄露。在区分媒介本身(社交网络平台)和用户如何使用它时,我们提出了研究问题,即恶意用户以自动且不可察觉的方式检索个人数据并将其用于对使用社交媒体的不设防人员的可能性有多大。回答上述问题,本文旨在检测在未经目标用户同意或告知的情况下,通过两种流行的社交网络,推特和Instagram,以自动方式检索信息的可能性。结果表明,我们通过社交媒体进行的社交网络活动,可能会被恶意用户利用开源情报(OSINT)技术所利用,并收集敏感的个人信息(通过智能手机上的推文/Instagram收集的用户位置)。这项工作在谷歌地图上展示了用户活动(地理定位推文、Instagram),并使用地图动画按时间顺序将这一活动与向量连接起来。兴趣点被聚类。显示推特和Instagram的用户不能完全防止入侵者和对个人信息的滥用,这不幸地继续传播媒介的性格。值得一提的是,在两个特定的社交网络中进行的定位活动,通过针对目标用户智能手机,揭示了用户活动的GPS坐标,并在类似谷歌地图上再现,我们在其中也按时间顺序放置了连接点。通过这种方式,恶意用户可以跟踪一个人的活动,并有可能预测未来的位置。
引言:
社交网络促使用户快速与广泛分布的网络分享信息。用户能够以各种格式发布内容,这些内容可以立即向其整个社交网络开放。因此,社交网络已成为信息传播、网页内容发现、观点分享、讨论和辩论的重要平台。通过社交网络流动的大量公共数据有可能为学术界、市场营销机构提供有价值的新见解,这些机构有兴趣了解在线行为并监控社会趋势。
Twitter 是一个平台,允许移动用户将他们的精确地理位置嵌入到简短的文本更新中,这些更新被称为推文。收集和挖掘位置感知推文的能力开辟了新的研究方向,使其有可能研究在线内容的空间和文本特征。它还提供了一种手段,可以在区域基础上监测社会趋势和在线活动。在最近的智能手机热潮之前,当时对社交网络的手机访问受到限制,Twitter 使任何拥有手机的人都能通过短信迅速与广泛分布的人群网络进行沟通。
随着在社交网络上公开分享的内容数量持续增长,人们越来越需要能够协助收集和挖掘这些内容的技术。推特快速成长,成为互联网上的主流通信渠道,凸显了其作为研究分析工具的潜力。现有的对推特的研究大多集中在基于使用模式和推文文本内容的社交网络分析上。
由于大多数用户生成的内容通过其网络流动时具有公开性,推特是一个特别有用的情报收集和大规模数据分析的来源。这与Facebook形成了鲜明对比,在Facebook上,用户生成的内容仅面向预先选定的用户列表提供。
本文描述了一个软件系统的架构和实现,该系统为Twitter和Instagram匿名收集数据。这两个平台都是以移动设备为先,并且通过现代智能手机的使用更加吸引人和丰富。Instagram用户可以发送一张照片或一个15秒的视频,并附上最多2200个字符的评论。另一方面,Twitter用户只能发送160个字符的文本。这两个平台都可以标记位置。该工具包旨在为研究人员提供访问相关Twitter和Instagram数据的权限,数据格式适合进一步分析和数据挖掘。该系统集成了数据收集、离线数据的空间存储、空间数据检索、完整文本搜索、地理定位数据、数据映射和导出等功能模块。
首先,本文讨论了使用REST API和“geoJSON”收集Twitter数据背景的模块,以便提取有关用户位置的信息,并同时将这些数据转换为空间格式。虽然实时Twitter数据收集功能已经集成到多个现代软件系统中,但值得注意的是,缺乏以允许用户执行高级空间查询的格式存储数据的工具。其次,本文概述了连接匿名用户与互联网的架构。第三,本文介绍了“Instagram实时API”的应用,它与“Genymotion”一起可以提取有关用户位置的信息。这些技术在2015年7月至11月的研究期间运行。最后,本文描述了用于数据可视化和导出的方法。最后,本文讨论了系统测试使用及其局限性。
相关工作:
第三组相关方法的重点是模拟用户的空间密度。Cho等人使用了高斯混合模型来获取用户行为模式的多样性。Lichman等人通过使用核密度估计器(KDE)改进了之前的方法。通过这种方式避免了数据稀疏性。
我们的工具的一般工作流程如图1所示。该系统使用一个抓取服务来启动,该服务收集与用户提供的关键词相对应的源信息。然后,将收集到的源信息作为事件检测服务的输入,事件检测服务返回给定时间间隔内发生的事件列表,每个事件对应于一簇推文。最后,对推文聚类进行本地化。事件识别已在我们的先前的工作中报告过。简要来说,时间被分割成时间段。在每个时间段中,收集在该时间段内发布的微博,并识别出与先前时间段相比在给定时间段内出现严重不成比例的关键词元组。这些元组被称为具有高信息增益。高信息增益的不同元组被视为不同的事件签名。包含相同签名的推文被假定为指向同一事件,因此被放入一个不同的集群中。显然,这种技术是不精确的。然而,利用推文数量,一旦位置与单个推文相关联,就可以通过异常值消除克服上述聚类的近似性质。
系统架构:Twitter REST API。Twitter是一个流行的在线社交媒体和微博服务,允许用户发送和阅读最多140个字符的文本帖子,称为“推文”。该服务于2006年7月推出。它迅速获得了全球范围内的普及,截至2012年,拥有超过1.4亿活跃用户,每天产生超过3.4亿条推文,并处理超过16亿的搜索查询。Twitter REST API遵循RESTful API设计,这意味着应用程序使用标准的HTTP方法来获取和操作Twitter资源。许多API调用需要应用的用户被授予访问其数据的权限。Twitter使用OAuth 2.0协议允许授权的应用程序访问用户数据。Twitter REST API中的资源可以使用JSON、XML、RSS或ATOM数据格式表示。它还支持分页。API提供了用于读取和创建、更新或销毁资源的HTTP GET和POST方法。Twitter REST API文档的作者将API提供的20种主要方法分为20个类别:时间线、推文、搜索、流、直接消息、朋友与关注者、用户、推荐用户、收藏夹、列表、账户、通知、保存的搜索、地点与地理、趋势、阻止、垃圾邮件报告、OAuth、帮助、法律、已弃用。Twitter还为各种编程语言(包括Python、PHP、Ruby、Javascript和Java)提供免费客户端库。
识别与事件相关位置的任务具有挑战性,因为包含位置信息的流很稀少。在这种情况下,描述物理事件的流通常倾向于包含可作为隐含标签使用的空间地标,以便确定可能的位置。然而,由于这些流的非结构化性质,任务需要在实际提取空间信息之前进行一些预处理步骤。然后,如图2和图3所示,将事件显示在图形地图上,标记表示确切位置。与每个事件位置关联一个信息弹出框,以提供描述相关事件的推文样本。
在我们的Python脚本中使用这个集成库,隔离社交媒体API的感兴趣字段并将结果存储在CSV文件中。
利用地理数据,使目标用户几乎实时了解目标在地图上的位置和路径。恶意用户可能退出社交媒体平台推特和 Instagram,甚至可以匿名且不留痕迹。
地理定位问题已被研究人员彻底研究,他们提出了多种从互联网社交媒体平台提取用户位置信息的解决方案。这些社交媒体平台包括网页和博客等。这些工作依赖于外部资源,如词汇表和数据库,来识别相关的地理信息。在我们的工作中,我们不需要使用任何外部资源来估计用户的地理位置。此外,工作研究了Twitter上语言使用的变化。这也可以用于增强我们的工作,以提高预测用户地理位置的准确性。
已经有一些作品关注于:地理标签之间的关系,搜索引擎查询日志中的地理位置估计,地理标签的用户隐私,基于邻近性预测地理位置,以及使用不同公开信息片之间的相关性来提取关于一个人的私人信息的研究试验。另一项最近的工作涉及基于某人的社交网络预测推特用户的定位。与我们的工作最相关的是刘等人提出的内容基础方法,以估计推特用户的地理位置。在我们的工作中,我们使用了描述如下的过程通过Rest API和互联网上的匿名功能。
在我们的方法中,我们使用一个互联网访问无法回溯到我们身份的点(例如家庭或亲戚的家庭、我们的工作场所等)。我们位于市中心的一家受欢迎的国际咖啡连锁店,该店提供免费无线互联网接入。我们将通过从USB启动实时发行版Tails Linux来使用笔记本电脑。这种发行版提供了匿名和隐私保护。它使用Tor网络在互联网上路由所有流量,以确保匿名。全称是Tor:洋葱路由器(Tor)。“onion”(=洋葱)一词表示操作过程中使用的多个“层”。最常用的目标多种多样,不一定都是道德或合法的。Tor网络是一个由多台在线计算机组成的网络(见图6)。
通过Tor连接的用户数量是一个重要因素,并且数量越多,网络的整体质量就越好,甚至可以实现更高的个人匿名性。因此,希望有一些信息从一台计算机传输到另一台计算机,这些信息将通过数千条替代路径加密传输,从而确保相互连接的计算机之间具有匿名性。连接到节点的过程是随机的,并且在IP数据包中,最终目的地和起始点也是显而易见的,这保证了匿名性。本质上,一组分布在各地的中继节点被用于混合和处理信息。
互联网流量在多层(洋葱层)中进行加密,因此到最后很难找到信息包的起始位置。当Tor用户想要访问一个网站时,浏览器会发送一个加密请求并将其传递给Tor网络。接收请求的第一个服务器是一个入口 guard。
“守卫”服务器会剥去加密层并将请求传递给另一个随机选择的服务器。这个过程不断重复,直到移除所有加密层,最后一个服务器(输出节点或出口节点)将用户浏览器程序的请求转发到实际托管所选网站的服务器。
以Tor的匿名性为出发点,我们在tutanota.com服务上创建了一个加密邮箱。在注册过程中,该服务不需要申报个人信息。此外,进入和发出的电子邮件的IP地址不会记录在该服务中,从而增强了匿名性。还提供对电子邮件(主题、内容、附件)和联系人的加密。加密和解密是在本地计算机上进行的,而不是在服务器上进行(使用AES 128位和RSA 2048位算法)。我们的电子邮件几分钟内即可使用。电子邮件帐户将用于我们即将注册的所有其他在线服务。
为了增加我们方法中的匿名百分比,我们将额外使用一个技术功能较低的服务器云,其中将在Ubuntu 14.04 LTS 32位上安装一个VPN服务器。通过这种方式,我们将为我们的工具添加另一层匿名性。我们与互联网的连接将根据下图进行。
下一步是确保我们在支付服务器云服务期间的匿名性,而不会泄露我们的真实身份。使用信用卡和流行的电子支付方式,如贝宝,不需要我们的身份证明。解决这类交易的办法是使用电子货币比特币及其衍生品。根据该页面,比特币是“一个协商一致的网络,可以实现新的支付系统和完全数字化的货币形式。它是第一个在没有中央权威或中介的情况下由用户操作的对等(点对点)之间的分散支付网络。从用户的角度来看,比特币很像互联网上的现金。
通过Instagram实时API(Realtime API),可以实时检查用户、标签和位置的活动情况。因此,当通过Instagram实时API搜索某个用户时,会导出有关新发布内容的信息。当涉及到标签的搜索时,会根据标签导出信息,并在相应的媒体上发布。通过搜索位置,可以获得关于上传照片或视频的新通知,这些照片或视频被标记了特定位置。此外,还可以导出与任意位置发布的最新照片相关的数据。
谷歌地图JavaScript API谷歌地图API提供快速直接的谷歌地图功能。它是一个由谷歌提供的网络应用程序服务,为网站或移动应用程序提供街道地图和导航服务。
• 在全球各国识别企业。
谷歌地图API用于商业用途时是免费的,前提是使用它的应用程序可以免费向公众开放,并且每天产生的访问量不超过25,000次。当然,还有付费的高级套餐可以满足应用程序和使用的更大需求。对于SocialMap Python脚本来说,免费套餐的规格已经绰绰有余了。
在谷歌地图API中,问题是通过向网络应用发送HTTP GET请求来完成的,并以XML或JSON格式返回响应。本文档中描述的应用程序使用JSON消息,正如我们已经提到的那样。要从应用程序中使用谷歌地图API,需要从使用它的应用程序的创建者那里获取一个“密钥”(谷歌地图API密钥)以及应用程序代码的介绍。
在推特和Instagram用户通过智能手机使用服务但已禁用GPS功能的情况下,我们可以改用位置标签(而非坐标标签)的参数,来获取对他们所在位置不太精确的估计(误差约1公里内)。这样我们就能获得更多与位置相关的记录,从而在地图上显示更多用户活动地点。
结论:
本文讨论了基础研究问题,即在未经目标用户同意的情况下,恶意用户是否可以监控两大社交网络Twitter和Instagram的活动,并得出结论,获取与每个时间点位置相关的数据。
开源情报(OSINT)是从公开来源收集的情报。在情报界,“开放”一词指的是公开的、可获得的资源。根据我们在各自章节中分析的OSINT技术和方法,我们设法访问了Twitter、Instagram和Google API,而无需透露我们的真实身份和目的,也没有东西可以轻易追溯到我们。
我们作为终端用户可以完全保护自己不受此类恶意行为的侵害吗?可能不会百分之百,因为社交媒体的性质本身就要求用户自己创建内容,而这往往会传达出媒介本身的个性。使用常识,区分和保护敏感个人信息并提高对安全问题的意识(安全意识),可以帮助显著减少我们受到此类攻击的风险。
关于未来这项工作的改进建议,我们可以提到支持更多的社交网络平台以及创建具有友好用户操作环境的图形化网页界面/应用程序。此外,还可以集成功能以根据特定时间段和相应的曝光程度为每个用户视图创建自动报告。另一种可能性——可以纳入的扩展是预测目标未来的位置,基于过去的访问历史和访问特定站点的频率。最后,特定工作能否从大公司那里得到适应,这些大公司希望确定来自其自身员工(内部威胁)的信息泄露威胁程度,或者通过他们在社交媒体上的存在来捕捉处于关键职位的员工的心理学—社会学特征轮廓。