随着互联网和社交媒体的日益普及,情感分析已成为研究的热门领域。特别是在INDOPACOM(印度-太平洋司令部)战区,美国军方已经认识到在现代安全环境中,社交媒体活动的态势感知能力对于整体任务成功至关重要。
在过去十年中,专家们一直在争论美国军方应该“从物理层面转移到战争的人类层面”的战略重心(Gavrilis, 2009)。随着对手在社交媒体上影响叙事的卓越能力,美国国防部承认现代安全环境变得“日益复杂”,并且“由快速技术变革定义”,面临来自每个作战领域的“对手挑战”(Nimmo, 2015; Department of Defense, 2018)。这种新的作战环境要求美军提高对战区社交媒体活动的态势感知。
本文主要探讨了利用开源数据和模型,通过情感分类从社交媒体数据中提取叙事的方法。研究使用了循环神经网络(RNN)及其变种,在印尼Twitter数据上分类情感,并与传统机器学习技术,如逻辑回归、支持向量机(SVM)和随机森林等做了性能比较。论文还涉及了使用FastText词嵌入提高准确性,以及单层双向长短期记忆(Bi-LSTM)模型相较于两层堆叠Bi-LSTM模型在统计上的显著性能差异。研究结果的实际应用包括帮助INDOPACOM战区的操作单元通过情感类别预测识别社交媒体帖子,并评估公众对军事演习的反应。
本文研究探讨了情感分类作为从社交媒体数据中提取叙事的一个强有力工具。在印尼Twitter数据上执行情感分类的传统机器学习模型依赖于封闭来源特征,而循环神经网络(RNN)利用纯粹的开源数据和模型能够达到或超越这些传统机器学习技术的性能。具体来说,使用FastText嵌入的RNN变种在准确率上较逻辑回归和支持向量机技术高出超过8%,较随机森林高出15%。研究还发现单层双向长短期记忆(LSTM)模型的性能在统计上显著优于两层堆叠的双向长短期记忆模型,并且这一单层双向LSTM RNN在分类印尼推文的情感时,与一项由Saputri等人(2018年)研究中具有补充封闭来源特征的最新逻辑回归模型的性能相当。这种模型能够提供给印度-太平洋司令部战区内的作战单位,使他们能根据预测的情感类别识别社交媒体帖子,以此来评估公众对军事演习的反应。
根据文章的研究内容,该文采用的研究方法为“实验研究”。在这项研究中,研究者利用循环神经网络(RNN)及其变体对印尼推文(Twitter)的文本数据进行多维情感分类,通过搭建和训练模型,探究不同网络架构和参数配置在情感分类任务上的表现。具体研究过程包括:
数据处理:研究者收集了推文数据,进行了预处理和编码,为训练深度学习模型做好准备。
模型搭建:研究了深度神经网络(DNN)的原理,构建了包含RNN、LSTM(长短期记忆网络)和GRU(门控递归单元)的多种网络模型。
训练与优化:使用了反向传播(backpropagation)和随机梯度下降(SGD)等技术来训练模型,并采取了防止过拟合的策略如Dropout、Pooling层。
性能评估:对比了RNN及其变体的表现,和传统的机器学习算法(例如逻辑回归、支持向量机、随机森林等)以及其他研究中的模型进行了性能比对。
结论论证:通过实验结果论证了使用完全开源数据与模型的RNN在情感分类上能够满足或超越现有机器学习方法的性能,并对把模型应用于实际场景(例如INDOPACOM作战单位)进行了讨论。
结论总结如下:
RNN与传统机器学习技术比较,运用预训练FastText词嵌入能获得更高效果。
RNN变体比逻辑回归和SVM技术的准确率提高8%以上,比随机森林提高15%以上。
单层双向LSTM模型的性能在统计上显著优于两层堆叠双向LSTM模型。
单层双向LSTM模型与Saputri等人的最佳模型相比,宏平均F1得分可相媲美。
仅使用预训练FastText词嵌入的单层双向LSTM模型就能达到70.83%的宏平均F1得分,显示出RNN能自动提取手动提供的密集特征。
该模型使用完全开源的数据和模型满足或超越了现有机器学习方法的性能。
这个情感分类模型可用于印度-太平洋司令部作战单位,增强开源情报能力,通过分析社交媒体数据来理解印尼行为。