原文标题:“Flawed, but like democracy we don’t have a better system”: The Experts’ Insights on the Peer Review Process of Evaluating Security Papers
原文作者:Ananta Soneji, Faris Bugra Kokulu, Carlos Rubio-Medrano, Tiffany Bao, Ruoyu Wang, Yan Shoshitaishvili, Adam Doupe
发表会议:IEEE S&P 2022
原文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9833581
主题类型:安全论文评审
笔记作者:CDra90n@安全学术圈
主编:黄诚@安全学术圈
这篇论文是两年前在IEEE S&P 2022会议上发表的。虽然发表已经有一段时间了,但在上周的剑桥大学的网络与分布式系统安全小组读书会(Reading Group)中对其进行了讨论。其中提出了一些有趣和富有启发性的见解,这篇笔记主要是记录和概述当时的一些发言内容。
首先回顾一下论文的的主要内容:这篇论文的目的是检查计算机安全领域的同行评审过程,作者通过定性研究,即21次半结构化访谈收集了关于审稿人如何在顶级安全会议上评估论文的数据,探讨了两个主要的RQ:i) 目前的同行评审过程是如何服务于安全科学的?ii) 审稿人对当前同行评审机制的看法,特别是在论文提交数量不断增加的情况下。本文的关键发现和贡献包括:
(1)审稿者没有共享的审稿标准,评估指标是相当主观的:
评估标准 |
---|
Is it novel?/ 是否具有创新性 |
Is it correct?/ 论文内容是否正确无误 |
Was the evaluation self-contained?/ 评估部分是否自洽 |
Is it well-written?/ 写作是否流畅 |
Is the problem relevant to the audience and the conference?/ 解决的问题是否与会议和听众相关 |
Is it practical?/ 研究的实用性如何 |
Is it reusable or has any utility for thecommunity?/ 是否可复用,或对社区有实际用途 |
Does it have a discussion around related work?/ 是否围绕相关工作进行了讨论 |
Is it impactful?/ 是否具有有影响力 |
Whether contributions are valid and support the claims made?/ 论文的贡献是否有效且支持所提出的主张(内部一致性) |
Is the paper well-executed?/ 论文在各个方面是否都执行得很好 |
Is it inspiring future research?/ 是否能启发未来的研究 |
Does the paper answer the research questions?/ 研究结果回答了研究问题吗 |
To what extent are the questions answered?/ 问题在何种程度上得到了回答 |
Whether the paper provides deeper and generalizable insights?/ 论文是否提供了更深入和普适的见解 |
What is the proposed methodology?/ 所提出的方法论是什么 |
(2)相较而言,审稿人的拒稿意见更加多样化和具体:
A. 论文内容相关 | 指标 |
---|---|
Not novel/不新颖 | reinventing a known problem/重新定义已知问题 |
incremental papers/增量性论文 | |
trivial advancement/微小的改进 | |
resubmitting without making changes/未做修改就重新提交 | |
Insignificant/不具重要意义 | uninteresting papers/论文内容无趣 |
lacking real world applicability/缺乏现实的适用性 | |
Title/标题 | misleading title/误导性标题 |
Introduction/介绍部分 | not clearly outlining contributions/未清晰勾勒贡献 |
not pointing out conceptual ideas/不指出概念性想法 | |
Methodology/方法部分 | not explaining the methodology/不解释方法论 |
mistakes in the methodology/方法论错误 | |
mistakes in formulas or algorithms/公式或算法错误 | |
technical mistakes/技术错误 | |
not mentioning the attack model/未提及攻击模型 | |
Experiments/实验部分 | not doing or describing experiments thoroughly/没有彻底地进行或描述实验 |
improper or insufficient or shoddy experiments/不正确、不充分或粗制滥造的实验 | |
lacking proper execution/缺乏适当的执行 | |
Evaluation/评估部分 | picking the wrong benchmark/选择了错误的基准 |
evaluating on unsuitable conditions/在不合适的条件下评估 | |
not comparing against competing solutions/不与竞争方案进行比较 | |
using the wrong dataset/使用错误的数据集 | |
Results/结果部分 | incomprehensible results/难以理解的结果 |
not mentioning a takeaway message/未提及总结性信息 | |
not mentioning or unclear limitations/没有提及局限性或描述不清 | |
Unethical/道德问题 | plagiarism/抄袭 |
lacking ethical considerations in human studies/涉及人类的研究缺乏道德伦理考虑 | |
Wrong fit/范围不适用 | out of scope for a security venue/超出安全会议的接收范围 |
B. 论证相关 | 指标 |
---|---|
Inaccurate/不准确 | over-claiming or incorrect claims/过度或错误主张 |
incorrectly building the expectation/错误地构建期望 | |
Unsupported/不支持 | not backing up the claims/未能支撑其主张 |
not linking results with claims/结果与主张不符 | |
Unexplained/未解释 | not explaining or discussing the results/未解释或讨论结果 |
using raw data without explanation/使用原始数据而不进行解释 | |
Obfuscation/混淆 | unnecessary obfuscation不必要的混淆 |
hiding details of reproducibility隐藏可复现的细节 | |
Motivation/动机 | unclear problem statement or motivation/问题陈述或动机不明确 |
not motivating certain choices/未能充分解释或论证特定选择 | |
Related Work/相关工作 | non-thorough literature review/文献回顾不彻底 |
not having a solid comparison with the state-of-the-art/没有与最先进的技术进行可靠比较 | |
not showing competency in the topic/缺乏对主题的熟练掌握 | |
not being aware of the related work/未知悉相关工作 | |
not treating literature fairly or not objective comparison with literature/对文献不公正或缺乏客观比较 | |
Application/应用 | not having a convincing security argument/安全相关的论证不令人信服 |
not having clear security application/缺乏清晰的安全应用 |
C. 写作相关 | 指标 |
---|---|
Poor Writing/写作问题 | bad writing/文笔不好 |
incomprehensible writing/难以理解的写作 | |
rushing papers/仓促完成的论文 | |
ineffective communication/无效的内容传达 | |
writing inconsistencies with multiple authors/多作者写作风格不一致 | |
Poor English/英语问题 | having bad grammar/语法错误 |
Jargons/术语问题 | having bad or colloquial language/不当或口语化的语表达 |
Graphs, tables, figures/图表问题 | incomprehensible graphs, tables, figures/ 难以理解的图表 |
(3)程序委员会主席(PC chair)比委员会成员更注重他们的责任。
责任包括:i) 接受有质量的论文;ii) 给作者提供建设性的反馈;iii) 评估论文内容的正确性、新颖性和有效性;iv) 公正地审查和支持论文;v) 帮助制定更好的程序。
(4)高质量审稿意见的特点:
i) 意见详细,信息丰富;ii) 评价内容全面,结构良好;iii) 陈述和排版正确,给出积极建议;iv) 内容保持客观;v) 评审意见中包括论文摘要;vi) 确保匿名性。
(5)审稿的随机性是一个严重的、可被利用的问题。
在读书会中,与会者都围绕论文审稿方面给出了自己的看法或感想,下面是一些观点摘要:
A:这是一项非常好的定性研究。他们收集了很多零碎的东西,这些碎片化的知识是审稿人自己的多年经验,但缺少规范性。25 年前,当时 Auckland(IEEE S&P)和 USENIX 规模很小,你知道,只有 150 人参加,120 篇提交的论文中有 30 篇被接受。那时如果您是Oakland委员会的成员,只会从已提交的论文中选择 32 篇或者 35 篇最佳论文,就这样。人们非常明确地表示这不是期刊评审过程。
审稿人并不是在尝试发现所有的错误;这更多的是一种分级处理。程序委员会的运作方式是,他们可能会将一些论文标记为'没有希望的',然后不再进一步考虑就将其丢弃。他们可能会识别出15到20篇论文为'必须接受'。然后,在程序委员会会议期间,他们会处理处于中间的论文,也许从上到下,然后从下到上,通过协商决定接受或拒绝,直到最终选择出32到35篇论文。只有那些明显处于边缘或有争议的论文才会被投入大量精力,其中一些委员会成员强烈主张接受,而另一些则主张拒绝。因此,如果作者向像Oakland这样的会议提交一篇无意义的论文,它会很快被带有轻蔑意味的评论驳回。
对我来说,目前还完全不清楚我们是否正在转向一个更好的系统。显然,那些曾被带有轻蔑评论拒绝的论文,就像我自己的论文不止一次被如此对待那样,这些论文有时候最终产生了真正的影响。作者会对此感到恼怒。但也许这种恼怒是为一个稳健的生态系统付出的代价,而这个生态系统大大降低了审稿人的成本。此外,如果你从总体上考虑会议和期刊,现在审稿人的负担实在是太重了。
我们都在不断收到一些从未听说过的会议和期刊人员发来的垃圾邮件,要求我们审阅我们不感兴趣的论文。从前的那种旧系统已经基本消失了,即程序委员会主席会或多或少根据个人偏好来邀请审稿人参加委员会并审阅材料。所以,一方面是有关于审阅过程的问题,另一方面则是有关政治经济学的问题。如果你从一个由个人联系驱动的礼品经济转向一个基本上是众包的形式,如何合理地要求审稿人做多少自愿工作?
B:要指出的是,目前这个现象的出现与这些学术会议所关联的真实职业价值有关,可能30年前不是这样,但肯定也涉及真实的金钱激励。例如,看看过去20年在英国进行的REF高校评估,可以计算出一篇四星级论文的价值。对于一个特定的系来说,这可能值数万英镑。所以,如果你有理论计算机科学或网络安全的论文,它实际上也具有货币价值。我猜,这给发表这些论文的会议带来了更多的压力。
A:实际上有多少篇论文被真正仔细阅读了呢?现在,你可能在一个顶级会议上看到有一百到一百五十篇论文,分为六七个不同的方向。你不可能参加所有的会议。而且如果你去参加这样的活动,你会发现有一篇超级明星论文,人们为了它甚至挤到走廊里去,而其他四五篇论文的房间里可能只有五六个人。所以,这就是由于系统无法适应规模而导致的问题。作为计算机科学家,我们本应对规模扩展有所洞察,然而在这里我们看到了规模扩展的多重失败。
我想到一个至少在20年前由XX提出的观点,他解释了为什么他认为每个人都需要研讨会(Workshop)。一个研讨会的理想规模是40人,这样每个人都有机会发言,因为教授们绝对需要他们的研究生有机会展示一两篇论文。你知道,作为训练过程的一部分,你不能仅仅依靠轮盘赌来决定学生是否能在像Oakland这样的顶级会议上发表论文。
B:你会看到像国际安全协议研讨会(International Workshop on Security Protocols)这样的活动,它们仅仅是为了房间里的30、40或50人而设计。还有仅邀请类的活动,试图推动某些特定的跨学科议程。还有国家级活动,可能由像英国的CSR这样的国家机构推动,然后是大型国际活动。问题是,我们在10年后会怎样?像Oakland这样的会议会变成像XXX那样吗,那里有1万名参与者占据了佛罗伦萨整整一周。你知道,大约有30个不同的子会议,人们在城镇里到处游荡,拼命寻找他们认识的人。在我们的领域中,唯一与此相类似的活动是 RSA 会议。
A:我现在已经参加学术会议超过25年了,我参加的第一个会议是1993年11月的第一届CCS。会议的预期目的和实际目的是完全不同的。它们被认为是用来了解最新研究的,但如果你一直关注相关的邮件列表、Twitter动态或其他渠道,你就已经知道了最新的研究,因为它已经发布在Arxiv上了。或者,即使在30年前,也是在FTP服务器上。那么,会议的真正目的是什么呢?基本上是为了提供招聘研究生的机会,以及让教授们在社交方面相互赶上,并了解在那些不完全在自己领域的研究前沿。对于研究生来说,情况又有所不同:这是一个发表几次演讲的机会,让自己的面孔和名字为人所知,结识人脉,了解社区的动向,以及了解其他团队在你可能没有涉及的领域的工作。很多这些事实际上都依赖于面对面的交流。虽然我们可以在疫情期间通过Zoom保持一些这样的活动,但很多使会议有价值的东西实际上正在消逝。
另一个值得注意的事情是,其他学术领域的做事方式非常不同。例如,在物理学和经济学中,大型会议的演讲通常都是邀请制的。所以,如果你是一个年轻的博士生或博士后,并想要在这些领域取得突破,那么让你的教授在组织中的'秘密集团'里推荐你是至关重要的。因为如果你被邀请讲述你的最新工作,这将是你吸引诺贝尔奖得主和该领域其他杰出人物注意的方式。如果你作为一个局外人加入,那么你最合理的期望可能就仅仅是在物理学会议上的海报展示。在经济学和物理学中,这种结构意味着现有的'集团'和'帮派'比在计算机科学中拥有更多的权力。阅读这些领域发生的一些斗争是很有趣的。例如,理论物理学中对弦理论的反对浪潮,或者行为经济学在80年代和90年代开始流行时发生的所有争论,当时的传统理论经济学老派人物认为这其实是心理学,是另一个学院的事情。当然,法律和历史学又是完全不同的东西。关于历史学家,他们基本上每两年写一本书,并且在他们对彼此著作所写的书评中进行'战争'。
C:关于论文摘要方面,当我还是博士生时,我甚至编辑过一份关于摘要的期刊论文,我的想法是不妨就发表我正在做的事情。我训练的许多学生也做过这件事。例如,如果你看看XX的参考书目,在他的作品中,他为他引用的每一篇主要论文都写了一个小小的两句话总结。这是一种非常有效的方法,可以消除大部分论文摘要中的废话。这是一件我不确定很多人是否意识到的事情:许多学术论文摘要本质上是营销。很多学术论文都只是一个非常小的想法,装扮在大量看起来像数学的东西中;或者是撰写综述的工作,努力试图从文献中提取出一些意义。你知道,说出“X论文其实没那么大不了,因为主要想法只是X,而我们从Y论文中已经有了X Prime'”是很重要的。但是,那是艰巨的工作,但如果有人坐下来要审阅七八篇USENIX的论文,又有多少人能够承担这种艰巨的工作呢?这又回到了论文评审的负担问题。例如,我需要为WEIS审阅的论文只有两篇,因为那里有一个相当大的程序委员会。但如果你参加的活动可能接受25到30篇论文,那么肯定有90份左右的提交,如果你像USENIX那样有成百上千甚至上万份提交,最终就会给每个审稿人分配一长串他们几乎一无所知的主题的论文来审阅。作为一个有经验的审稿人,这是我所遇到的一个问题。
D:关于论文影响力方面,如果你想写一篇能被数百甚至数十万人阅读的论文,仅仅在期刊上发表是不够的。在过去的10年左右,有效的方式基本上是关于论文进行博客写作,然后在Twitter上推广它。如果我们认为它真的很好,我们会联系像XXX这样的有影响力的人,并邀请他们也来博客宣传,或者联系《纽约时报》之类的媒体。换句话说,你需要为你的论文制定一个媒体计划,除了提交时间表。未来可能还需要在这方面做更多的工作,特别是现在Twitter/X的效果正在减弱。那么现在要考虑的是你如何宣传论文并使博客文章脱颖而出。
A:还有另一个方面,人们可能忽略了,或者这篇论文的作者们没有可比较的东西。这个隐藏的问题就是PC是否真的有会议。在1990年代,如果你在一个PC中,那就有一个面对面的实体会议。例如,如果你在Oakland程序委员会上,他们会支付你的差旅费用去加州大学伯克利分校呆两天,坐在一个房间里和一群其他人争论。没有其他方式可以做到这一点。你不能通过电话做到;视频会议程序在当时要么是实验室里的样品,要么是机密的。但现在,有像HotCRP这样的系统,完全没有会议讨论。程序主席催促人们直到他们为每篇论文得到三个审阅。然后,他们列出哪些论文肯定接收,哪些肯定拒绝,哪些处于中间,可能还缺一两个审阅。
基于本质上是盲目投票的决策制度,将没有机会让人们加入Zoom会议并讨论每篇论文。USENIX在这方面做得好,因为他们确实会有一个Zoom会议,并告诉你在讨论有争议的论文时要加入。但据我所知,Oakland不再进行Zoom会议,导致了更多不合理的结果。这可能是未来需要更多研究的内容,但我个人的感觉是,如果你没有人与人之间的互动,那么最终会导致目标与结果不一致。比如,有些审稿人了解为什么某篇论文不好,并且能在90秒内向其他认为它看起来很酷的审稿人解释。如果没有现场的互动交流,这是不可能发生的。
以上就是关于剑桥读书会中一些有趣的发言汇总,希望大家也可以从中受益或受到启发 :)
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com