美团外卖的业务场景比较多元化,除了外卖自身的业务,还作为平台承接了闪购、团好货、医药、跑腿等其他业务。除此之外,在全链路动态化的大基调下,外卖各个页面的技术形态也变得越来越复杂,除了Native代码,还包括Mach(外卖自研动态化框架)、React Native、美团小程序、H5等,不同技术栈的底层技术实现不同,渲染机制不同,进而对测试方式要求也有所不同,这也在无形中增加了测试的难度。下图汇总了美团多业务、多技术、多App的一些典型场景。
在产品交付上线的过程中,测试的占比也是非常大的,甚至大于总时长的30%。如下图所示,整个测试包括了冒烟测试、新功能测试、二轮回归测试、三轮测试。然而,现在需求测试绝大部分还是采用非自动化的方式,这就使得人力成本变得非常之高。
另一方面,相比于2018年,2022年的测试用例数量增长近3倍,已经超过1万2千条(如下图所示)。同时,外卖的业务是“三端复用”,除了外卖App,还需要集成到美团App和大众点评App上,这样一来,测试工作量就翻了3倍,业务测试压力之大可想而知。如果按照当前的增长趋势持续下去,要保障外卖业务的稳定,就必须持续不断地投入大量的人力成本,所以引入能够支持外卖“多业务场景”、“多App复用”、“多技术栈” 特点的自动化测试工具来提升人效和质量,势在必行。
为了解决外卖面临的测试困境,我们尝试去探索一种零学习成本、低维护、高可用的自动化测试方案,能够支持外卖复杂多变的测试场景,它必须同时满足下面几点要求:
自动化测试工具那么多,自研是重复造轮子吗?
针对终端的UI自动化测试工具/平台可谓“屡见不鲜”,市面上也有很多相对成熟的方案,相信大家都有用过,或者至少有所耳闻,但这些方案是否能真的满足我们提效的诉求呢?以下我们挑选了三类非常具有代表性的自动化测试工具/平台 - Appium、Airtest Project、SoloPi进行了分析,来帮助大家对自动化测试技术建立一个认知:
— | Appium | Airtest Project | SoloPi |
---|---|---|---|
脚本语言 | 支持Python,Java,JavaScript,PHP,C#,Ruby,OC等 | Python | / |
数据记录(网络/本地) | 不支持 | 不支持 | 不支持 |
环境模拟 | 不支持 | 不支持 | 不支持 |
上手难度 | 高,需要各种环境支持和语言学习 | 一般,不熟悉编程语言,也可以一定程度使用 | 低,用例即操作,不展示 |
问题溯源成本 | 高 | 高 | 高 |
维护成本 | 高 | 高 | 高 |
视图检索 | 基于UI控件的检索,支持10多种UI控件查找方式 | 基于图像识别和基于UI控件检索两种方式 | 基于图像识别和基于UI控件检索两种方式 |
源码集成 | 无需 | 可选 | 无需 |
WebView支持 | 支持 | 支持 | 支持 |
用例编辑 | 支持 | 支持 | 支持 |
平台支持 | iOS、Android、Windows | iOS、Android、Windows、游戏测试 | Android |
可以看出,以上这些自动化测试工具/平台对于数据记录,环境模拟、维护成本、跨App复用等方面,都是有所欠缺的。所以无论是哪种方案,在易用性、维护成本、稳定性、可扩展性以及最终的测试效果上,都无法满足我们对自动化测试的需求。我们并不是为了自动化而自动化,而是要解决实际的提效问题。
那么,怎样才能确定一个自动化工具/平台的可用性,并长期落地去使用自动化,带着上述提到的较高门槛的上手成本、操作繁琐的环境模拟、差强人意的测试成功率、定位模糊的测试缺陷、难以维护的用例脚本等几大重要痛点,本文我们将介绍美团外卖自研的测试平台——AlphaTest,都具备哪些能力以及是如何解决这些问题。
一个自动化测试工具/平台能不能用起来,取决于他的上手成本和稳定性,即使工具的测试稳定性做的再好,使用的门槛高也会让人望而生却,反之亦然。所以AlphaTest平台为了上手简单,降低使用成本,采用了基于录制回放的方式进行设计,并且弥补了常规录制回放无法编辑的痛点,同时在手势操作的基础上增加了数据录制。整合美团系App的特性增加了环境模拟、跨App支持、混合技术栈的支持等能力,在使用简单的同时,也保障了用例的可维护性、测试的准确性等。我们先通过视频简单的了解一下:
用例录制:
用例回放:
回放报告:
注:这里我们将生成的自动化脚本统称为指令,将平台生成的用例统称自动化用例,将录制回放变成可视化的脚本指令,让用例变的易懂、易维护。
录制回放本身是一连串的操作数据的集合,是连续性的、不可拆分,因此几乎不具备可编辑性,这也就导致了用例维护成本极高。AlphaTest虽然同样基于录制回放的方式生成自动化用例,但是我们将每一步的操作都具化成结构化的指令数据,并提供可视化指令编辑器,以支持查看编辑。
这些可视化的指令,完全通过录制自动生成,也不依赖于任何脚本语言。通过可视化用例指令编辑器,不仅为用例提供了编辑的可能性,同时大大地提高了用例的可阅读性,每一条测试用例在测试过程中每一步都做了什么、当时的界面是什么样的、都有哪些断言校验点,是显而易见的,不会存在像传统图文描述的测试用例那样,出现理解偏差。指令生成演示,手机录制与平台远端录制双模式支持:
一键环境模拟,解决操作繁琐的用例执行前的环境准备。
进行一个用例的测试之前,往往需要做大量的准备工作,比如切换API环境,定位到某个地点,登录指定账户等。这些需要准备的环境条件我们统称为前置条件。我们知道,前置条件的准备操作通常都不是一两个步骤就可以完成的,比如账号登录/切换:我们需要进入登录页,填写手机号+密码/验证码,点击登录等一系列动作来完成这个过程,非常繁琐,并且每次测试我们都需要准备,重复性高。因此,我们给AlphaTest设计了独立的前置条件模块,将用例拆成了两个部分:前置条件 + 操作步骤。
与其它测试框架不同的是,AlphaTest采用了SDK集成,但对业务无侵入的方式,因此可以通过编写白盒代码来实现前置条件的自动配置,只需要在平台添加需要的指令,下发到SDK后,即可根据相关指令完成前置条件的自动配置,不再需要重复进行相关的操作。并且这些前置条件支持复用,也不需要每次进行用例准备时的重复配置。AlphaTest的前置条件,不仅有着基于美团内部服务及底层Hook的默认实现,也提供了API支持业务方自定义实现,比如实现不同的账号体系。
影响用例执行的不仅是代码,还有数据。
很多时候,自动化用例无法正常执行完成,可能是因为App回放时的本地数据及网络数据与录制时的不一致,从而导致用例执行流程的阻塞或App界面展示的不同。这也是大多数自动化测试工具/平台测试通过率不高的主要因素,因此要保证测试成功率,我们需要控制变量,排除由数据产生的影响。
App运行依赖的数据,有两部分——本地数据和网络数据:
目标定位的准确性与手势定位的精准性。
UI自动化测试的本质就是代替人去自动的做一步步的操作(点击、长按、输入、滑动等)。录制与回放过程的操作能否一致,是否精准,直接影响测试的成功率,决定了工具/平台的可用性。
操作行为是否一致首先需要确认操作目标是否一致。与一般测试工具/平台不同的是AlphaTest采用了ViewPath + 图像 + 坐标的多重定位方案。得益于SDK集成的方式,我们的ViewPath可以记录更多的元素视图特征和执行不同的匹配策略。定位过程中会优先使用ViewPath进行目标控件检索,当目标控件查找异常时,会结合图像匹配和坐标匹配的方式进行兜底查找,来确保界面变化程度不大时,也能准确的查找到目标控件。
有了基于控件的目标定位之后,对于一些常用简单操作手势,比如点击、长按、断言、甚至输入都可以做到很好的支持,只需要找到对应的控件,在控件所在位置下发相应的触摸事件即可。我们知道,App真正接收的触摸事件是屏幕上一个个精准的触摸点,在系统处理后,分发给当前App窗口,App在接收事件后再继续分发,直到找到事件的最佳响应者,后续通过响应者链对事件消化处理。那我们要还原一个触摸事件的坐标点要如何确定呢?由于我们确定的只有控件,所以这个点自然而然就成了控件的中心点了。
大多数情况下,这些都可以很好地进行工作,但是对于一些多响应控件重叠的情况,可能会产生预想不到的操作误差。为了解决这样的问题,我们把控件定位与坐标定位进行了结合:基于纯坐标的定位是一种定位精准度非常高的定位方式,但是稳定性非常差,只有在屏幕分辨率完全一致且回放页面控件位置完全一致的情况下,才具备足够的可靠性,但这往往是不现实的,对测试环境机器量要求过高。
基于控件的定位,又存在着精准度不够的问题。使用坐标定位,如果定位区域足够小的话,那么受屏幕尺寸的影响就会越小,只需要确定在小范围内的相对位置即可。而基于控件目标的定位,恰恰可以把目标区域缩小到一个指定区域,我们刚好可以将二者结合起来,同时解决定位精准度和稳定性的问题。
对于复杂手势的支持,我们同样可以采用微分的方式,将一个复杂手势拆成多个简单手势的组成,比如我们可以将一个滑动操作的定位拆成两个部分:起始位置和终止位置,而这两个位置的定位,就变成了两个普通的单点手势操作定位了,可以通过上面提到的一个目标控件+相对坐标的形式进行定位。核心思想都是将基于屏幕坐标点的定位操作,缩小的目标控件的区域范围内,以达到不受设备分辨率的影响,实现操作行为一致的效果。
测试全流程记录,问题溯源一键即达。
测试的目的是保证App运行的稳定,测试过程中出现Bug导致测试未通过时,需要溯源问题原因,发生的场景,乃至具体的执行步骤。这也是大多自动化测试工具/平台所欠缺的,即使发现了问题,排查工作也很困难;这个问题在手工测试的时候,更为严重,往往因为很多缺陷无法复现而难以定位。
AlphaTest的自动化用例最小执行单元是操作指令,我们将测试过程的每一条指令的执行状况和过程中的界面快照进行了记录,并在指令执行失败时,对异常原因进行了初步分析。然后将整个用例的执行组合成了一份完整的测试报告,可快速溯源问题步骤。除此之外,我们还增加大量的日志上报,并将整个用例测试过程进行了视频录制,来进一步帮助疑难问题的排查。真正做到了用例回放测试可溯源。
自动化用例需要持续地投入人力来维护么?架构升级,页面重构,用例需要全部重新录制么?
因自动化工具/平台众多,阻碍长期落地使用的一大问题是用例维护成本高,很多工具/平台让我们即便是使用上了自动化,但还需要持续投入人力维护用例的更新,最终的提效收益微乎其微。对于用例更新维护,我们可以梳理划分成三个场景:
同一份代码运行在不同的App上,是否需要重新编写多份用例?
美团系的一些业务可能会复用在多个App上。比如外卖有独立App,但同时也要复用到美团和点评App上,这些功能,几乎共用一份代码,而测试人员却不得不对每个App上的业务功能都进行测试,维护多份用例。由于业务本身实现是一致的,那我们可以通过适配不同App之间的差异,来让一个业务Case可以横跨多个App回放,这便可以将成本缩减好几倍,这些差异主要体现在:
AlphaTest平台支持App维度各项差异数据配置,当SDK检测用例回放环境与录制环境不一致时,会自动进行映射适配,从而让用例运行到了不同App上。
除了功能测试,我们在日常开发和测试的工作中,还会面临另外一个比较重要的问题就是埋点测试。因此,我们在自动化的基础上扩展出埋点自动化测试。埋点自动化测试的核心思想是,通过对比录制时期和回放时期的埋点上报时机和上报参数进行判断。为了保证埋点自动化测试的稳定性,我们主要采用以下的障机制:
[1] 点击埋点上报时机校验,程序通过事件监听和埋点类型信息来判断点击埋点上报的时机是否是在点击的操作下产生的,如果不是则报错。
[2] 埋点重复上报校验,针对一般情况下用户一次操作不会产生两个相同的埋点上报,所以程序会校验某个事件下发生的所有埋点日志进行一一校验,检测是否具有2个或多个埋点日志完全一致,如有发生则会上报错误。
AlphaTest的核心测试流程始终聚焦在用例的录制与回放环节,整个流程涉及到自动化任务触发、回放集群调度、断言服务、消息推送等核心模块。
以UI自动化和埋点自动化的流程为例,AlphaTest以业务团队为基本单元,可以和各团队的测试用例进行关联,定时同步状态。同时利用需求评审线上化做为基础,将自动化用例和研发流程中的PR、集成打包、二轮回归等节点相结合,定时触发自动化用例并将结果报告推送给相关负责人。
[1] 首先在AlphaTest平台选择要录制的测试用例,打开待测试App进行扫码即可进入用例待录制状态,此时可以设置用例需要的前置条件(账号信息、Mock数据、定位信息等),之后点击开始按钮后,手机便会自动重启,开始录制。
[2] 用户按照测试用例步骤,正常操作手机,AlphaTest会将用户的操作行为全部记录下来,并自动生成语义化的描述语言显示在AlphaTest平台上,与此同时产生的网络数据、埋点数据等校验信息也会一并存储下来。
[3] 在录制的过程中可以快捷的打开断言模式,将页面上想要校验的元素进行文本提取/截图等操作记录下来,用于后续回放过程中对相同元素进行校验。
[4] 测试步骤全都执行完毕后,点击保存按钮即可生成本条自动化用例。
[1] 扫描对应自动化用例的二维码即可进行回放,回放过程中会将用户录制的行为、网络数据进行一比一还原,并且辅助有全过程视频录像,用于后续问题排查和溯源。
[2] 回放过程中碰到断言事件时,会将断言的元素进行文本提取/截图,上传至AlphaTest平台。回放完成后,会将回放时候的断言截图和录制时的断言截图进行图像对比,作为整个测试结果的一项。
[3] 回放过程中的埋点数据也会一并记录下来,并和录制时候的埋点数据和上报时机进行对比,自动提取出其中的差异项。
[4] 回放完成后,会生成完整的测试报告并将结果通过OA推送至相关人员。
在整个外卖C端敏捷迭代的流程中,打包平台主要承接了业务需求发起到需求交付的流程,作为AlphaTest的上游平台,可以提供打包信息并触发自动化用例回放任务。以下简单展示AlphaTest与敏捷协同平台的交互流程:
整个测试过程真正的解放双手,才能算的上是自动化。因此,我们着手搭建了自己的自动化机器集群,可以 24小时不间断的执行测试任务。为了保证任务回放能够顺利完成,我们在不同阶段增加了相应的保活策略。在极大程度上提高了任务执行完毕的成功率。
用例断言是整个自动化用例验证的核心步骤,我们的断言服务依据用例的实际情形可以分别进行文字与图像的断言。其中图像断言服务依托于自建的图像对比算法服务,可以高效进行录制回放断言图像的对比,图像对比准确率可以达到99%以上。
[1] 录制时增加断言决策信息的自动采集。
[2] 和正常流程一样,提取区域的截图信息。
[3] 如果是文本组件,则提取文本内容,如果是图片组件,则提取图片二进制编码或图片URL,同时提取区域内的布局信息。
[1] 回放时,提取和录制时一致的内容(文本信息、图片编码、区域截图、布局信息)。
[2] 将回放时的断言信息上传至AlphaTest平台。
[3] AlphaTest平台对断言结果进行校验,首先是基于模型的图像对比,如果判定为一致,则直接标记结果。
[4] 如果判定为不一致、则匹配“断言失败数据集”,如果能够匹配上,则标记结果。如果匹配不上,则需要人工选择匹配类型。
[5] 匹配类型为“文本校验”、“根据图片信息校验”、“人工校验”。如果前两项判定为一致,则直接标记结果。如果“人工校验”的结果为确实两张图不一致,则直接标记结果,结束。
[6] 如果“人工校验”结果为一致,既上述所有判定都不准确,则需要人工对两张图中判定错误的原因进行分类(具体类型待定),同时将断言存储到失败数据集。
[7] 模型自动训练,当数据集超过一定的阈值、通过定时触发、或者手动触发的方式,触发模型自动训练,训练完成后自动部署到AlphaTest平台,不断迭代。
[1] 预训练过程:resnext50网络是使用ImageNet的预训练模型。
[2] 数据增强:为增加数据的丰富性、提高网络的泛化性能,数据增强的方式主要包括:图像右下部分的随机剪切和添加黑色蒙层(相应改变图像对的标签)。这种数据增强符合控键截图实际情况,不会造成数据分布的改变。
[3] 对比损失:对比损失函数采用ContrastiveLoss,它是一种在欧式空间的pair based loss,其作用是减少一致图像对距离,保证不一致图像对的距离大于margin,其中margin=2。
[4] 相似度量:相似度量也是采用计算图像对特征向量的欧式距离的方法,并归一化到区间[0, 1],作为输出的图像对相似度。
消息推送作为回放流程的最终环节,我们依赖于美团内部自建的消息队列服务与OA SDK消息推送能力,可以进行测试报告的实时推送。在此之上,还可以针对不同团队的推送诉求,做消息模板的定制化。
消息定制:消息推送与触达的核心,是满足业务诉求;不同业务对自动化测试报告中各项指标的关注点不同,这就需要AlphaTest具备消息推送定制的能力;将消息推送的模板以配置文件的形式提供出来,不同的业务使用不同的业务消息配置文件;再利用OA提供的图文、多媒体等消息推送能力,可以将自动化测试报告的各项指标自定义拆分;除此之外,消息还需要减少冗余,在这个信息泛滥的时代,我们愿意为无孔不入的消息、通知做减法,只将最重要、最核心的消息推送给最需要的人,既可以推动自动化测试流程的高效流转,又可以让各相关业务人员享受到自动化测试能力的便捷性。
一键触达:以往的研发人员冒烟测试,主要依赖于测试人员在用例管理平台建立测试计划,研发人员根据用例进行手工用例测试结果标记,之后去提测完成后续流程。这中间缺失的主要环节是,难以对研发人员冒烟测试的质量进行把控。而AlphaTest正可以解决此问题,流程转换为,研发人员在敏捷协同平台触发一键提测流程,调用AlphaTest的自动化测试能力对冒烟用例进行自动化测试回归,完成之后将测试生成的测试报告同步提测平台,作为研发人员冒烟的结论依据,同时在冒烟过程中发生的问题,也可以及时通知到对应的研发人员与测试人员进行改正。既保证了质量,又避免了人力空耗。
外卖C端主要承担了用户在App端点餐、下单、配送的所有核心流程,场景繁多、业务复杂,这也给测试人员的版本测试带来了诸多挑战,其中最核心也最耗费人力的便是二轮回归测试环节。目前,C端采用的双周敏捷迭代的开发方式,每个迭代周期给测试人员用来进行二轮核心流程回归的时间为三天,为此C端测试团队投入了许多人力资源,但即便如此,仍难以覆盖全部流程;而AlphaTest的设计初衷也正是为解决此问题——UI测试流程全覆盖及自动化验证。
用例的转化与维护
[1] AlphaTest 在外卖C端测试团队的落地初期,我们采用了共建的模式,也就是业务研发人员与对应测试人员共同来进行用例录制与维护的工作;推荐这种工作模式的核心原因是,在C端功能迭代流程中的二轮周期的原有工作模式为,研发人员进行二轮冒烟测试,完成测试之后提交二轮包交由测试人员进行二轮回归测试,所以这本来就是一个双方都需要参与的环节;而二轮测试作为版本上线前的最重要一个测试流程,保证核心流程的正常也是测试人员与研发人员所关心重点。
[2] 经过多轮的使用与磨合之后,这种模式被证明是行之有效的,在整个C端二轮用例的转化过程中,测试人员主要负责了用例的录制与迭代流程,研发人员则主要负责版本回放数据的统计及问题用例的发现与解决。
外卖二轮落地情况
[1] 目前,AlphaTest已经在外卖多个业务落地,支持了大于15个版本的二轮回归测试,用例覆盖率达到70%。
[2] 覆盖了Native、Mach、React Native、美团小程序、H5 技术栈的测试工作,能力上可进行支持:UI自动化测试、埋点自动化测试、动态化加载成功率自动化测试、无障碍适配率自动化测试。
未来,我们会朝着“智能化”和“精准化”两个方向探索,覆盖更多测试场景的同时,更进一步提升测试人效。
测试方向 | 同App回放成功率 | 跨App回放成功率 |
---|---|---|
功能自动化 | iOS:97.4%、Android: 94.7% | iOS:95.8%、Android: 91.1% |
埋点自动化 | iOS:96.3%、Android: 96% | iOS:95%、Android: 91% |