扫码订阅《中国信息安全》
邮发代号 2-786
征订热线:010-82341063
文 | 中国银行软件中心 王婉婷 付晖 闫晓斐 陈若昱
随着分布式架构的迅速演进和云原生技术的逐步落地,大型商业银行的IT系统呈现出敏态和稳态相结合特点,在云上和云下并行、集中式与分布式共存的复杂架构下,对IT运维工作提出了更高效、更敏捷的要求。近年来,人工智能(AI)技术的快速发展,特别是人工智能生成内容(AIGC)技术的出现,成为IT系统高效运维的催化剂。AIGC衍生出丰富的能力矩阵(如文本生成、智能分析、内容推荐等),在处理复杂任务方面表现出了强大能力。中国银行软件中心积极探索AIGC技术在运维领域的应用,以服务应用为核心,构建服务于运维领域的大模型框架,致力于对IT系统的智能化故障解决和性能优化,提高运维效率,为业务的稳定运行提供强有力的技术支持。
AIGC运维体系
AGI运维框架下,如何利用已有企业级IT系统做到真正的一体化运维呢?一是信息生成智能化,生成类AI模型链接已有的各类企业库如各类数据库、分析系统等,实时生成系统巡检报告、事件分析报告,资源使用报表、系统配置项报表等;二是交互AI化,AI模型通过优化Prompt约束生成内容、链接RPA系统等工具系统,实现指令下达式的对话式运维;三是智能告警与自愈,分析型AI领域大模型对可观测运维数据智能分析后,调用自动化工具自动实现系统告警治愈。
图2是AGI运维场景示例,通过调用MaaS层大模型API服务、企业级工具等接口服务,以及调优提示词,可完成基本的运维场景需求。如问答类AI大模型可以实现技术咨询、运维工单处置方案推荐等需求,任务类AI大模型可实现监控信息实时查看、任务自动下发执行等需求。
1.多渠道信息收集,构建运维数据基石。兵马未动,数据先行。数据的收集整合是整个运维工作的基础。大模型训练阶段需要多种类型的数据做支撑。企业可观测系统整合了Zabbix、Prometheus、ELK、Skywalking等存量监控系统,企业统一配置中心融合了各种自动化脚本工具,具备多渠道、高效率的数据收集能力,将基础资源层、平台层、应用层等各级基础配置、系统和应用运行日志、监控指标、链路信息、运维知识库等纳入管控范围,稳定支撑了几万余分区的运维数据收集。
领域大模型以问题导向,通过对采集数据定期分析评估,优化预处理算法,降低冗余数据的干扰,凸显有意义的可观测运维数据。领域AI模型针对已有基于规则或机器学习的告警算法生成优化建议,及时调整告警生成、聚合和告警收敛方式,切实提高告警质量,领域模型同步生成的告警解决策略附加在预警通知中,实现了数据汇总和全局呈现的“管家式”服务。
2.全链路可观测,精准排除系统故障。全域覆盖,动态感知。AGI运维框架以企业可观测系统和企业统一配置中心为基础,以领域大模型和算法库为驱动,从系统架构、网络拓扑、应用程序等多维度开展链路级的聚合分析以及故障分析诊断。采用关键路径埋点、故障链路染色,将收集到的大量基础数据串联,并开展多轮次的模型训练和参数调整,结合链路中的多源历史数据建立应用程序的运行状态的基准画像。将业务集群中的实时链路数据动态与应用的基准画像进行基线匹配,并对故障信息进行上报,实现了业务链路脉络张力的透明化,使“链路即服务”“故障即发现”变得触手可得,为系统和应用的精准排障提供了智慧“双眸”。
落红不是无情物,化作春泥更护花。故障分析模型对关键故障链路、异常指标和日志数据及历史事件/问题知识库完成故障分析诊断后,报告生成模型自主回顾故障链路日志、指标等信息,进行问题总结,生成故障总结报告,并移入待处置事项库,经专家系统验证无误后转储知识库,并作为模型优化的基础数据进行再次迭代,持续提升模型的诊断能力。
3.变更实施控制,实现流程高效敏捷管理。围绕“安全、敏捷、高效”原则,对变更、应急、服务请求等进行简化和灵活性改造,建立适用于云原生环境下的轻量级、便捷式流程。AI通用大模型、垂直领域大模型与机器人流程自动化(RPA)、自动化工具等结合,能够实现变更配置和部署流程的自动化。模型通过收集和分析系统配置信息、环境要求和应用程序的特性,生成适用于特定环境和应用程序的配置文件,并对配置文件进行验证。基于系统配置信息和部署策略,生成自动化部署计划,包括步骤、顺序和依赖关系。根据生成的部署计划,自动化工具执行配置文件的分发和应用程序的部署。在部署或变更完成后,执行验证步骤,如果发现问题,根据事先定义的回滚策略,自动还原到先前的可用状态,实现智能运维下变更流程和实施“道法自然”效果。
智能变更流程如图3所示,通过输入用户变更信息描述,通用大模型分解变更任务,并分发至领域大模型进行子任务的并发执行,通过约束大模型的输出内容,链接不同的企业工具如数据库、搜索工具、RPA系统等进行实时信息获取和任务执行,任务完成后将相关信息反馈至变更负责人或落盘记录,方便后续审查。
问题和挑战
总结与展望
《中国信息安全》杂志倾力推荐
“企业成长计划”
点击下图 了解详情