文 | 中国太平洋保险集团数智研究院大数据专家 史春奇;中国太平洋保险集团数智研究院创新孵化专家 吴顺洁;中国太平洋保险集团数智研究院院长 王磊
自2022年底以来,ChatGPT的问世引发了全球大语言模型的爆发式增长,不到两个月的时间内用户数就突破了1亿。英伟达CEO黄仁勋在一次高校演讲中表示,人工智能产业的“IPhone时刻”已经到来。2023年上半年,类ChatGPT大模型技术呈现出百花齐放的局面,产品上也出现百模大战。然而,当通用大模型应用于垂直领域时,由于缺乏领域内的专业知识,其表现往往不尽如人意。彭博推出的大模型BloombergGPT,使得金融业成为大模型率先落地的垂直领域之一。
对于资管领域来说,哪些方向值得优先探索类ChatGPT大模型的应用?可以投入何种细分的大模型相关技术?达到何种预期效果?围绕上述问题,本文基于现阶段大模型的不同发展阶段,分析了资管领域的潜在应用点,以及大模型所带来的效果提升。
ChatGPT的出现推动了大模型相关技术的蓬勃发展。自2017年Google发布了自然语言处理领域的首个通用基础模型Transformer以来,几乎每年都有重大突破(表1)。为了更清晰的理解上述发展历史,同时借鉴类比人类发展的历史,可以将其大体划分成六个阶段。就人类自身进化而言,从类人猿开始,经过南方古猿、能人、直立人、尼安德特人,最终进化到智人的六个阶段。从第三个阶段,即直立人开始进入旧石器时代,脑容量突飞猛进,也经历了类似于“涌现”的阶段,人类脑容量在能人阶段之后快速突破(图1)。
下表展示了六个发展阶段在参数大小、训练成本、典型技术等特点上的不同(表2)。
大语言模型(LLM,Large Language Model),是一种通过使用海量文本数据进行训练的深度学习模型,具备生成自然语言文本和理解语言文本含义的能力。类ChatGPT大语言模型则结合了对话生成和交互特性,在具体上下文中实现各种对话任务,也称为对话式大语言模型,基础大模型与对话式大模型的区别如下(图2)。1.基础大模型主要特征。一是海量参数预训练:通常在十亿级以上,甚至达到万亿级。二是语言理解和生成能力:理解和生成人类语言,但任务视角生成的内容精度欠佳。三是零样本学习和跨任务迁移:通过预训练获得的语言能力,而不需要额外的任务专有数据训练,并且理解能力可迁移至多种语言和多种任务。
2.对话式大语言模型主要特征。一是数据集和训练方法差别:类ChatGPT模型训练需要使用对话记录、客服对话或特定领域的问答式文本数据,以更好地适应对话任务。并会使用标注数据进行监督学习,尤其是使用基于人类反馈的强化学习(RLHF)方法和参数高效微调(PEFT)方法。二是对话生成和交互差异:更加注重对话相关功能,如对上下文的敏感性、上下文追踪、生成回复的连贯性等。
ChatGPT的出现使得机器与人类智能的比较越来越有争议,使得接近人类大脑规模的通用人工智能(AGI,Artificial General Intelligence)的研究迈出一大步。人类大脑的神经元总数达近千亿(约1011),而且神经元类型达数百种,神经元间的突触联接达到百万亿(约1014),目前大模型发展已接近这个规模。随之爆发的关于“智能涌现(Intelligent Emergence)”与“幻觉(Hallucination)”的研究与讨论备受关注。
“智能涌现”是指由较简单的交互单元通过复杂的互动,在集体层面上出现智能行为或特征的现象。实现智能涌现需要庞大规模的参数,这与强大算力支持密不可分。黄氏定律描述了当前算力硬件发展的经验规律,指出GPU硬件发展将推动AI性能实现逐年翻倍增长,10年后增长约1000倍,这是智能涌现的算力保障。
“幻觉问题”是指大语言模型规模庞大之后生成内容出现失真的现象,可能生成表面上看似合理但实际上虚假的信息,并且无法评估信息的可信度或准确性。为应对幻觉问题,有建立审核链条、采用标签插入抑制提示词和闭环输出等方法。
垂直领域应用可大致分为非大模型传统方案、基础大模型方案和对话式大模型方案。再进一步地,在垂直领域中,大模型的解决方案可分为垂直基础大模型、垂直对话式大模型、CVP(ChatLLM-VectorDB-PromptEngineering)模式。1.垂直领域基础大模型方案。该方案主要是指将垂直领域独有的海量数据与通用数据融合,从而训练一个基础大模型。这种方案投入较大、训练时间较长、同时也具有较高的隐私保密性。然而,由于缺乏内嵌任务适配机制,不同任务需要定制开发,因此无法快速适用不同场景。2.垂直领域对话式大模型方案。该方案是在基础大模型的基础上,利用垂直领域的独家数据训练一个垂直领域的对话式模型。针对不同场景任务,仅需要训练垂直领域数据对话式模型,通用基础大模型保持不变。这种方法极大地提升了模型的任务能力,同时降低了训练资源的投入。适用于具备独家标注数据且对数据隐私有保护要求的场景。3.CVP模式。该模式是通过大模型来对独家数据进行解读,并利用提示词(prompt)工程来进一步优化效果,无需额外的训练。这种方案投入较低、可操作性强可快速应用多种场景。适用于具有小规模独家数据、对数据隐私要求不高,且希望快速上线的场景。CVP模式的缺点是基于领域知识、专业术语的理解能力稍差。在实际应用场景中,应该综合考虑垂直领域的数据情况、数据安全隐私要求以及成本等因素,来选择最优的解决方案(见表3)。选择何种方案进行落地需要综合考虑数据、成本、隐私等因素。从资源消耗角度来看,垂直领域基础大模型的投入成本最高,其次是垂直领域对话式大模型,CVP模式投入最少。同样地,就模型效果而言,垂直领域对话式大模型要优于CVP模型。从垂直领域数据角度出发,基础大模型依赖海量的垂直领域数据,而对话式大模型依赖标注数据,CVP模式仅需要小规模数据即可实现。从部署时效性来看,CVP模式可适应快速上线迭代,而基础大模型需要耗费较长时间训练。
大模型在资产管理领域具备广阔的应用前景。目前资管领域的大模型应用已经涌现出一些探索案例,无论是技术服务供应商还是资管企业,都在积极地探索这个领域。资产管理领域的大模型应用涵盖了4个层次的架构。数据层:整理独有的、领域的、高质量的数据,尤其是非结构数据与标注数据。同时需要测试并选择适合的基础大模型作为基础能力。计算层:根据目标应用,选择适合的大模型解决方案,然后定制计算层的核心逻辑。同时需要建立数据清洗、效果评估、提示工程、任务指令适配等基础功能。服务功能层:在大模型的基础上,需要建设原子能力,例如对话能力,文本处理能力,人机接口,编码能力等。应用层:针对资产管理业务,针对不同的部门,如客户服务、投资、风控、运营、管理等,构建具体的大模型应用。每个应用往往以1~2个核心服务能力为主,然后与特定数据,应用接口等进行融合,定制特定的交互能力。对话能力为主:在客服在营销场景中,通过大模型对话来动态回答客户提问、生成宣传材料。需要注意生成内容的质量,并确保接接口的安全,以防止数据泄露风险。文本能力为主:当投研、风控、资产组合、投决等场景中,需要大模型基于大量专业数据理解的基础上,实现精准提取和精炼重组。对于专业术语和逻辑关系的解读准确性至关重要,同时需要注意生成内容的可追溯性,以避免幻觉问题。编码能力为主:在量化和运营等场景中,需要大模型定向生成代码和指令,这需要确保生成结果具备可执行性。自动化能力为主:在合规和运营等场景中,需要自动生成测试案例与测试脚本,自动测试和案例验证。这往往需要积累逻辑推理能力。其中尤其以文本能力为主的场景,例如,投研领域大模型的需求迅速增长。以下将以研报理解、研报生成和投资组合这3个热门案例来进行详细说明。研报理解。通过案例和提示词触发,可以从研报中提取财务指标分析,如各业务板块的毛利润、营业利润、净利润和资本支出等。同时,可以结合资讯数据库的信息,进行指标趋势分析与预测。此外,还可以进行数据的可视化分析,如使用条形图和块状图等将复杂数据进行可视化展示以助于理解。更进一步,可以结合持仓信息,深入洞察关联企业、行业、资产、物流等方面的新趋势与风险点。最后,通过信息理解、分析预测、数据可视化、观点洞察等步骤的交互调优,生成专业的交互式回复。除了上诉的功能优势,根据研究表明,大语言模型在文件摘要生成、关键信息抽取、情感分析等任务上,较传统深度学习模型提升约10%以上的准确率。在实践上,平台如FinChat.io和百度文心一言等都已经提供相关的解决方案和能力。此外,当前开源组件的日趋成熟,基于这些组件定制研报理解平台的可行性也在逐渐增加。研报生成。在2023年2月,财通证券研究所发布了一篇医美研报,由ChatGPT参与撰写,迅速引起了业界的关注。该研报题为《提高外在美,增强内在自信——医疗美容革命》全文超6000字。在这份研报中,ChatGPT对医美行业的定义、发展历程、项目分类和产业链进行了详细描述。此外,ChatGPT还展望了疫情后中国和全球医美市场的发展趋势。就效率而言,基于大模型的研报初稿仅需约1小时。从分析材料数量来看,ChatGPT能够从行业新闻、数据、年报、上市招股书、定增公告、投资建议书等各种文件报告中找到支撑观点的关键内容,并能够从概率总结。然而,值得注意的是,来自哈佛的研究表明,ChatGPT在生成调研报告时存在一些缺陷,它在辅助决策时倾向于选择排列第一位的选项。对于是否的问题,回答可能受到问题中强调程度的影响而有所变化。因此,在研报生成中需要避免采用那些受提问形式变化而变动较大的回答内容。投资组合。在资产配置和投资组合多元化方面,首尔大学的研究发现ChatGPT能够识别不同资产类别之间的关联,从而选择具有多元化效应的资产组合。实验使用了20只大盘股、5种加密货币、5种大宗商品、5种货币和5种债券,共计40种资产数据。研究基于2021年1月1日到2023年1月31日之间的每日简单收益率,通过1万次的重复随机选择资产和让ChatGPT选择资产构建投资组合,以确保结果的可靠性。结果显示ChatGPT的选择在多样性指数上有显著改进,表明其考虑了资产多元化,在经风险调整的收益率上,较基于随机选择的资产组合更高。值得注意的是,来自西湖大学的研究表明,在他们建设的“LogiQA 2.0”的逻辑推理测评集上,ChatGPT的准确率仅为50%,GPT4的准确率也仅为70%。因此,在需要长链条逻辑推理的投资组合任务中,不能轻易全盘相信大模型的单一结论。目前,大模型仍然存在一些局限性,而资管行业的专业特殊性使得大模型在资管应用方面也有一些限制。一是不容易同时实现低成本、时效性和数据隐私性的平衡,同时需要解决数据更新问题。二是模型本身的“幻觉问题”可能导致输出结果的准确性偏差,产生错误的回答甚至虚假信息。需要解决难以知道引用数据来源和可靠性的问题。三是缺乏创造力和推理能力,限制了模型的创造性思维和长链条的逻辑推理能力。四是在理解金融背景知识和相关数字信息方面仍有不足,对专业术语和缩略词的理解可能存在明显偏差,甚至错误。针对上述局限性,未来,大模型在资管领域的实际应用在可信度和低成本两个方向上有许多前景可期的技术发展。一是更可信的大语言模型:(1)提升事实检验能力,可以内置更强大的事实核查模块,以在生成回答时验证内容的真实性。可能需要构建自主学习的知识图谱实现支持。(2)加强可控性,需要提供控制和过滤输出的机制来监督和审查模型的使用。例如,让用户反馈并标记错误内容,进而让模型响应反馈自动优化。(3)增强可解释性,需要解释大模型的决策过程,以确保其决策的可靠性和可信度。(4)保障合规安全,需要考虑用户信息、用户使用数据、训练数据的安全。还需建立有效的安全审计和监控机制,涵盖版权安全和伦理安全等。二是更低成本的大语言模型:(1)模型压缩,通过模型剪枝、参数量化和模型蒸馏等方法,可以减小模型的规模和复杂度,从而降低计算和存储成本。(2)弱模型集成,构建集成方案整合多个结构简单的小型垂直模型,除了更具有成本效益,也可以及时将差异化数据和实时数据纳入模型。(3)云端和分布式并行,目前在分布式并行处理上,由于模型、数据和算法的不均衡等问题,训练资源利用率较低,未来有望进一步提升效率。(4)更低成本的高性能硬件,新一代的硬件可能会提高大语言模型的运行效率,同时降低能耗和成本。在当前阶段,资管领域的大模型应用还受限于大模型的低成本、时效性和隐私性的三角限制,将大语言模型打造成类似数据中台这样系统化的核心能力尚待突破。未来,资管领域利用大模型技术,在自动化与助手辅助两个方向将发生巨大的变革。(1)超级自动化:通过对话大模型实现多智能体(Agent)支持,规划协作共享、任务分配、问题解决和错误纠正等问题,处理冲突维护一致性。融合信息处理自动化、客服服务自动化、运营自动化和监管合规自动化等,实现超级自动化。(2)超级助手辅助:通过融合投资决策助手、开发编码助手、数据质量助手、营销宣传助手等,实现资管超级助手辅助。(来源:金融电子化)
文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664205739&idx=5&sn=864607745e55ef03cc279743578e99ff&chksm=8b598f52bc2e064499e1924ed529da121872ace0d1c6a40cc47645012a810eabc25bc40155d5&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh