本文分为两个部分,第一部分是现在的判断,第二部分是一年多以前写的一篇老文,现在看来,也并不过时。
第一部分
时隔一年,惊喜的发现当初探索实践大模型解决安全问题时遇到的许多基础问题已经迎刃而解,这个变化得益于GPTs平替的诞生。
当时遇到最大的痛点问题之一是数据出境导致的安全合规问题,因为当时国内的大模型性能距离GPTs差距还较大,这就导致想要解决实际问题只有GPTs可选,难以有效平衡落地和合规问题。如今一年多过去了,回过头来再看,有了一些缓和的余地。
平替也可以很好用。原因一是国内商业大模型能力的进化,如果说GPTs是吹风机届的戴森,那么国内商业大模型就是戴森的平替,用起来虽然还是有点差距,但是可以接受,对于部分人群已经是最优选择。原因二是国内商业大模型的开源,这点是我预期外的。通常来说,由于人力投入、数据、算力等等因素,商业闭源大模型的能力一般要强于普通开源大模型。商业大模型都是利益驱动,这波开源动作,不管目的怎样,对于普通用户来说都是好事,都可以尝鲜国内头部大模型。
国内商业大模型的开源使得私有化部署到各企业内部成为了可能,将原始的安全合规问题转变为GPU机器资源问题,将是非对错题转化为成本预算题。退一步说,国内非开源大模型的能力进化也解决了数据出境问题,再不济,也是人民内部问题。这么看来好的大模型还是有国界的。
基础问题被平替解决之后,用户应用起来才能得心应手。平替的诞生,也引发了我的一个思考,包括但不限于大模型,为什么国内是跟随者的状态?原因是否是创新的驱动力不足?如果是,那不足的原因又是什么?
平替的诞生,也让我重燃了信心,以往国内调用huggingface数据和模型不是被墙就是网络不稳定,调用openai大模型也得时刻担心被墙或账号被封,热情被不趁手的工具一点点磨掉,潮涨潮落,如今国内的平替让我挑花了眼,站在此基础上,我希望可以做点原创的事情,成为引领者而不是追随者。这也是从我们自身视角,所能做的力所能及摆脱国内平替标签的事情。
第二部分
几个核心观点如下:
大模型基座模型、上层模型,客场作战,国内技术还在追赶国际技术。
大模型基座模型、上层模型,中文环境是主场,国内大模型ChatGLM领先以OpenAI为代表的国外先进科技。
用发展的眼光看问题。应用大模型技术验证解决问题时,不要受限于当前(开源)大模型能力,因为刀越磨越锋利。
主场作战
C-Eval榜单一个适用于大语言模型的多层次多学科中文评估套件。
07/21 最新排行榜,ChatGLM2-6B【开源】排名第13,ChatGLM2【基座大模型、闭源】排名第1,GPT-4【闭源】排名第2,ChatGPT【闭源】排名第6。除此之外,前几名都是封闭大模型。
可以看到基座大模型在主场还是很能打的,基座大模型之上的6B开源大模型平均分51.7,距离商用的ChatGPT平均分54.4,已经很近了。个人认为,开源大模型技术会越来越接近商用/闭源技术的天花板。
三周之前的榜单如下,对比可以发现有一些后起之秀。
非主场作战
横轴是上下文长度,纵轴是准确率,可以看到虽然在>3K时,ChatGLM2-6B的准确率直接拉垮了,但是在3K范围内,ChatGLM2-6B还是很能打的,准确率接近商用的GPT3.5了。
用发展的眼光看问题
之前尝试将大模型应用到可信策略生成场景,采用的更多的是下限思维。因为考虑到可落地、可自主可控,就放弃了OpenAI商用模型,用现有国产开源大模型ChatGLM-6B平行替代做poc验证,但是会受限于当前性能,验证遇到了各种各样的问题,就仿佛在墙内安装各种墙外软件成本会高或失败,导致poc验证不通过,怀疑落地的可行性。
后来改用上限做法。直接用当时最先进大模型之一的GPT3.5做poc验证,暂时忽略一定要是国内、开源产品等的限制条件,直接上高速公路,验证效果符合预期。
从下限到上限的做法改变,来源于用发展的眼光看问题,大模型技术发展日新月异,个人认为未来国产大模型性能至少会赶上现在国际大模型性能,一些现在看来是问题的问题也会随之而解。无论是底层技术,还是上层应用,我们能做的是各司其职,在自己的位置上发挥出最大的价值。上限做法验证通过后,剩下的就是等风来,等基座/上层大模型技术就位,因为这个位置上也有对应的人在发挥个人价值,追赶国际领先水平。
这次直到ChatGLM2-6B的出现,在可信策略生成场景做poc验证时,达到了GPT3.5达到的效果,达到了ChatGLM-6B之前没达到的效果。这也验证了上面的想法,用发展的眼光看问题。
来都来了,懂得都懂。