智能体将成为全新物种,广泛而深刻地影响人类。作者 | 北方 编辑 | 靖宇历史上从来没有哪一个时刻,比 2023 年更紧密地将 AI 与人类未来联系在一起。仅仅刚刚过去的几个月,AI 行业就上演了 OpenAI 开发者大会、Humane 推出 AI Pin、微软 Ignite 大会、xAI 发布 Grok、OpenAI「宫斗剧」等行业大事件,不仅一次次引发 AI 圈密集讨论,也让更多人开始密切关注 AI 商业化与自身的未来发展。作为「大模型元年」,AI 大模型的落地也出现不同走向。面向 C 端,以 OpenAI 为代表,将 GPT Store、人人可定制的 GPT 等切入人类生活变成新的主题;而在 B 端,「技术如何落地」「应用的可能性」这类更实际的问题,从没有如此频繁地出现在创业者的话语中。卡耐基梅隆大学(CMU)「学霸」、联汇科技首席科学家赵天成,现在还记得当年在大学攻读博士时,看到谷歌的 AlphaGO 战胜人类顶尖围棋选手带给自己的震撼。当时已经看清传统「列规则」式的 AI 开发方式的弊端,转而研究「AI 智能体」的他,选择了一条「前 GPT 模式」的 AI 之路,早在几年之前,已经预判大模型才是 AI 快速进化的正确路径。回国加盟联汇科技后,赵天成和团队就开始打磨基础模型,将重心放在了多模态大模型领域,并在 2021 年就推出了首个自研的多模态大模型,与当下创业者仍在疲于「卷」文字大模型形成鲜明对比。技术上的创新和务实的产品开发,让联汇科技利用多模态大模型的超强能力,先后获得广电、运营商、国家电网等多个领域的 B 端客户,成为大模型创业者中少见的功落地者。在商业路径上,赵天成看到当年「AI 四小龙」当下的窘境,认识到「小模型定制死路一条」的真理,坚持联汇科技在大模型领域的不断研发和创新。对于当下的「百模大战」,赵天成认为单纯的「卷参数」,尝试复现 ChatGPT 的能力,对很多创业公司来说,可能并不是唯一正确的打法。而已经在 B 端积累了相当经验的他,认为大模型并不止 LLM 一种形式,相比而言,多模态大模型能落地的场景更多。「GPT 只是大模型的一个路径,但 OpenAI 的方法论可以在更多场景中做尝试。」赵天成告诉极客公园。在他看来,在 AI 的 B 端落地上,竞争并非是「百团大战」,而更像「丛林狩猎」,最终能获得猎物的,并非一定是大公司。以下为联汇科技首席科学家赵天成采访实录,由极客公园整理:
极客公园:当时国内 AI 行业处于什么状态,联汇科技如何选择切入市场的角度?赵天成:当时国内大模型几乎是未开启状态。很多大厂,包括华为、百度等也训练过一些模型,但当时大家还没有发现什么实际的价值。我回来后分析了国内 AI 行业的痛点。当时很多行业都在做 AI,比如零售 AI、客服 AI 等,这些基本上都是用传统的小模型方式在做的,定制化程度极高,而对小模型定制来说,他的瓶颈在于每个模型不能泛用,每个场景都要从头做起,无法沉淀积累,使得定制成本很高。这就导致了当时做 AI 商业化落地成为一件很累、很亏钱的事情。经过研究分析,我们发现虽然市场有很多中长尾应用场景,但功能要求非常分散,这种情况和我们之前做智能体平台差不多。如果用小模型方式去做的话,很难走远。所以我觉得我们既然要做,就要去做有「未来」的东西,摒弃小模型的思路,专心于大模型。而且我们根据学术界的研究成果,判断大模型的行业爆发不会太远。欧姆视觉语言大模型拥有主动思考分析能力极客公园:当时你怎样让客户认识到这种技术案例的先进性?说服对方在这个方向投入?赵天成:非常困难。当时还没有大模型的概念,我们尝试了很多方法去做科普,但几乎没人听得懂。我们就尝试通过和其他产品 PK 来说明我们的路线优势,因为大模型和小模型一对比就能看到效果。比如在介绍跨模态搜索能力时,我们就和对方说以前的搜索都是需要打标签的,但我们的搜索只要通过自然语言说一句话,就能把东西搜出来,我们不用标签,或者说我们是「无限标签」。这种概念其实很多客户也还是不理解,我们只能用更具象的方式去介绍。比如虽然我们是无限标签,但有时候不得不说我们有几万个标签,因为这样能给他们一个具象的概念。这些都是我们在尝试落地时碰到的困难。极客公园:有没有给你印象很深的客户,你展示前他并不相信这些,展示后他被震惊到了?赵天成:比如某广电集团,他们也是我们比较大的一个客户。他们有很多视频媒体资料,比如新闻播报类节目等,以前一年要花几百万进行人工编目、打标签,来实现资产管理和检索。当时我们说可以通过机器学习,自动生成无限标签,可以实现任意检索,对方不太相信,我们就给他们做测试系统,让客户自己去验证。然后我们再从技术底层去讲解这个原理。经过几次使用和讲解之后,他们内部一些专业的技术专家也认识到这个技术路线的先进性,后续合作就比较顺畅了。极客公园:这样的一个商业化方向是团队经过很长时间碰出来的吗?还是说你早就已经想到了场景和方向,只是根据客户不同来去提供支持?赵天成:虽然我们当时认为大模型一定是一个方向,而且我们也一直在致力于提高大模型的基础能力,但在商业化方向上,还是通过不断的市场探索,慢慢摸出来的。在寻找具体应用场景时,我们当时尝试了很多行业,也碰过很多壁。最终发现,最终我们聚焦在媒体视觉和 IoT 视觉这两大应用场景。极客公园:从回国到成功落地这样的大客户,大概花了多长时间?赵天成:差不多一年多时间。虽然在技术方面,我们之前在美国已经有了一些积淀,并不是回来之后从零开始做起。但在真正落地应用时,还是有很多需要改进。实际上要真正做到应用落地,需要大模型能力提升、工具链开发、应用场景确定、应用闭环开发以及商业模式确定等一系列因素结合起来才能实现,并不仅仅是技术问题。极客公园:你回国的时候,国内「AI 四小龙」很受关注,经过这些年,从这些公司的起伏中能学到什么经验?赵天成:我认为这些公司都很优秀,他们在小模型应用落地方面,做了很多尝试,在高频领域也有很多成功案例,但在中长尾领域都不太顺利。这也反过来验证了我的判断——如果用小模型方式去服务中长尾场景,貌似是死路一条。这样的判断,更加坚定了我们做大模型的决心。我们看到只要把大模型的商业道路走通的话,将具有巨大的市场价值。欧姆视觉语言大模型拥有四大核心能力
03
被动智能正走向主动智能,
一切都将被颠覆
极客公园:在 ChatGPT 出来之前,你已经预判到大模型技术的行业趋势,在这些年里,你对大模型的理解有什么变化?赵天成:我是从 2016 年左右开始专注于端到端的生成式模型训练,其核心思想和如今的大模型训练如出一辙,也就是首先构建一个上限极高的神经网络模型,然后通过对大量的无监督数据进行自回归学习,实现原本需要 N 个专家系统模块组合而成的复合能力。在这些年里,对于大模型学习的最大变化在于对于这种学习方式能达到的上限与发展速度一次次地刷新了我的预期,也让我更加坚定这种方法论的正确性。早年的时候,端到端模型能够实现 AI 对于自然语言的流畅生成,到后面能够根据用户的问题给出流畅的答复就已经是非常了不起的成果了。然而现在 GPT-4 可以不但进行流畅的语言生成与问题回复,还可以主动地选择不同的工具,并且产生思维与推理链条,这个在当时是不太敢想的。当时这个过程只能靠人工去定义,不可能靠 AI 自己做出来。现在不管多模态大模型还是大语言模型,已经逐步具备自己去产生整个推理链路或者决策链路的能力,我觉得这个是颠覆性的变化,也让现在的 AI Agent 开始具备了主动思考与决策的能力。联汇科技智能管家机器人看护老人极客公园:所以这些年的改变,让 AI 有可能实现大范围的商业化?赵天成:对,这些年最大的变化是从以前的被动智能——用户问一个问题,AI 回答一个问题,到现在的主动智能——用户问一个问题,AI 除了回答他的直接问题,还会主动联想到其他问题。甚至用户不用提问,AI 自己根据它的观察,就能主动发现问题并给出解决问题的建议。比如在零售场景下面,AI 通过视频分析发现超市里的咖啡打翻了,它会自己联想到需要做清理,或者通知谁去打扫卫生。这样从观察到行动的决策方案,以前只有通过人工设置才可能实现,但现在就可以自动实现,这是一个比较颠覆性的变化,从被动智能进化到主动智能。联汇科技巡店机器人进行店面管理当 AI 从被动智能发展到主动智能后,就有了更多的商业应用价值,就有可能实现大规模的商业化。极客公园:联汇科技团队在 AI 落地场景很早就开始尝试,现在还有哪些落地场景可以透露?赵天成:现在很多 AI 应用主要还是基于纯语言模型,我们的特点是专注在多模态大模型上,特别是视觉和语言两个模态。把视觉和语言结合起来的应用场景很多。比如在媒体领域有很多内容创作需求。我们正在用基于视觉语言大模型的智能体框架做一个产品,实现编导层面的自动化和主动智能,以解决编导们最头痛的内容创意问题,这个产品可以根据内容主题要求,自动分析内容主体是什么、需要什么素材、镜头怎么拆,最后要用怎样的叙事线表达,让 AI 去做一步步推理的过程。视频小欧文生视频另外比如国内做的比较多的智慧家居、智慧零售等场景。以前家庭或者小店里安装的摄像头只是一个观察者,只会识别预定目标,比如有人闯入,然后通知你看视频回放,但一旦这些摄像头加上了主动智能后,每个设备都能主动思考,它就成了一个虚拟店长、虚拟保姆,这些都很有想象空间。OmBot 自主智能体:面向行业的多模态智能体系列
04
大模型 B 端市场是丛林,
而不是大决战
极客公园:联汇科技在 AI 商业化,尤其是 B 端是很成功的,这其中有哪些经验值得分享?赵天成:B 端场景不像 C 端。B 端必然会有个性化的需求。因此怎样用更低成本去满足这些个性化需求是非常重要的。这几年,我们一直致力于加强我们大模型的能力,同时开发相应的微调工具链,在此基础上,用户通过 Prompt(提示词)的方式就可以完成用户的个性化微调训练,这就让定制成本变得很低,创造出一种全新的用户个性化 AI 服务的方法。我们的经验在做 B 端服务时,一定要考虑取舍,不能走上定制小模型的路,要学会克制,有舍有得。极客公园:在 AI 大模型商业化落地这件事上,真正难的地方是什么?赵天成:把 AI 技术产品化,让它满足客户的需求有很多因素需要考虑。国内和国外市场有个很不一样的地方,美国在很多技术方面都有更明晰的分层,生态链中每一个环节,都能发展出很优秀的公司。比如说有些公司就做一个中间件,也可以活得很好。但是国内并不存在这样成熟的生态体系,只做中间件很难存活。因此在国内市场,一家 AI 公司要实现商业化落地,他产品得有「厚度」才行,意味着你必然要对客户有更深的理解,要做成产品闭环。单纯把某个模块做到极致,是远远不够的。极客公园:前不久刚刚召开 OpenAI 开发者大会,很多开发者看完觉得自己做的半年甚至一年努力都归零了,怎么看这种趋势?赵天成:我觉得 OpenAI 做这些商业化尝试和我预期的差不多,他们肯定会做这些事情。Sam Altman 是很有野心的人,他肯定不会放弃这么大的潜在市场。OpenAI 的商业化模式,对国外的开发者冲击确实很大,但我认为他们很快就会在这样的生态中,找到新的机会。前面我讲到,国内和国外的 AI 生态有很大的不同,特别是 2B 市场,OpenAI 的模式很难在中国复制。国内用户的私有化部署、数据壁垒、个性化需求等特点,都会影响到商业落地模式。因此我们还是坚持把自己的模型做好,把我们的工具链做好,提升自己原生的长期竞争力。同时,我们也在根据国内的商业环境,探索更多的应用形态,其中也会借鉴国内外的很多模式,它山之石可以攻玉,总的来看,OpenAI 的发展对我们的成长还是非常有利的。极客公园:国内目前卷大模型的这个现状,联汇科技是怎样看待或者应对的?赵天成:我们主要从几个方面来应对,第一,走差异化路线。回头看「百模大战」,其实大部分公司都是在想办法复现 ChatGPT,到现在为止,基本上还停留在 OpenAI 早期的大语言模型阶段,各家的产品很难看出差异化。而我们一开始就是走多模态路线,很多时候客户会说,文本 AI 我见过,但是能看懂图像的好像没见过。图像+文本的场景应用非常丰富。因此,我们通过差异化,能够更好满足客户需求,并提供市场想要的产品。另外,相较于很多公司,联汇有不同的定位,因为我们主要服务在 B 端,就和目前市面上大部分企业面向 C 端的打法也不一样。联汇科技拥有丰富完整的产品体系还有,相较于有些公司一味地卷模型参数的大小。我们更关注的是模型的实际落地能力。大家也都知道微软透露 GPT 3.5-Turbo 用的大模型参数也就在 200 亿左右。因此模型参数多少合适,要有一个综合的判断,不是越大越好。极客公园:如果现在才回国创业,大模型领域当前的红海状态下,你还会考虑做基础模型吗?赵天成:假如目前从 0 去做基础模型,相比三年前会难很多。很多团队已经入场。但我并不认为现在大模型领域已经进入红海阶段,因为大模型本身证明了对于海量数据的学习和压缩可以产生智能,但是 ChatGPT 也只是大模型的其中一种形式。通过大量的预训练,把知识融入到一个模型里面,让它产生通用能力,涌现出一些智能,这件事是不是只能做语言模型?我觉得肯定不是,别的场景下面还可以有,比如图像、3D 或者分子结构等等,因此,切准某一个领域去做,还是有很多机会的。比如我可以专门做 3D 大模型,或者做物理世界大模型,像 World Model 这种类型。其实三年前,做语言类大模型也是有很多不确定性的,因此我觉得做基础大模型还是有很多机会的,关键是要对大模型的方法论有真正的理解,以及切入点的正确选择。极客公园:怎样看待和大厂在 AI 领域的关系?是完全的竞争还是说有其他可能?赵天成:首先,在 AI 领域,任何时候小公司都有机会,就像美国,很多 AI 创新都是谷歌提出的,但是 OpenAI 就比谷歌做得更好。2017 年的时候我一些朋友也在 OpenAI 实习,那时候这家公司还不到 100 人。所以在 AI 领域,创业公司并不是没有机会,但是竞争肯定不可避免。每家公司要找准自己的定位。对于 C 端场景,竞争肯定会比较激烈,大厂本身有较强的用户平台,小公司可能要真正有一些比较创新的应用场景,同时又有比较好的市场策略才能胜出。不过在 B 端,我觉得不管大厂还是小厂,都不存在赢家通吃的局面,因为 B 端的行业逻辑和 C 端是不一样的。有一个比喻说的很好,C 端可能是一种规模战,大家是在比拼火力,我有 100 辆坦克,你有 1 辆坦克,我就能赢你。但是 B 端场景下面,大家都是丛林里的猎人,你可能拿了一个火箭筒,我拿了一把狙击步枪,我的火力没有你强,但这头鹿到底谁能打下来不一定。*头图来源:联汇科技本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问你如何看待国内 AI 行业的发展趋势?