张鹏:你刚讲很多腾讯内部的产品在用混元大模型了,能不能举几个混元给原有产品带来新的 Feature(功能/特性)的例子?刘煜宏:最新的例子,微信读书里的 AI 读书;微信输入法 AI 帮助扩写;腾讯会议里的 AI 助手,能给晚加入会议的观众总结之前别人讲了什么,把一次很长会议的会议纪要给摘出来。还有腾讯文档里的续写;企业微信里的翻译帮助与海外同事交流。现在腾讯旗下的协作 SaaS 全都接入了腾讯混元大模型。再早一点的例子,智能客服在内部最为普遍。其实在用大模型之前,智能客服就做得挺成熟的,但大模型还能再提升 20%,这种程度的效率提升。其实做了(大模型)产品之后,也帮助了自己很多,比如用 code copilot 写代码(涵盖前后端开发,C,C++,Java,Go,Python 多开发语言)的采纳率有 30%,相当于 100 行代码有 30 行是AI写的,而且被采纳。设计师设计 logo 时也用 AI 文生图来帮忙,每天千万级收入的广告业务的一些素材,就 是用 AI 助手来做的。大模型对于降本增效起到很大助力。张鹏:你刚提到,腾讯内部接近 700多个产品在用混元大模型,算是混元的「内部客户」已经有 700 家了,那你怎么服务得过来?同时还得兼顾不断前进的技术。刘煜宏:内部调用量大概将近 3 亿次了。去年我们发布(节奏)慢,一部分原因也是我们投了很多资源先服务好内部的「客户」。腾讯做事情,对外开放前一定要先在内部打磨好,自己的狗粮自己先消化。同时,腾讯确实有最齐全的业务场景,办公协作、游戏、社交、推广搜等等。在这些丰富的场景中,也能练兵,也能练模型。精调、以及其他给产品的反馈,反过来又反哺到主模型里。比如,会议总结、function call 等。对于内部产品接入混元,我们提供三种模型来支持。第一种叫全托管,给没有那么强研发资源的团队,他们提业务需求后,我们想办法把模型精调好,他拿走直接用;第二种叫半托管,有些业务有自己的研发,也能做算法优化,我们一起共建,一人一半,他们搞不定我们再上。最近两年「开源协同」在腾讯内部很流行。还有一种,我们把模型开放后就不管了,剩下的业务如果有需要,自己加数据、自己调。我们去年也是花了大半年,慢慢把几个模式跑通。我们提供一站式精调服务,叫「混元一站式」,允许他们做各种创作、优化,内部根据需求调用资源,模型、算法、插件。张鹏:三种模式占比如何?刘煜宏:7 成左右拉 API 就可以了,啥都不用管。另外 3 成多少要精调,这其中拿走模型完全自己精调的会比较少,因为有门槛,我们一起参与的进展会更快。张鹏:70% 的业务直接调用混元API,30% 要精调,哪些产品、业务要重点支持?这个选择权到底在谁,或者看业务部门谁更有影响力吗?刘煜宏:这时候我们会基于两点考虑,一是复杂度,投入多少资源能帮你解决问题;二是同等难度和投入的情况下,先考虑战略重点。资源配置上,其实主要看客观需求。目前 70% 是 API 模式就能搞定,用的是大模型的通用能力。那就看什么场景用大模型的通用能力就可以解决,比如像娱乐场景这样容错度高的场景,没有强解决问题的能力也行。但要做金融、医疗、法律等严肃场景,不能有幻觉,通用 API 不一定搞得定,要专门精调,为严肃场景做大量优化。所以,第一是看用户选择。第二,这个数据在不同阶段也会变。最开始我们支持腾讯会议、腾讯文档时,扩写、润色、总结能力都是需要定制的。一旦做好了,这个能力就能变成通用 API 能力,开放出来给以后接入的业务用,这时候就不再需要定制了。比如给腾讯会议做好了,腾讯文档、腾讯邮箱也有类似的需求。张鹏:把模型做好,这几种模式跑顺,服务好 700 家「内部客户」,是挺花时间的,所以你们去年不着急对外说,是在忙着解决服务内部的问题。刘煜宏:最开始做混元,没想要做 ToC 产品,是要把基础模型打磨好,服务内部需求,这是我们原来的逻辑。当我们在内部很多产品、不同场景里验证后,发现这个能力可以拿出来给大家用,所以去年 9 月份推出了「腾讯混元助手」小程序,因为觉得在微信生态里也可以用。但后来发现这样做也有不足,比如使用时被聊天打断,没法持续地对话,它就没法成为一个好用的 AI 工具。于是推出了 App。整个过程里,我们不断地思考、调整方向。从做一个底层模型、一个基础功能、平台服务内部业务,到后来发现,如果不探索原生AI大模型应用,不知道怎么跟业务更好合作,所以又前进了一步,从小程序,到 Web 产品,App 产品。张鹏:市面上也有很多比较热的大模型产品,主打陪伴类等等,你们「元宝」做得比较简单,界面就一个框,当时是怎么思考的?元宝 App 第一屏界面|图片来源:腾讯刘煜宏:选择现在这样的界面,还是想回归「用户到底需要一个什么样的AI产品」?现在大模型的使用人群,学历较高、职场人士占多,所以偏工作和学习的场景更重要,娱乐属性也有,但重要性相对低。相应地,我们的 slogan 也调整成,「轻松工作,多点生活」。不是不做娱乐,也留了一些智能体在上面。我们也有开放的平台——元器,上面能做很多智能体,角色扮演、陪伴等等。先选择把生产力场景的用户痛点用 AI 搞定,信息搜索、写文档、想创意、知识获取、阅读等需求。比如搜索场景,我们先做好信息搜索、大模型「阅读」顺畅,又改善了信息源的陈列,提供了又简洁又分层次的信息源,提高生成内容的可信度,规避大模型的幻觉。后面围绕着搜索、阅读、写作、画画和创作等场景做好,这些被视为大模型的基础能力。我们做产品经常说,做加法容易,做减法难。这是为什么我们一开始就用很少的东西,用一个 AI 搜索做,另外还有一个发现页面,上面有些智能体,目前并不多。这也代表腾讯一个做产品的理念,小而精,做减法。先瞄准能提升大家效率的、最有用的场景,把它做透。我们希望提升信息组织、以及信息被找到的效率。张鹏:为什么不做娱乐产品?是产品取向选择,做提升生产力更重要?还是从技术上来看,认为做娱乐对于技术提升不重要?刘煜宏:不是说娱乐不重要,大家还是需要情感陪伴的。当下先选择工作和学习场景,第一个有选择的原因。第二个,当我需要陪伴的时候,AI 能给到什么样的帮助?角色扮演的产品有很多,但(模型)能力做不到那么好。打发时间,暂时只能做到这点。张鹏:人们对「杀时间」的事包容度高,模型能力没那么好也能没准让用户愿意掏钱。刘煜宏:对。这是选择问题。我觉得选择娱乐场景这个目标,对目前大模型的这个阶段的发展不是很好。基于对自己的认识和选择,先把技术能做的做好。我们先把底层模型、基础的产品体验、元宝体系做好了,在此之上开放一些东西,就像微信,小程序,公众号,都是生态。那娱乐的事情就交给生态产品,QQ、游戏、视频、音乐,他们做娱乐场景比我们更擅长。张鹏:腾讯本身就是一个庞大的产品生态,元宝未来会跟腾讯的产品体系打通吗,比如微信?这方面有什么计划?刘煜宏:我们跟微信团队一直有互动。比如元宝里用得好的东西想要分享到微信,或者在微信里传个文件,能不能用元宝打开?这些互动,我们有探讨怎么做会更好。但因为微信用户非常庞大,任何一点小改动,都可能影响上亿人的体验,所以也非常谨慎。5 月 30 号元宝发布之后,外部解读元宝和腾讯生态产品的打通,有点出乎意料。我们确实会考虑与腾讯生态如何互动,但毕竟元宝还是一个很小的产品,还在尝试阶段;另外,用户需求真的是慢慢发展起来,才会变成所谓的战略,我们并没有上帝视角,还是基于用户的需求来考虑。比如面对用户搜索的需求,我们要做一个什么样的信息检索,搜哪里?那我们有搜一搜、新闻、视频、音乐、企鹅号,包括公众号是一个很好的内容源,这是一个顺理成章、跟着用户需求慢慢出来的事情。我们也看到很多创作者来说,元宝 App 里加入公众号的内容源是一件非常好的事情,一些好的内容都被遗忘了,元宝还能把它挖出来,让它重新火一把。但我们有一些更长期的目标,我们考虑的是,混元怎么支撑内部业务、做到何种程度。张鹏:看来腾讯对自己要求很高,就像你说的,如果没有吃过自己的狗粮,没有真正用起来,不太愿意让别人为我付代价。但同时,这会不会降低了对外开放、快速迭代探索的可能性,让更多力量一起「共创」本身不就是一种「技术红利」吗?刘煜宏:确实,让更多人进来,用户、开发者、企业进来,一定会产生更多可能。混元一方面是通过内部比较全面的生态体系来打磨、创新。经历了内部的一轮洗礼,外部的需求会更游刃有余。而且,任何一个东西,你拉长看,现在的进展可能会显得微不足道的,假如外面是个大海洋,先在湖里面练好游泳再出去会做得更好。同时我们也有混元 API 供外界用,其中混元 lite 的模型是直接可以免费使用,还有元器开发平台,上面已经有很多开发者做智能体,然后分发到元宝、QQ、小程序等渠道上面去用。比如腾讯云的同事会基于做好的底层基础模型,做行业大模型,针对企业做服务。这部分增长非常迅猛,免费模型的调用量、付费版都增长了很多,我们也要投很多资源来支持、优化。
03
AGI 是信仰,眼下的目标
是「让模型多一些思考
张鹏:你怎么看 Character.ai,一个以前不存在的产品形态在未来的发展空间,以及对于技术的要求会是怎样的?刘煜宏:类似角色扮演的需求,我们在 ToB 的场景里也遇到了,比如类似智能客服的接待助手。会告诉它「你是谁」,但发现聊了几十轮之后,它可能就忘了自己是谁。Character.ai 很火,我们做了很多用研,但最后选择没做类似产品,因为混元还是希望做一个(技术)平台,我们会往它所需要的底层能力去做,长文本、长窗口的能力、记忆能力等。这些角色产品的探索可能更适合腾讯的产品团队,他们来做会有更多想象空间。另外,从腾讯的角度看,也还是希望做底座能力和产品,把空间开放给市场上更多创业公司。张鹏:所以你目前看得不是产品,而是产品背后需要的能力和长期有没有意义。我可以理解为,混元的目标是做好技术底座,为腾讯丰富的产品条件和用户场景,做好AI Native 的准备?刘煜宏:一定程度说可以这样说。但混元团队也没走过大模型这条路,也要探索原生的应用和创新。就像刚提到的元器,我们做好底座,创作、工作流平台,业务部门和用户拿来做智能体,实现各种各样的想法,这是我们的定位。我们做探索的同时,把底座的技术能力打造好,这是有门槛和难度的。张鹏:有人说对国内的大模型来说,GPT-4o 是「必答题」,Sora 是「选答题」,哪些在你们看来是技术趋势上的必答题和选答题?刘煜宏:GPT-4o 和 Sora 背后代表的多模态甚至全模态,对我们来说都是必答题,但一般没做出来之前,也不会对外说。做与不做,可能只是一个特定资源条件下的选择问题。腾讯为什么必做?因为腾讯业务场景齐全,社交、游戏、内容,每个模态跟我们场景都有契合点,不做的话,可能某个方面未来会缺。一个东西将语音、文本、图像、视频都能搞定,全模态进,全模态出,需要一些时间和资源。也许每个阶段会有不同重点。张鹏:从混元的角度,你会怎么定义 AGI?刘煜宏:目前 AGI 作为信仰比较合适。业界没有一个对 AGI 量化的定义,连定性都未必定的出来。可能从业务的角度,可以定义一个可以操作执行的 AGI 目标。但我最近在思考,让模型稍微多一些思考,这件事挺重要的,因为可能生成的质量会比过去高很多,我们接下来可能会花更多时间在这里。ChatGPT 最早你问他一个问题,他马上吐字回答问题,有点像「快思考」或者说没有思考的直觉反应,但它可能怎么也想不出来一个空城计。让模型做AI搜索,或者其他让它多加几层思考、强迫他多做思考的动作,有助于进一步提高模型的推理能力。7 月 1 日,「腾讯元宝」AI 搜索能力升级,上线深度搜索模式,可从深度和广度两方面,提供更结构化、更丰富的回答,并可同步生成内容大纲、思维导图及相关人物事件梳理。|来源:腾讯张鹏:有没有对需要达到的能力范畴的定义?刘煜宏:过去几年里有句话比较流行,有多少人工就有多少智能。以前智能是靠人堆起来的,人类对齐有很多数据要标注,甚至 OpenAI 也靠高质量的标注。坦白来讲,目前要做到(绝对的)AGI 没有那么乐观。务实一点看,针对腾讯内部那么多的业务,如果大模型能把他们的需求都搞定,那可以说它具备了比较好的智能,这可能是通向 AGI 的最佳实践,工具或技术从来都是满足人的需求。目前面对腾讯内部接近 700 个业务的需求满足情况,如果让我打分,一部分场景合格,但是大部分坦率来讲只是暂时够用,要用得好,还有很多努力要做。在这个过程中探索 AGI,也可以算我们的一个实践路径。当然我们也有比较前沿的科学探索,腾讯 AI Lab 在做等等,要花点耐心,把应用和研究结合起来,一起做。张鹏:想象一下混元在三年以后会什么样?刘煜宏:这个年代哪能定三年目标,因为技术曲线仍然陡峭,边走边看。要说做产品,很像写小说,有的时候不是一开始就想好结局。比如 Sora 出来之前,做文生视频的肯定不会走那条路。GPT-4o 之前,大家觉得 4V 很牛了,变化太快了。我们投了很多资源,做好长期战斗的准备。让我想,三年如何讲做成功了,可能无非是 AI in all。张鹏:不是一下投进去,而是所有的东西都被AI逐渐渗透进去。刘煜宏:大模型要改造流程和产品。我希望不用到三年,腾讯产品和技术平台都用大模型做了改造,让大模型帮大家做降本增效的事情,这是我对未来的所想。*头图来源:极客公园本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问你用过腾讯元宝吗?体验如何?