26 年前,微软中国研究院成立(即微软亚洲研究院的前身),作为创办者和首任院长,李开复带领微软亚洲研究院从零开始发展,并建立起了一套完善的「大牛+小牛+学生」人才培养机制和创新文化,在全球产生了重大影响。
在后来的人工智能浪潮中,微软亚洲研究院更是成为了中国互联网以及 AI 领域的黄埔军校,向业界输送了大批技术中坚力量,据极客公园此前不完全统计,有超过 15 位「院友」在阿里、百度、小米等互联网巨头担任总裁或 CTO;更多人投身创业大潮,成为商汤、旷视、依图等独角兽公司的创始人或技术领导人。商汤、旷视、依图还有云从科技,以计算机视觉为核心,是上一波的 AI 创业浪潮中的中国「AI 四小龙」,曾经历辉煌,但普遍遭遇商业化困境,这一波大模型 AI 创业浪潮,会怎样走出一条不同的路径?1 年前,零一万物成立。去年 11 月,零一万物开源发布首款预训练大模型 Yi-34B,半年后,零一万物又发布了千亿参数规模的 Yi-Large。这一年来,零一万物迅猛发展,无论是海外的产品还是自家的模型,在各种国际权威评测中都展现出了令人印象深刻的成绩。26 年前,李开复就引领了一代人的 AI 之路,如今又亲自投身到了这场新的浪潮之中。尽管已经 62 岁,但李开复并不是一个只在后台掌控的领导者,他仍然是团队中的核心人物,那么,为何他要如此热情地投身到这场浪潮中?5 月 30 日,极客公园创始人&总裁张鹏和零一万物 CEO、创新工场董事长李开复博士一起探讨了大模型、他的创业经历,以及未来通用人工智能可能为商业和科技领域带来的影响。要在正确的时候启动正确的应用,要先把 TC-PMF(Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度) 算好。
创业者要在巨头还处于「创新者的窘境」的时候,把 TC-PMF 想清楚,悄悄推出产品,这样即便巨头觉醒,创业者也已经拥有了先发优势。
推理成本下降是理所当然的,而且它是大模型向前发展的最大动力。
统一多模态,是正确的技术路线,也是一个必答题。
AI 时代的来临,会有很多赚钱且不上市的公司存在的可能性。
张鹏:在零一万物最新版的模型里面,有什么令你很兴奋的进展?包括外界的反馈,该怎么理解?李开复:大模型不像芯片那么容易评估,算一算速度就可以了,大模型要使用才知道谁好。而且使用的评估每个人意见不一样,所以就会发生这样的现象,每当一家中国,美国的大模型出来之后,看起来它都是世界第一,那用户或者开发者到底该用哪个模型?到底该用哪个 API?真的是很头疼的事情。我最近的领悟是,模型要想选优、排序、打擂台的话,有三个要点:零一万物成立之初就明确了公司的全球市场定位。零一万物立志成为一家国际第一梯队的大模型公司,服务全球用户,同时将中国市场视为最重要的市场。基于这一战略,零一万物选择了两个国际权威评测平台——斯坦福大学的英语排行 AlpacaEval 2.0 和开放研究组织 LMSYS 竞技场——来展示零一万物的实力,并与全球的大模型竞争。在 LMSYS 公开盲测综合排名中,零一万物仅次于 OpenAI、Google、Anthropic 三家硅谷巨头,是全球第一梯队里唯一一家中国公司;在斯坦福的 AlpacaEval 2.0 评测中,零一万物模型甚至超过了 Google Gemini 1.5,标志着零一万物在一个公正的、全球的擂台上进入了世界第一梯队,这是我们非常自豪的事情。张鹏:Yi-Large 模型什么时候支持定义 system character(系统特性)?还有 function call(函数调用)?李开复: system prompt(系统提示)已经能够达到比较好的效果,零一万物将持续对其进行强化,函数调用还需要一两个月。零一万物每一两周都会更新 API,并升级 API 背后的模型。张鹏:今年的零一万物战略主营业务会放在哪里?是模型还是应用,还是在布局其他?作为创始人& CEO 怎么定义今年的目标?李开复:目前,零一万物不参与模型价格战,也不打算参与任何基于项目的需求定制开发,也就是不会去竞标做某个大但是需求不通用的项目,然后在其中「赔本赚吆喝」来撬动下一轮融资。这种做法在 AI 1.0 时代已经尝试过,但最终发现这种做一单赔一单的方式是行不通的,所以零一万物绝对不会采用这种方法。除此之外,零一万物对其他方向都持开放态度。无论是国内还是国外,To C 的 App 或者 To B 的模型、API 等都可以涉足,但会聚焦于最有增长潜力的领域。最有可能成功的方向是深度定制大模型。零一万物将专注于那些真正理解大模型的客户,愿意为了实现伟大目标付出高额费用的客户。因为这些客户能够看到大模型对他们公司的巨大影响,虽然他们在市场上并不容易找到,但他们是零一万物希望吸引的目标客户。李开复: 不是微调,是要教他们怎么做训练。要把一个模型做好,需要先做好一个基础的模型,让它适合去做持续训练。初始数据可能是一些行业数据,得把这些行业数据整合到到模型中,然后在此基础上进行微调。当前有足够好的底座,又愿意去投入资金获得软件训练许可的公司很少。原因在于这样做成本投入非常高。但是懂得用的公司是愿意付这个钱的。这种公司全世界可能也就几十家,而且大部分这种客户可能在国外,所以这是一个差异化的方向。另一种等待爆款的方法是开发 Consumer App(面向消费者的应用)。零一万物会逐个开发一些应用程序,希望能出爆款,即使不是爆款也能盈利,并且能健康成长。如果其中一个应用成为超级爆款,就能带动整个公司的发展,因为它可能成为未来的抖音、小红书等。所以,零一万物会继续开发 Consumer App,这也是我们的重要发展方向。API 业务我们持理性乐观。因为目前国内市场才刚刚起步,大家的业务规模都还不大。API 业务是零一万物目前刚起步的业务之一,但如果我们能保持性价比优势,未来可能成为最大的业务之一。模型则属于幕后英雄。这三种业务都依赖于模型,但并不是直接出售模型,而是通过不同的方式产生收入。有些业务收入确定性高,但增长率低;有些业务收入确定性低,风险也较低,但有爆发的可能性;还有些业务可能会带来巨大的利润,但如果做得不好,效果可能一般。这三种业务模式叠加在一起,我认为可以创造出收入较多、增长率较高且收入质量较高的公司。零一万物坚决不走过去 AI 1.0 时代证明走不通的路,这就是我们的整体特色。张鹏:这样做其实就是在打一些真正有价值的工,客户使用了我们的服务,我们真正为他们创造了价值,而他们也有能力付费。李开复: 补充一点,这不是基于项目的工作,也不是简单的打工。将模型部署到客户企业后,会给他们带来巨大的价值,不仅节省成本还能创造收益。由于客户不愿意数据外泄,他们有可能不愿意使用 API。所以零一万物会根据需求把模型部署到客户的内部,这需要高度的彼此信任,收费方式也是按年收费,可能更接近于 SAP 或微软 SQL 数据库的年度许可费用。这也是为什么在国内可能会比较困难,因为没有太多公司愿意支付这类费用。张鹏:在大模型时代,创业是否应该选择低成本模型来吸引用户增长,或者采用高成本模型来打造高价值产品?产品经理或者创业者是否应该避免中间地带,而是专注于两端策略?李开复:一年前大模型存在非常多的缺陷,比如说幻觉问题。有幻觉的话,很多应用是做不好的。最近随着技术如 RAG(检索增强生成)等的进步,大部分的这些问题已得到解决,所以幻觉的解决会是一个重要的里程碑,这个事情正处于进程之中。同时,模型能力跟用户留存是有绝对关系的。零一万物自己探索了四个产品,其中基座 Yi 模型从 Yi-34B 换到了 Yi-Large 的 132B,用户留存可以增加 30%。如果用一年前的旧模型,比如说 GPT-3.5,虽然今年成本已经降低,但是不太容易能找到 TC-PMF (Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度) 的,因为它毕竟是第一代产品,可能无法解决大部分用户想要解决的问题,不太好收费。当然在某些特定领域,例如客服领域,使用成本较低的模型来寻找 TC-PMF 是有可能的,但这样的机会并不多。另一个选择是一开始就收费、就用最好的模型。在海外市场,我们的一款个人 AI 生产力产品就采取了 freemium 模式(基础服务免费提供,而高级服务则需要付费)。虽然免费部分可能比较有限,但这是为了鼓励用户尽快升级到付费的高级服务。这种模式已经帮助零一万物在海外获得了数百万用户,并且用户已经形成了良好的付费习惯。但采取收费模式也就意味着限制了用户量和应用的发展空间,这种模式可能很难做出一个 Super App。一旦选择了收费模式,虽然理论上可以进行调整,但实际上可能会陷入一个以盈利为主要目的的运营模式中。我最期待的是,有一天,Super App 所需的技术会变得既强大又便宜。刚刚举了一个最极端的例子,假设我们要做一个公司来颠覆抖音,可能会考虑采用全 AI 的模式,由 AI 为每个用户定制内容,会更有针对性、更逼真、更有趣等等。理论上很好,但是今天要做成这个绝对不可能,Super App 需要够便宜的 Sora 加 GPT-5,这个产品才能做出来。 GPT-4o 是无法满足这一需求的,且推理成本过高。Sora 跟 GPT-5 才刚出来,成本还降不下来,而这个应用又是一个要累积很多用户量才能开始收费的应用,所以要实现颠覆性应用可能还需要四五年时间,除非有哪家公司能够很快发明更便宜的技术。所以抖音肯定是在这个方向最安全的公司。颠覆其他平台也是一样的,都需要大量的资源和投入。Super App 通常提供免费服务,然后通过其他方式盈利,假设一个 App 的DAU是 5, 000 万,每天这 5, 000 万个用户需要做 100 个 API call,那每一个 API call 又是多少钱?算下来可能几周就破产了。就算用 Yi-Large,也是 100 万个 token 20 块钱(0.02 元 / 千 tokens),明年这个价格可能是两块钱,后年就可能是两毛钱了。所以就要在正确的时候启动正确的应用,当然,跑马圈地还是需要的,只是要先把 TC-PMF 算好。Yi-Large|图片来源:零一万物官网而且跑马圈地比以前更重要了,因为大家都虎视眈眈地想要去颠覆微博,要颠覆小红书,每一个巨头都有创业者在盯着想要颠覆。李开复: 对,但是有一个很大的问题,就是创新者的窘境。哪怕微软这么强大的公司,投了 OpenAI,然后做了 Microsoft Copilot 非常好的产品,但是他还是没有做采取 AI first 的策略,而是在现有产品上添加 AI 功能。一开始微软也是一个创新者,但当它占有了市场,成为垄断者,它也会舍不得自己颠覆自己的市场,这为创业者提供了机会。当然一旦有一个公司做了一个 AI-First Office 以后,那微软就会醒过来,但那时候还是否来得及,就取决于很多因素了。所以窗口期很重要。创业者要在巨头还活在创新者的窘境的时候,把 TC-PMF 想清楚,悄悄地推出产品,然后等到巨头觉醒过来,创业者的产品已经做好了,已经有自己的「护城河」了。无论多么热爱 AI,都必须认识到一件事,没有公司可以仅靠技术优势永远胜出。所以创业者需要创造非技术的竞争壁垒,比如品牌忠诚度,最好是像果粉对苹果的那种忠诚。做了 TC-PMF 以后,创业者可能拥有 6-12 个月的时间窗口来建立非技术的竞争壁垒。如果成功建立了,巨头可能就会后悔莫及,别的竞争对手可能也打不过;如果没有成功,那这次创业可能就不会有好的结果了。张鹏:国内下一个爆款 AI 2.0 应用最可能是在哪个领域里诞生?李开复: 其实每个时代都差不多。在每个新的技术时代初期,用户需求有着相似的模式。在移动互联网时代,大家问我这个问题,我的回答是工具型。在 PC 时代,第一批应用是像 Word 这样的办公软件。同样,在移动互联网时代,工具型应用成了先锋,比如创新工场投资的豌豆荚和很多类似的工具,它们满足了第一批用户,通常也是技术型用户的需求。AI 2.0 技术的应用也正在改变工具型产品的定义。零一万物做的万知和友商做的类似产品能够阅读文档、提供结论、撰写文档、作文、PPT、流程图等,这些其实就是 AI-first 理念下简单版的 Microsoft Office。「万知」使用页面|图片来源:零一万物官网这些工具型产品能帮助白领更高效地完成工作,一方面,因为产出的作品通常需要署名,这些工作者有动力去修正 AI 产生的幻觉或错误,另一方面这些产品能帮白领提高效率,他们愿意付费。当然也有很多其他机会。PC 跟移动互联网时代,工具之后,内容消费成为了下一个增长点,接着游戏娱乐、社交、支付和电商、本地生活相继迎来机遇。可能下一个爆款 AI 2.0 应用大概会按照这个速度,一环扣一环地出现。张鹏:所以 AI 时代也会像移动互联网时代的节奏逐层蔓延,很难跳步吗?李开复: 这里讲得很泛,如果要真的细去说这个 App 行不行,还要考虑的一件事就是 TC-PMF。比如一个社交应用可能今年就能实现 TC-PMF,那就可以立即开始开发,但另一个应用实现不了,就得等两年。创业者要考虑的是做的这个应用,除了要考虑周期,还要更细致地去理解想做的应用,它需要的技术什么时候可以落地?它的成本是否可以承受,然后需要付出多少成本?是用免费的模式还是收费的模式?这些都要想清楚。张鹏:智能硬件结合大模型在 C 端近期有出现一些新的机会吗?李开复:我中长期特别看好这个领域,但是它的风险比做大模型还大。为什么这么说?想象什么是 AI-Native 应用,首先,AI-Native 应用表示它一定是基于大模型;其次,它应该是基于人类语言来做交互,而今天的语音识别,无论是用 OpenAI 的 GPT-4o 还是传统的先识别文字再去执行任务的做法,它必然是语音驱动的。那么未来的发展趋势是从问答式交互转向代理式交互(agent),即 AI 不仅能回答问题,还能执行任务。基于这些条件,我们可以预见到未来需要一个万能的智能助手,它能够随时召唤、随时响应,并且始终在倾听。比如我在工作的时候突然想到太太的生日快到了要帮她订个蛋糕,我可以跟 AI 助手说一声,那等下它就帮我买好了。但手机做不到这样。需要解锁手机、打开应用、输入指令,然后等待结果。这整个过程存在延迟,与直接说话完成任务相比,效率低得多,可能 2 秒钟的时间我就把任务讲完了,但是打开手机等 30 秒钟才能执行这两秒钟任务,这就很不合理。所以,理想的设备应该具备三个功能:随身携带、随时召唤、始终在听。它的呈现形式可能是耳机、眼镜、项链、手环、戒指还有手表,需要很多软件、硬件的修改,让它能一直在听,但是又不会需要很多电量,因为它们的体积很小,无法容纳大电池。要实现这样的设备,面临许多巨大的技术挑战。语音模型需要足够精准(看起来 GPT-4o 已经很接近了),然后需要开发可靠的代理技术,并建立声音识别系统,并且设备要做得够小、够快、够精确,还要有强大的计算量,当然你可以靠旁边的手机来做计算,但是这些都是很麻烦的事情,还有它的电池能做到多小?它能持续用多久?它的价格会是什么价位?Humane 做了一个 AI Pin,很惊艳,但 699 美元的价格对于消费者来说可能过于昂贵,而且它不够完美,第一批这种做 always on、 always listening 的随身穿戴的 AI 大模型、 AI native 设备,可能会因为刚才的原因死在沙滩上,所以一定要慎重。AI Pin 的设计位置位于胸口上方|图片来源:TheVerge而且这种设备要执行任务的话,还需要与淘宝、美团等平台合作,但这可能会遇到品牌和用户数据方面的阻力。这当中有很多需要磨合的地方,滚动雪球需要很长的时间。但是它最后一定会起来的,这个事情也有它的 TC-PMF,那就要大家自己去找,但是 TC-PMF 肯定不会今年出来,今年会死掉一批,它们死掉我们就一个个研究怎么去避免他们的这些问题,然后总有一天能有好的产品出来。张鹏:前段时间,就短短的几个小时之内,各家大模型降价,大模型 API 调用商业模式忽然就无限接近不要钱了。当然后来我们又看到了一些信息,说不是完全免费的,但在那一瞬间给人的心理冲击也是很强的。在你看来,第一,为什么会有这样的事?第二,这件事会带来什么样的影响?第三就是到底现在做一个好的大模型的 API 还有没有价值?李开复:首先推理成本下降是理所当然的,它是大模型向前发展的最大动力。它要比摩尔定律下降得快很多,过去一年 GPT 和同类模型就降价了 10 倍左右。所以以后每年降 10 倍,它必然会推动 AI-first 的应用革命,因为今天不是应用做不出来,只是好的模型太贵,便宜的模型不够好。因此 API 的价格下降是必然的,大家都应该乐见于此的。这是第一点,这个在美国、中国都是一样的。然后,降价是理所当然的,是一定应该发生的。但是为什么降价?可能有几个不同的理由。第一种是推理成本真的下降了,那就要把便宜的模型去让更多的使用者应用,这样才能找到 TC-PMF,才能让伟大的 AI-first App 跑出来。第二种是用过去烧钱的心态去打价格战。不少大模型公司认为自己能够融到更多的资金,或者作为大公司,能够承受更大的亏损,因此会持续降低价格,直到竞争对手无法继续承受。这种降价策略并没有真正帮助市场或用户,只是一种短期内抢占市场份额的手段。第三种降价是将那些性能不佳或者实际上没有太大用途的模型价格降到极低,甚至免费,而对于真正有价值的模型,降价幅度并不大。这种做法有点类似于玩弄标题,吸引用户的注意力,但实际上并没有提供具有竞争力的高质量产品。我也讲一下零一万物的措施,因为是 newcomer,所以对零一万物来说没有什么降了价就会赔多少钱的问题,现在 API 业务还在发力阶段。现在模型的能力在不断增强,定价应该定在不要赔钱的价位,同时要能够促进模型的广泛应用,两者的平衡要自己来定。顶尖的模型应有高的价钱,但是高到合理就好;一般的模型,不赔钱就好。大概应该是这个原则。用 GPT-4 Turbo、 GPT-3.5 Turbo 来举例,两个产品同时推出,而他们的价钱差了 20 倍,所以很明显,不是所有的模型都是一样的。所有用 GPT-4 Turbo 的人都是傻子吗?不是,是因为 GPT-3.5 Turbo 不满足他的需求。所以上次我在宣布 Yi-Large 模型的时候说过,现在追求一个好的应用已经不只是找到 PMF 就可以了。PMF 适合移动互联网时代,跟技术的发展无关,跟成本也基本无关,它假设的技术能力是基本静态的,然后假设的成本也是基本静态或者缓慢下降的。今天技术的进步速度非常快,每年模型的性能可以提升相当于 100 分的 IQ(智商)。今年的技术水平完全没法跟明年比,明年跟后年又是不可相比的。所以在做产品的时候,要考虑到技术的发展轨迹,考虑推理成本每年可能降低 10 倍的情况。大模型时代,做产品面临的挑战最大,因为同时需要了解市场、产品、用户,以及技术的进展。要想 6 个月以后有什么今年没有的;或者今年已经出现,6 个月以后会变得厉害多少?哪一家会最厉害?然后在还没有做 App 的时候就要预测,假设做 App 要 6 个月,那么就要预测 6 个月以后技术到什么阶段,然后根据技术到时的水平和价格去做应用。这个就是 TC-PMF,就是 technology costs、 product market fit 四件事情要同时来考量。回到价格战的问题,为什么今天没有特别多特别伟大的应用?除了 ChatGPT 带来了一个世界级革命之外,怎么出现没有二三十个甚至三五个特别强的 App?就是因为 ChatGPT 用了全世界最强的模型,才达到这样的颠覆水平,两个月就有 1 亿用户。别的 App 公司还没有这么强的模型,或者他想用 GPT-4o,也可以做,但是 GPT-4o 自己内部使用和作为开发者去付费完全两回事,开发者是算不过这笔账的。伟大的应用肯定会出来。但是他们有一批需要 GPT-4 级别的能力,然后未来还会有一批需要 GPT-5 级别的,未来还有一批会需要 GPT-6 级别的,这些应用它每个都会有一个收费能力的问题,收费能力强的可以早点用,收费能力差的就比较麻烦了。最后说回价格战,零一万物是不参加价格战的。零一万物定价的时候就已经考虑到这些因素。Yi-Large 是国际权威的 LMSYS 盲测评比中国排名第一的大模型,但收费是其他所有进入这个榜单的前 20 名的模型里面最低的,零一万物比另外两家进入榜单的模型都低,比一家低两倍,比另外一家低 5 倍,而且在榜单里零一万物在国产模型中居第一。张鹏:所谓的统一多模态这一波进步,它到底意味着什么,可能解锁一些什么样新的内容?为什么国内大模型公司都要往这走?零一万物从去年开始着手统一多模态模型的设计和小规模训练,目前正逐步扩大规模,并对未来的进展持乐观态度。如果语言是人类知识的浓缩和核心,多模态就是一种感知,包括大家看到的、听到的。人类智慧是语言、知识和感知三者结合的产物,AI 的发展同样需要这三者的融合。而且我们也应该相信,如果一个有视力的人跟一个没有视力的人,他们哪怕都读了同样的内容、同样的速度、同样的页面,能看的可能会学得更多、更快,因为他们会参考各种看到的东西,把视觉的也结合进去,所以 unified training(统一训练)完全符合人类对一切知识获取的过程。一个 Unified Model(全模态模型)最基本的应该是,当各个模态被整合在一起时,每一个模态都能够比未统一的情况下表现得更好。我同意 GPT-4o 是一个惊艳的演示,但在其背后仍存在两个问题。首先它应该不是一个终极模型。对于 OpenAI 来说,GPT-4o 只是一个小的发布,真正的大招可能要等到 GPT-5 出来;其次,尽管观看那几个人的聊天演示时,他们都聊得很自然,但仔细深入了解后会发现仍存在一些问题:演示者的表现非常谨慎,每个人都清楚自己要讲的内容。GPT-4o 的鲁棒性(模型在面对各种异常情况或不完美的输入时,仍能保持稳定和可靠的性能)以及技术投入实际应用的时候,是否仍有展示版如此完美还有待商榷。第二个问题是,尽管 NLP(自然语言处理)的研究已有数十年历史,但直到类似 ChatGPT 这样的产品出现,才真正实现了突破。多模态的 Killer App 还没有出现,因为做科研的人可能不是最有想象力的,做的研究领域相对固定,基本就在语音识别、人脸识别、搜索引擎这些领域,不过这也很正常,因为做科研的人本来就不是 PM(产品经理)。但是在今天没有模型+ PM 的存在,哪怕是 GPT-4o 这样的多模态产品在实际应用中也可能显得比较牵强。我认为 OpenAI 的 GPT-4o 在多模态领域已经展现出业界领先的产品管理(PM)能力,但我并不认为它已经实现了完整的 TC-PMF,可能还需要再推进一段时间看看。我这里要鼓励做多模态的科研人员,多跟 PM 在一起聊一聊,看能碰撞出什么样的火花。要不然的话 GPT-4o 这么好的产品它最后不见得会达到跟 ChatGPT 初次面世时给世界一样的震撼。张鹏:它是 product demo fit(产品演示与目标用户需求或市场定位之间的匹配),Demo 展示得非常好。李开复:也可能我低估了它。1993 年,我在苹果公司工作时,曾在美国电视节目《Good Morning America 上演示 Mac 电脑的功能。演示时,Mac 上面的一个 demo 看起来非常智能,能够安排会议、编程 DCR,甚至还可以帮我填写支票。但是之后 demo 做成产品又花了很多时间,然后也并没有达到 PMF。OpenAI 的 GPT-4o 肯定比当年 Mac 上面的 demo 要好很多,但是也未必真找到了 PMF。但是这就需要大家多努力,产品经理需要告诉多模态研究团队什么是产品市场匹配,用户需要什么,以及怎么优化产品才能满足这些需求,这两类团队要互相协作。也有一种可能,PMF 有时可能是被偶然找到的。ChatGPT 可能就是这样,它开放了 API 让大家试用,这样可能会导致一些试错,也是可贵的探索。张鹏:直播间有用户提问说现在 AI 产品的获客成本远高于 AI 推理成本,关于这一点怎么看?这是不是也是属于 PMF 没做到的一种体现,所以获客成本这么高?还是说流量都在巨头手里,没办法?李开复: 推理成本低,会不会是用的模型不够好?好的模型是挺贵的。李开复: 对于免费产品或者需要先获取用户才能收费的产品而言,面临的挑战更大。一般来说,这种免费产品所需的技术和成本都非常高。如果获客成本还高于推理成本,那么肯定会陷入困境,无法持续发展。张鹏:再问问技术的问题,跑分是不是可以定向优化的?这种定向优化对于模型未来在广泛运用的过程中,是不是有最大的帮助?今天的模型跑分,到底该怎么理解?什么时候可能跑分就不重要了,什么时候依旧是重要的,能不能帮我们定义一下?李开复: 跑分就像考试分数,它能够衡量个人在一些客观指标上的能力,但是大家都知道有些人光看背书就能拿到高分。一个模型如果不报任何的分数,大家会有点怀疑,但如果报了分数以后,当训练在不断增加更多的数据,然后不断去调整,再去跑分,有时候会发现模型不进步,但这种情况是模型真的不进步了,还是衡量标准落后了,不好说。比如说最常用的 MMLU 权威评测集(用于衡量多任务语言理解能力),基本就是考一大堆问题,类似考 GRE,那它是不是真的有足够多的衡量模型的细节,有待商榷。所以分还是会继续跑,但是明显它的重要性会下降。现在这个阶段,一个第三方的、足够多的真人来根据自身体感盲测,机器来打分的擂台应该成为最重要的擂台。但今天没有足够多的应用,所以大家需要用这种客观的、MMLU 的模式来跑分。下一个阶段,就是产品足够普及了,靠用户靠使用投票,大家就不会在意太多细节了。张鹏:跑分这个阶段还是很需要,但我们知道它最终是要落到产品里和应用上的。李开复: 不要忘了中间的擂台阶段其实也是很重要的,要不然一个大公司,一个开发者怎么选择 API?现在国内可能还不一样,在美国的话不跑个分,根本无法入门。跑了分以后,大家才会判断值不值得关注,那是另外一回事,但是跑分是一个门票,没有的话就不要进来,但是有的话也未必人家会完全信,因为自己的数据,自己的评分可能会有自吹自擂的成分。比如一个开发者、创业者和大公司要选择用哪个模型做底座,或者用哪家的 API 来做应用的底座,当第一次做这个选择的时候,基本就要比两件事,一个就是谁在擂台上表现最好,或者挑几家最好的,然后自己再做内测,然后做 AB test,这是一个标准做法。慢慢大家都会搞清楚,谁家是最好的开源,最好的闭源,最好的 To B,最好的 To C,最好的英文、最好的中文…… 大家搞清楚了以后,擂台赛就会结束。现在还在一个这个混战阶段,所以大家必须靠擂台,要不然的话世界上的模型太多了。以后整个全世界 100 家大模型公司,可能只剩几家。张鹏:这种纯混战,循环打擂到逐渐收敛到可能剩下一些屈指可数的公司,这个进程可能需要多长时间?淘汰不代表他们会关门,淘汰表示他们可能会说放弃一些业务,比如说以后就专注行业模型了,或者是专注于其他。但最后,顶级的可能真的就只会剩下 10 家以下了。李开复: 对,有些创业公司就融不到钱了,如果你是个创业公司,就剩比如说 1 亿美金了,然后一个月要烧 2000 万美金,是五个月把它烧完赌一赌,最后烧一个模型打败 Google,还是用三年拿这 1 亿美金打造一个 App?这个不用我多说了。张鹏:大家还记着你作为创业导师帮了很多当年的年轻人,现在人们又来求助了,这个时代怎么办?大家想创业但融资又这么困难,怎么办?李开复: 假设要做 AI 领域的话,你要相信技术每一年会增加 100 个 IQ points,每一年成本会降低 10 倍,那么你只要去仔细的钻研这个领域,我相信你会找到一个足够好的应用。而且创业不一定要把目标定成「我也要做一个字节跳动」,当然每个人都想做个字节跳动,我也想做,但很难。可能需要超级强的能力,加上一定的运气。张鹏:张一鸣做字节跳动的时候也没想过能做成今天的字节跳动。李开复: 对。其实 AI 2.0 时代的来临,会有很多赚钱但不上市的公司出现。比如说你如果想创业,热爱大模型,并想用大模型和技术去帮一些公司解决问题,就可以把已有的大模型应用于帮公司解决问题上。因为 AI 绝对可以解决很多问题,一定可以收费,可能前三个月就能实现盈利了。虽然这种模式可能不具备可扩展性,不足以发展成为上市公司,但它仍然是一种有效的创业方式。一些创业公司起初可以通过提供服务收费,然后逐步演变为拥有自己产品的公司。现在融资是难,但创业仍有多种可能。不是每次创业都能做一家伟大的公司,或者都需要做一个上市的公司。去做一个服务型的公司,做一个提供解决方案的公司,做一个系统集成的公司,也都有价值。而且你一旦开始入局了,等以后环境好了,都还有机会再去做各种转型,发掘出第二、第三条增长曲线。最后一个建议,无论是寻求融资还是自行创业,其实面临的最大的灵魂拷问就是现金流。无论如何,都必须确保现金流能够维持公司运营,直至实现盈利或者获得融资,或者找到下一个成长点,这一点至关重要。张鹏:这次作为一个创业者,一年多以来的创业历程是什么样的?有哪些你印象比较深刻的,或者你认为可以称之为里程碑的这样的节点?李开复: 这次创业是 all in 全身投入。我这次创业的优势是在人脉方面。我召集了很多旧部或者投资过的公司特别牛的人,每个很牛的公司、很牛的部门、很牛的人来一个,他们各自又会带人脉过来,是一个超级快速的积累过程。让我振奋的地方是「best of the best」。做搜索的来自搜索公司,做模型的来自模型公司,做 infrastructure(基础设施)来自 infrastructure 公司,做应用的来自应用公司。这些人凑在一起每天都充满激情,非常振奋,当然这四拨人各自的文化背景、管理方式等等都不一样,所以能把他们融合在一起,然后能够在出问题的时候预测、判断、修复,然后他们都愿意基本接受我的领导,这是让我最自豪的。还有一点很特殊,就是我刚创立这个公司的时候就知道时间窗口非常短,零一万物又是最晚做的一家大模型公司。所以要能够追上这个时间,零一万物需要搜索、模型、infrastructure 以及应用四个路径同时做。可能有人会质疑,没有模型,怎么做应用?没有基础设施,怎么做模型?我认为四个方向需要同时进行,然后再将它们整合起来。因此,没有基础设施,我们就先使用开源的解决方案,没有模型,我们就先使用 GPT,然后等到有了更好的解决方案再将其替换过来。所以零一万物从 0 到 1 的过程可能是少见的一边飞飞机,一边在换零件的过程。尽管过程中也有不少担忧,但走得还是蛮顺利。现在,零一万物的基础设施成本比其他公司便宜了 2 到 3 倍,模型现在达到了世界第一梯队水平,而且应用今年也有望获得超过上亿元的收入。张鹏:在大模型时代要做一个 AI-native 的公司,本身对人、对组织内部的管理也会带来很多变化,你过往投过那么多创业者,也在微软这样庞大的公司里待过,今天又要做一个创业公司,进入到 AI-native 的创业,应该有很多感受可以分享?李开复:零一万物超越了很多传统 VC 的投资原则,如果 30 年前的我拿着这个创业计划在一年前来敲门,很可能会被拒之门外。因为传统的创业理念强调专注,要先验证一个想法,然后不断迭代。但是这次零一万物不得不打破这种传统方式。为什么?首先,这个领域的发展速度太快了。过去一年新技术迭代速度超越人想象,模型进步了多少,成本下降了多少。这已经不是移动互联网时代的速度了,不快就没有希望。第二,与其说它是一个 AGI play(当然它也是),但它更是一个 Ecosystem play。今天零一万物想做的不是一个大模型公司,而是要做新一代的生态系统里面的系统型的、完整的、五脏俱全的公司。最接近我的想法的可能是 PC 时代的微软。当时,微软做 Windows kernel,相当于今天的大模型;做 Windows,相当于今天的 API 和平台;做 Office,相当于今天的应用;然后做基础设施,相当于今天的 Azure Cloud。这 4 件事情都为什么都要做?因为它们彼此是超级互补的。基础设施和模型必须一起做,才能用最少的成本训练出模型,才能有推理成本最低的模型。模型和应用也必须一起做,因为它们实际上是一体的。而且,当你用自己的应用调优了模型之后,这么好的模型自己一家用太可惜了,也得给别人用。从商业的角度来说,每个都是有挣钱的机会的。基础设施帮零一万物节省了很多成本,而其他三个都有潜在的超级高收入的机会。没有理由该赚的钱不去赚。就像微软当时赚了 Windows 钱还想赚 office,赚了 office 钱之后还想再做 MSN、再做 Xbox,再做 Azure,所以这是一个系统性的扩张,有那么多商机,少拿一个就亏了,然后就是这每一个的技术都是互补的,你 1 + 1 + 1 + 1 远远大于 4,可能等于 10。这么做当然是超级难的,一个创业公司就上这么高的复杂度。但是零一万物要做一个伟大的事情,就像要登陆月球不是因为它简单,是因为它难。我们要挑战 AGI 不是因为它简单,是因为它难。那四个部门的组织架构难吗?其实是很难的。像雅虎这样的公司,它的内容和技术部门就一直不能和平共处,但是微软就可以,微软大概有可能十种不同的部门,他们都能够和谐共处,彼此互补。感谢我今天四位下属的信任,即便他们四个人,每个人都可以出去融 5, 000 万美金,但是他们选择跟着我一起做的更伟大的事情,有这样一个应该是人类有史以来最好的创业机会,我怎么可能放弃?张鹏:你能招来的都是像你说的可以独当一面的成为优秀创业者的人,你们合在一起,那这个目标怎么设定?大家会有个蓝图吗?或者说他们所做的事情最终要怎么聚在一起?都说这一代的 AI 公司组织架构一定会调整,但是调整完了怎么能够 work 起来?李开复: 零一万物在发展过程中确实遇到了一些挑战。纯粹依靠 OKR 和 KPI 来管理会出现一些问题。比如只是告诉产品团队今年要实现 1.5 亿的收入,然后告诉模型团队要打入世界第一梯队,然后就让他们一起工作,这样是行不通的。那应该怎么做?做应用的人应该要朝着用户、收入做;做模型要朝着打榜,朝着模型的表现做。但后来我们发现,虽然两个团队各自都达到了 OKR,但是公司的总目标——打造一个伟大的产品并带动最强的模型——并没有实现。我们发现,虽然模型很强,应用也不错,但是两者结合在一起并没有实现 1+1=3 的效果。这个时候零一万物就采取了一个很多公司都采取过的机制,内部称之为 war room(作战室)。零一万物明确了接下来的一个目标,并确定了一个假想敌,我们一定要超越他,打败他,然后倒推两个团队应该做什么。第一次 war room 成功之后,之后马上再开第二次 war room,这个阶段会面临一些其他的目标,比如说模型跟推理怎么结合?以及如何降低推理成本而不降低模型的能力。这是两个团队需要共同努力解决的问题。这两次 war room 之后我认识到几点,首先,这几个团队按照传统的组织架构,基本就很多人彼此都不认识,但其实是应该在一起工作的;其次,过去的 OKR、KPI 等方法论其实存在问题,这时候我们就开始考虑怎么样去优化组织架构,怎么样去优化对齐模式……这些事情推进下来,基本上团队里的人都互相认识了,OKR 也得到了合适地对齐,组织架构也做了一些调整。接下来的合作,我就比较放心了。张鹏:都说 new blood(新人)他们其实是在现在这个 AI 时代里更有优势的,那开复老师你也是从之前的 AI 时代过来的,你还要作为公司的创始人,你怎么找自己在公司里的位置呢?李开复: 我这几年真的跌破眼镜,对 AI 会有这样的发展感到不可思议,当时学的所有的实际知识放到当下已经不太匹配,所以我及时清零过往陈旧的知识体系,但保留了数据和算法为王的做法。我也看到新的大模型的威力,它不但推动创业,它也让我发现自己过去是多么的无知,所以要拥抱新技术,要相信年轻人。补充一点,还有一种特别稀缺的人才,就是懂模型的 PM。PM 如果不懂模型,各种方法论基本就没有用武之力。张鹏:62 岁创业,凭啥让大家能有信心,这个事能做成?李开复: 我决定创业做零一万物有两个主要原因。第一个是纯粹技术的理想主义,第二个是做一个伟大的企业。我之前申请卡内基梅隆大学博士时,在申请信的最后一段写道:「AI 是对人类学习历程的阐释,对人类思维过程的量化,对人类行为的澄清,以及对人类智能的理解……AI 是人类认识并理解自己的最后一里路,我希望加入到这个全新绽放、充满前景的未来科学领域。」在过去的 40 多年里,我见证了人工智能领域的跌宕起伏,但始终没有看到 AGI 梦想接近实现。然而,当我看到 ChatGPT 时,我意识到它的出现比我预期的要快。我意识到,我不能错过这个机会,我必须参与其中。参与的方式可以是投资,可以是自己做,那就到了第二个问题,为什么要自己做?因为我想要创建一个伟大的企业。我曾经在微软工作,深知微软之所以伟大的原因。微软具有出色的战略思维和能力,能够容纳不同的文化和管理方式,使公司整体能力超过单个部分的总和。微软之所以强大,主要在于其战略思维的卓越和对不同文化与管理方式的包容。这使得公司能够将各个部门协同合作,实现 1 + 1 + 1 + 1 = 10 的效果。此外,微软擅长在新技术兴起时构建生态系统,从底层技术到平台层、API 层再到应用层,每个环节都能创造成功的产品。它能够将这些产品转化为像自来水一样的基础设施,为用户提供服务。我清楚地看到微软是如何将多个产品整合成 Office 套件,以及如何将 Office 中的技术应用到 Windows 平台上,从而增强了其竞争力。当然,微软之所以能成为服务器领域的巨头,是因为它在云计算兴起之前已经站稳了脚跟。它的每一步都有着清晰的方法论,而我也对此了如指掌。但我曾认为自己无法创造出如此伟大的公司,毕竟即使是像谷歌这样的公司也无法与微软相提并论。谷歌在搜索和安卓方面做得很好,但在开发者生态方面却相对一般。尽管它的应用数量很多,但没有像 TikTok、微信、Instagram 或 Uber 这样具有全球影响力的应用。我认为谷歌缺乏承载多种文化的基因和跨领域思维。如今情况变了。长话短说,我相信我在微软时期所学到的一切是打造下一个潜在万亿美元市值的公司所需的能力。尽管我年纪有点大,也许也不是最适合的产品经理,但我可以利用我学到的方法论和人脉,快速组建一个 200 多人的团队,创造奇迹。张鹏:其实大家也知道开复老师经历过重病的考验,那现在创业,家人和朋友有没有劝阻过你?李开复:工作时间确实很长,但这并不是我一生中最疯狂的时期。压力可能是相当大的,但我一直以来都有很强的抗压能力。我还是会坚持每天保持 6 个半到 7 个小时的睡眠,尽量保持健康的饮食,并进行一些适量的运动,家人也是一定要陪的。在这个前提下,每周投入七八十个小时专注于工作,家人能够理解,他们可能也知道拿我没办法,因为这是我的梦想。我不仅热爱这份工作,也喜欢与人交流的机会,让更多人了解 AI 2.0 价值。即使我见了 100 个投资人,最终只有 5 家愿意投资零一万物,但另外 95 家,我希望至少能让他们意识到 AI 2.0 的伟大。也许我去向 100 家企业推销零一万物产品,最终只有两家愿意购买,但我希望那剩下的 98 家有一天也能尽早使用人工智能。这些时间都不是徒劳无功的,而是都在创造价值。有些时间为我和公司创造了价值,大部分时间又为整个生态系统创造了价值。李开复: 对。我实际上是公司最大的融资者、销售和猎头,同时还需要打造公司的文化和方向,以及制定战略。过去的一年里,我了解到年轻创业者有他们的优势,他们可能更加与时俱进,懂得产品和技术。但我认为每个人都有自己的优势。如果你见过我团队中的任何人,或者认识我、知道我投资我的人,你就会知道我的精力不输给任何年轻人,我的热情和投入甚至可能会超过他们,而且零一万物每个人都有各自的长处,以后会看到我们的成果的。张鹏:所以你不认为年龄是问题,你也不认为自己有什么劣势。李开复:很多人是幻想,如果我给一个 62 岁的人工作,他还管技术,我会有多痛苦或者多失败?但如果你认识我公司的人就会知道,零一万物几乎每两周就有一次全员大会,在全员大会上,我会分享所有的进展,坦率地沟通零一万物各个方面的情况,包括产品、技术和融资的情况,无论是好是坏。我用的是一种非常透明、年轻化的管理风格。很多比我年轻得多的创业者可能更像老板,而我可能是最不像老板的老板。例如,我刚才提到零一万物团队有一个 war room,每天 1 点 war room 开会,我也会去,我会为大家买最酷的饮料和点心。但我不会站在那里为大家加油,或者发表演讲,我只是专心地倾听,然后询问问题,这样我就可以理解公司发生的一切。所以也许有些人想象我会因为年资很深而固守成规,但实际上不是这样的。李开复:没错,最关键的是能不能做出好的产品和模型。优秀的产品它会证明一切。不管我是不是一个年轻的创业者,如果公司有各种缺陷,如管理不善、招聘错误、技术方向错误等等,那就无法成功。但事实上,零一万物已经做出了中国最优秀的模型,有上亿收入的 consumer APP,明年零一万物会有一份更好的成绩单。本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653043662&idx=1&sn=228750f2d996dc59f801bd2468091741&chksm=7e5746784920cf6e92b57942b026831c341e1e933692f62e13f780b03b1ce558d8f3ffdafe88&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh