2023 年 11 月底,视频生成产品 Pika 发布 1.0 版本,同时宣布了 5500 万美元的融资消息。完成融资之后,Pika Labs 这家公司的人员规模扩展了一倍,从 4 个人,变成了 8 个人。近期,极客公园创始人张鹏与 Pika 创始人 Demi Guo 在硅谷进行了一次深度交流,期间谈到了视频生成的技术现状,Demi 本人对 AI 产品、应用创业的思考,Pika 团队的优势和壁垒所在,以及她对 AI 初创团队的组织思考等等。Pika CEO Demi Guo以下是对谈部分精华内容,经 Founder Park 编辑。张鹏:23 年 6 月份我来硅谷的时候觉得硅谷 VC 对于生成式视频好像没有多大热情,但是过了一个季度,大家好像都开始关注这事儿。Demi:对,6 月那会我们打算融最后一轮的时候,很多人都不知道这方面是什么样的情况。张鹏:那你觉得是哪些因素,让大家开始形成共识,让很多头部 VC 都开始关注这件事情?Demi:我觉得有很多因素。一个是视频生成的进步,另外的的确确有需求的因素在里面。之前我们刚开始的时候,有很多人对标我们,然后整个行业也慢慢成熟。之前可能很多人觉得这条赛道火不了,一些公司做出来后大家又发现还是有些希望的。张鹏:确实,你们这几个优秀玩家的涌出拓宽了这条赛道。那你觉得目前生成式视频目前技术核心的卡点在什么地方?Demi:现在的卡点,从模型上说的话就是视频模型的稳定性、模型的高清程度、视频长度以及内容的意义等等这些。张鹏:那这些问题要怎么去优化?比如像语言模型会关注数据的问题,视频模型要突破的话,核心也是在数据吗?还是一些别的什么地方?Demi:我觉得是比较综合的事情,甚至可能比语言模型更难,因为视频模型是一个更加 open 的东西。现在语言模型大家大概知道优化的方向是 scale,那视频模型除了 scale 的问题,还有数据的问题、模型结构之类的问题。张鹏:就是说视频模型里的不确定性和 open 的程度比语言模型多得多?所以现在视频模型的优化大家也可能会选择不同的创新方向,结构或者架构上的创新,而不是在一个确定性的方向上大力出奇迹。Demi:现在我觉得很大的问题不仅是算力问题,更多可能是数据,或者说方法上的问题,现在一些方法本身就有瓶颈。比如现在有的生成方法就无法生成长一点的视频,这是一个结构问题。张鹏:对,就看起来今天大家在应用上的一些点,背后可能涉及到模型侧得做一些新的调整。比如视频长度的问题,运镜角度的调整,以及审美风格的多样性,你比较关心的是哪几个能力?Demi:其实各方面我们都有关注,而且不同阶段我们对问题关注的优先程度也不一样。我觉得现在视频最大的问题是它的稳定性问题,就是说如何让每个人,不管学没学过 prompt 工程的人都能一次性生成很棒的视频,这是 first thing to achieve 的。同时审美也是在我们的 top list 中的事情,我们搞数据的时候会有很多审美的元素在里面。至于时间长度这些,随着模型的提高,都会有提高。张鹏:所以从你的角度看,虽然各个维度都有一些点是可以修炼的,但最重要的还是像 ChatGPT 那样,要达成一种每个人用完都想再接着用的效果,这是你们首要要达成的。Demi:是的,核心点就是模型 improve quality,把 quality 提高后,很多问题也会迎刃而解。张鹏:我们最近跟一些大模型领域的创业者聊,他们说现在大语言模型都是三个问题的叠加,一个是通用性,一个是稳定性(质量),还有一个是经济性,这三个东西搁在一起,在某个特定的场景中很好地 match,就能产生价值。但现在的问题是,这三个同时要做得很好,就比较难。Demi:我觉得通用性和质量有些情况下可以是一致的,有些情况是不一致的,就是要看怎么去提高质量。因为提高质量有很多种方式,比如专门训练某一方面,前期提高质量的东西。但还有一种方法是你把模型提高了,那所有都提高了。Demi:是的。因为通用性,整个模型的提高是一个更长期的事情。提高质量,提高整个模型更加底层的东西的 话,很多时候都需要通用数据,这么多数据的训练从而提高了模型在更大领域的使用。Demi:对,通用性是基石,这个底打的足够厚足够高,单个领域往上增加特定功能的时候上限才会更高。张鹏:刚才说的那个点我理解就是,要信 AGI,真正地信仰 AGI,相信它解放的是长期的终极能力。但从产品角度看确实有另一种方法,在今天这个节点把它凑成一种最合算,最有效率的方式,但随着技术进步,这种方式的优势会脆弱得被马上覆盖掉。是不是可以这样理解?Demi:不同公司的目标侧重点会有所不同,OpenAI 就完全目标 AGI,而更多的产品公司,这种专门做一些垂直应用的,更倾向于找到长期和短期目标之间的平衡点。因为不可能说,因为一些短期的东西最终会被覆盖掉就不做,也不可能只做长期的地基,因为这没法赚钱。所以我们希望的是做一些特定领域质量上提升花费比较小的一些东西,然后让它 push 产品。产生价值的同时搭建自己的地基。张鹏:理解,很多我聊过的创业者都认为如果没有一个持续有足够力量成长的引擎,在今天去 hold 一个当下时代断面/技术断面的产品没什么生命力,可能很快就会被覆盖,这个是我认为这个时代做产品要考虑的一个基础。这跟互联网时代那种因为没什么可以持续演进的技术,谁占着一块地就是一块地,占一个用户心智就是一个平台的玩法完全不同。AGI 时代做产品最大的一个变化就是引擎变得超级重要,这个引擎不仅现在要能用,还得能持续进化。Demi:对,我个人的感觉是,只要手里有引擎,实在不行还可以退到产品,这是有引擎的 back-up 选择。张鹏:所以一上来就做非常短期的、在一瞬间好像最有竞争力的产品,反而可能是最脆弱的。Demi:其实做产品的,一定会依赖大模型。现在所谓的开源模型也不是真正的开源,它们只是开放权重,用户没有太多能力深度修改和调整。如果有地基,你会有更多的产品。你对模型有更多的理解力和调控权力,你就可以通过改变模型适应的产品改变模型能力。张鹏:这就是生命力。现在技术处于一个涨潮期,不能用赶海的思维想着能捡到宝。因为它不断地在往上运动,没法刻舟求剑地做一个只是外加引擎的产品,这种过度强调外加应用的公司寿命可能非常短。我接触过一些中国大模型创业者,在国内还缺大模型的时候,就跳出来以做最好的国产模型为阵地,先保证拿到足够多的钱。然后其实心里有个保持 18 个月生命力的安全线,一边不断把技术的水涨上去,同时不断做比较轻的应用尝试。他们的逻辑是技术越成熟,做出的产品成功率越高。同时只要有模型作为「引擎」能力,永远有机会在依靠模型不能继续融钱的时候,去做可以变现的产品,而且那时候也比其他没有「引擎」的应用公司更有优势。Demi:我觉得和他们比,我们其实更偏产品,而且我们觉得技术和产品是一样重要的。张鹏:我还想了解一下,在生成视频这么大一块领域里,你们的产品是如何定义问题和功能边界的?Demi:分两块。一块是技术层面,一块是产品层面。技术层面来说,基于大模型,一定会有扩展视频这种应用。产品层面来说,为什么会做这个选择,实现这个功能,就是基于消费者产品 hard to predict 的特性,不断去了解行业,获得信息,多次尝试,理解和感受用户需求。用户使用产品,使用模版本身还是处于比较早的阶段,我觉得我们没有必要去定义这个产品,能做的就是通过用户反馈慢慢思考探索。张鹏:很有意思,为什么我要提这个呢,因为 2010 世代的互联网产品经理一上来就要精准定义一个产品,他们会丈量技术实现能力,计算成本,然后聚焦到一个点。而你刚才说的就是要留白,要释放开来,让用户应用的过程中留给我思考的空间。上一代的产品经理是要把所有设计权把握在自己手中,让用户顺着我的思路印证设计的合理性。这是两条非常不同的思路。Demi:我觉得还有很大一部分原因是 AI 本身,AI 是 enable 了一个新的产品,一个技术,一个成本,它能做很多事情,这和互联网不一样。AI 主打一个模型能做很多事情,以前为什么说产品线一定要精准,因为那个时候做三个功能,就有三份成本,但现在对我们来讲,三份功能是一份成本,公开一个 feature 还是三个 feature,对我们来说不增加我们的技术和人力成本,只是让用户的实际使用体验发生了变化,不同的引导用户的方式。就算我们做十个 feature,对我们来讲没有额外的成本,不需要提前去规划。但是如果说我们今天要不要做一个 Avatar 或者音频的功能,这个可能需要提前考虑,因为需要新的人力成本。如果只是说视频是编辑还是生成,对我们来讲是一样的成本。张鹏:所以基本上是这上面所有大家可用的功能,不管是在操控性上,还是在时间等维度上,本质上都是因为你的模型能力可以覆盖这些事,并没有因为特定的 feature,而加入额外的人力,那样其实不合算。所以其实我们聊到了一个很重要的点:什么是 AGI 时代的产品思维?我觉得这个思维可能跟移动互联网时候有非常根本的变化,你得以技术为核心,而不是抱住一个需求。Demi:我觉得现在很多人还没有转换思维,AGI 时代产品需求的精准程度和以前是不一样的。很多人会问我,我们产品的用户是谁,用户画像是怎样的,有什么样的 use case,这些都还是互联网时代的那种玩法。AI 主打的通用性,虽然还是需要预测一些需求轮廓,但内部更精确的需求,它是可以由用户来定义的。未来 AGI 时代产品需求还是会有,但这个产品需求跟之前的精准程度是不一样的。以前是非常非常精准,但现在的精准是你要不要编辑,以及可能是你要给谁编辑,你要编辑哪个用户的台词。但我觉得 AI 时代,可能它的用户群体和 use case 不像以前那么精准的。因为 AI 主打通用性。如果今天要做视频编辑的功能,也是需要有额外成本,需要去预测这个需求,但这个编辑的功能是可以服务各种各样的用户,这个精准程度是不一样的。张鹏:我听到更多探讨,都是现在大家很焦虑急于找到今天可用的模型能力和明确的需求上,能不能好好对齐出一个能够正向产生价值的服务。你为什么没有这个焦虑?Demi:我觉得我们跟传统的产品公司很不一样,很多时候我并没有觉得我们需要那么快去找到产品的用户群体和精准需求,因为产品的一个交互界面,可以给很多人用。但我觉得我们跟很多大模型公司也不一样,他们都觉得自己是 apply research lab,我们觉得还是需要预测产品需求的。我觉得用户界面设计是有价值的,但可能跟以前的需求不一样,我们要做的是去发明新的用户界面,能够更加通用和好用。我不相信未来的视频大模型,会是一个对话界面,但我又不相信未来的视频大模型带来的产品会是一个传统的视频编辑器,会有一个新的界面,但我不相信这个新的交互界面会是我们或者 Runway 的。我们的交互界面只花了一个月时间,是基于 AI 功能性的,每一个按钮代表 AI 能做的事,其实没有很多设计的成分。当 AI 生成视频足够强大的时候,一定会有一个新的 interface,甚至会去推动技术的发展。张鹏:所以你本质上是要改变创作的方式,落到对应的产品,终极来讲是改变交互。如果要这样的话,确实需要对产品做预判,观察用户数据和习惯,全靠自己猜是猜不出来的。Demi:我觉得产品分两种,一种就是遵照用户需求,按照 PMF 打造的产品。另一种是发明式的产品,就像 iPhone 一样,我不是要解决某个需求某个点,而是我觉得未来产品应该长什么样,这也是我们真正想做的。我们也需要有产品预判,只是这种思维方式不是传统的 PMF,它需要一个全新的 interface。张鹏:视频产品需要非常强烈的审美元素,这件事怎么在模型中 work 的?审美的数据从哪来?在模型中如何成为优势?Demi:我觉得这个分两个阶段,第一个阶段就是 Midjourney 阶段,这个阶段是让所有图片都好看,它只能做一种风格,但是通过改变数据就能定义他们想要的图片审美。这是一种比较简单粗暴提高的方法,核心点是模型能力还不够强。第二阶段是说用这个模型真的能产出很多审美,这是我们在努力的方向,就是说我们不定义模型的审美,让所有人都能定义自己视频的审美。张鹏:也就是说你们会认为未来终极的目标应该是用最简单的方式制造符合不同用户审美的审美。理解审美这件事本质上还是在语言模型层面吗?Demi:不好说,文字在用文字定义审美的时候很重要。但对视频这种非常视觉的东西,可能最终最准确的不是用文字,而是其他一些东西,每个人的 visualization 是很不一样的。张鹏:所以不能拿语言去衡量,应该增加一个(菜单)二级的反馈,有哪些风格用户选了哪个。所以审美可以用这种方式解决,不一定说非要写在模型里。Demi:对,审美更多还是交互的问题,我给你一些 reference 你来选择,归根到底是一种非常综合的方式。张鹏:未来视频生成的速度可能更快,从成本到速度,能不能预言一下,未来 18 个月,1000 天,或者说一年半到三年的周期,可能是什么样的?Demi:我觉得很神奇的一点是成本和质量、通用有矛盾,但是又不矛盾。成本永远有提高的空间,但今天的瓶颈不在于成本,而在于质量,质量不好,成本再低也没什么用。张鹏:也就是说生成视频的时间可以更快,但质量问题更优先。还是那句话,模型能力的上升是终极目标,其他都不是关键问题。Demi:我觉得成本在模型质量到一定程度的时候才变得重要。如果今天视频模型和图片模型一样好,那我可能就没那么在乎成本。张鹏:用一个比较旧的,不符合 AGI 时代产品的词,你们是如何判断你们产品的壁垒在哪里?Demi:我觉得主要是有一些差异化的战略,以及好的公司人才和组织架构。今天有个核心的预测判断,是说未来是大模型时代,现在的所有问题比如说技术逻辑不够成熟的情况下,外家功夫还是有用的。但未来这些技术的内功一定都是在大模型上。大模型才是最核心的优势。如果你没有,如果是本身做过大模型的人,会更加容易去做改进,因为你更加懂大模型,有更强的技术团队,更加有能力改变大模型,将大模型 adapt to your use case。不管说未来所有东西都要基于大模型,还是额外的算法对于做过大模型的 team 更有优势,我们认为未来还是要依赖会大模型的公司,实在不行我们可以变成应用公司,那个时候别人可能已经找到了所谓的 PMF,但我们有更强的技术可以做得更好。张鹏:这种优势就是我能够一直保持在一个更高的能量位,我随时可以俯冲到应用公司。但如果在今天诞生的时候,就是一个各种拼凑在今天看起来很好的应用公司,其实很难转为模型公司。Demi:当然,本质上我们还是想做应用,但应该去制作 ROI 比较高、不用花很多成本的应用。就是依靠模型能力为核心,尽量在不花更多成本和人力的情况下,去做最便宜、最大 ROI 的应用。其实这样的应用现在是 AI 应用里最火的,不单单是视频,图片和文字领域都是类似的应用。张鹏:用户在这个阶段就是你能让 ta 玩起来,ta 就很开心,而且不会特别在意是不是「相对高效」的解决了某个问题。ChatGPT 也没有特别极致高效的解决某个特定问题,但为它 20 美金也就愿意付了。因为它能让所有人一下子就觉得震惊和好玩。这个时代还是要做有点少年气的产品,因为成熟的产品得算清楚 ROI,算清楚怎么从用户手里掏钱,少年气的产品好玩就可以了,大家觉得开心、很酷就可以了。Demi:是的,这个特定阶段能做到这一点,对公司来讲也是最好的,一方面可以主要把精力花在大模型上,同时应用又是最容易挣钱的。好的组织是要找到
自己与众不同的东西,
找到自己的差异化
Demi:7、8 个人,和融资时候的 4 个人相比,也算是翻倍了。Demi:我发现招好的人比招很多人要重要的多。我们对招人的标准要求比较高,所以涨得比较慢。我们之所以这么快是因为我们所有的决策可以 on the fly to make it(即时执行)。人多的话,很多人就会有不同的意见,每个人的 ownership 非常不清晰,就没有吸引力。张鹏:那你对组织构建有什么理念?如何构建一个能够生生不息创造力的组织呢?Demi:我觉得最重要的是学会不断地去 differentiate(差异化),不断找到自己与众不同的东西,不管是制度/执行/产品层面,都要找到 differentiate 且正确的事情去做。在组织上我们也在思考不 optmize for experience(经验),而 optmize for smart(聪慧)是否可能,不需要花费很高的人力成本招聘 senior 级别的人才,而只用一个最高最好的 scientist 带队,其余都用本科生级别的人才,用最低的成本达成最高的效率。我们最近招的一些在校实习生,他们相对来说对工作抱有更高的热忱,非常享受工作的过程,效率也非常高。当然本科生优点明显,但一些比较专业的 research 问题,可能还是需要一些更有经验的人去做。所以对我们来说,最好的架构可能是有两三个非常 senior 的 research scientist,再带着一些有干劲的本科生研究生工作。张鹏:那些简历非常好的人可能更适用于你们规模变大的阶段,适合你们找到了找到了一些确定的东西,要开始放大、复制的时候。Demi:不管怎样,我的核心想法就是组织架构也和产品一样,要不断迭代。我觉得现在需要的一个非常 adaptive(适应能力强),非常高效,有什么机会能随时准备好出击的团队。虽然说我们也在提高我们的壁垒,或者 differentiate 一些策略,但实话说这个时候还是要去竞争的,所以效率和速度依然很重要。另外很多时候我觉得不是要多「争」,更多是去要「竞」,保持快迭代的能力。就像 OpenAI 早期员工都没有一些具体的经验,但因为他们必须相信非常独特的愿景,才能做出非常独特的事物。这时候经验反而就变得没那么重要了。张鹏:凡事都要能找到有经验的人,那就成了工程和效率问题了,可能反而会反创新。Demi:对,创新不一定需要经验,经验有时候只会限制更大的创新。Airbnb 创始人兼 CEO Brian Chesky 在最近的一次访谈中提到,自己曾在创业过程中经历了从「极其快乐」到「极其孤单」的过程。
文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653032661&idx=1&sn=d58f8b497725a3787ff9b7ef06929d98&chksm=7e576d634920e4750bbdf75fbedd1cf64f7cb3e55c989609339b00b3fc308a9a99750498714b&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh