WAIC 上,快手展位中一个叫「AI 关小芳」的数字人被媒体和观众围的水泄不通,她正在像人类一样,能够察言观色并与观众实时对话,且带有 GPT-4o 不具备的表情和肢体动作,是一个真正意义的多模态输入输出的实时互动智能体。快手展位「AI 关小芳」数字人 | 图片来源:视觉中国而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短剧,台下欢呼声此起彼伏。对外界来说,AI 能力是抽象的,带货主播和短剧显得更有体感;一家 AI 驱动的科技公司是抽象的,而从内容生产、内容匹配和内容分发所定义的一家内容平台公司则是具体的。从内容生产到内容匹配和内容分发,快手从来都是一家以 AI 为核心的要素公司。WAIC 的快手分论坛上,快手高级副总裁、快手主站业务与社区科学线负责人盖坤重新强调了这一点,这是这家公司一切大模型战略的起点。核心业务的性质决定了一家公司与 AI 能力的交集在哪里。快手高级副总裁、快手主站业务与社区科学线负责人盖坤 | 图片来源:快手即便具备 AI 的基因,一家业务成熟的公司向一种新技术的转身也往往并不会最快。2023 年,快手上的月活跃用户突破 7 亿,电商的全年 GMV 首次突破万亿规模,直播、短剧业务开始起势,新的技术对自身业务的重塑是风险与机遇并存。而当大模型作为一种新事物度过了最初的燥热,对这样一种技术的热捧也会回落到地面——我们到底该怎么用上大模型的能力?重新强调了一家以 AI 为核心要素公司属性的快手,给出的回答是所有内容层面在 AI 能力上的升级。「快手的短视频推荐是用户最容易看到的核心技术,做好推荐的背后还有两块重要的内容相关技术。首先是内容理解,做好推荐,我们需要对背后的内容进行深入的理解,所以这涉及到内容理解的技术;我们还需要激发大量的用户生产和创作视频,所以我们还要有非常深厚的内容生产技术。」「所以整个快手的 AI 技术会围绕三大块:内容推荐、内容生产、内容理解。」盖坤表示。快手的大模型战略非常具体——这场大模型的竞争,本质上比以往任何时候都更是一场内容之争。而这些已经在生态里显露头角的产品背后,是快手在 AI 层面的长期积累,以及迅速建立起的一个清晰的大模型家族。
02
大模型驱动的「AI 关小芳」
今年快手在大模型方面动作频频,其中很多人关注到了「AI 关小芳」。目前快手是全球 Top2 的短视频直播平台,财报显示今年 Q1 快手日均 DAU 达到 3.94 亿,每个用户的日均使用时长达到了 129 分钟——也就是说有 4 亿用户每天大概花将近 2 小时在快手平台上,这占了中国互联网总时长将近 10%。人的聚集之外,快手正在形成一个巨大的消费场景。无数的买家和卖家在快手平台进行电商交易,2023 年快手电商的月均动销商家数同比增长超 50%,全年营销客户数同比增长超 100%,电商和线上营销业务的增长均快于整体市场平均增速,其中去年四季度快手短视频电商商品交易总额的同比增速超 100%。除了 1.18 亿的全年 GMV,去年快手整年的总收入也已经突破了千亿,有 1135 亿的收入规模。此时一个可以进一步拓宽直播电商想象力的数字人,理所当然的站在快手的舞台中央。「AI 关小芳」是由 AI 驱动,使用快手全自研的快意大语言模型、ASR、TTS 大模型以及数字人驱动生成模型的多模态数字人智能体。可识别用户体征、语音、形态等信息,具有多模态感知能力与智能化决策及执行能力,并以完全拟真的语气、话术、表情、动作等进行回复。具备低延迟、高拟人表现力的特点,给用户与真人相似的沉浸式交互体验。多模态互动能力让「AI 关小芳」的能够处理和理解多种类型的信息。像人类感受世界的逻辑一样,「AI 关小芳」在感知能力方面使用自研的感知大模型和高性能感知专家模型,能够精确感知情绪、手势、人脸属性、头发、衣服和场景等信息。在核心的语音识别能力上,「AI 关小芳」使用自研的新一代 ASR 大模型,融合了当前最先进的语音预训练方法,并依托海量优选音频数据打造而成。该模型不仅支持普通话、英语及多种方言,还以其卓越的性能表现和极低的推理时延脱颖而出,广泛应用于快手的多种场景。理解了外部世界之后,受到考验的就是「AI 关小芳」的表达能力。「AI 关小芳」已经不是木讷的问答机器。它在对话能力方面使用了自研的情感陪伴快意大模型,该模型使用海量人物卡和角色对话数据进行情感陪伴能力的微调,显著强化了模型在类人对话上的表现,该模型目前在类人对话评测榜单 CharacterEval 取得总分第一的结果。实际应用中,仅需要少量 system prompt 提示即可精准复刻人物的说话风格和内在性格,做到情商和智商兼备。结合自研的 embedding 模型和 RAG 系统,实现智能对话。表达能力最终要落到语言的输出上。而在文本到语音转换(TTS)方面,「AI 关小芳」使用了自研的 TTS 大模型,支持中英文合成和任意音色克隆,只需 5 秒音频就能克隆一个人的音色以及发音习惯和语气,具有高度拟人逼真的效果,同时支持任意音色的歌唱。在语言以外,面部和肢体渲染生成技术则够能支持多语言和多种情绪的表现。面部表情模型通过自研的基于 DIT 的表情生成模型,进行多层级多模态控制信号引导,能够准确表现多种语言的口型和丰富的情绪变化,如中性、高兴、愤怒、悲伤和惊讶等。此外,肢体动作不仅能够匹配语音节奏,还能表现复杂的语义动作,如「比心」和「生气叉腰」,甚至可以展示跳舞和唱歌等才艺。在回答问答时,「AI 关小芳」的端到端响应延迟达到 1 秒级,这意味着你可以像和真实的人交流那样即时打断它,然后离开转换下一个话题。从沟通体验上来说已经远优于同类数字人产品效果。这是因为在工程架构方面,「AI 关小芳」实现了端云结合的技术架构设计,通过搭建分布式流媒体计算调度框架、自研大模型能力算子化适配和专有网络协议加速,支持用户双工和 AI 智能体多模态半双工交互。