【含真实落地演示】为什么LLM重新为AR/VR打开了想象空间？

【含真实落地演示】为什么LLM重新为AR/VR打开了想象空间？
2023-5-21 10:14:39 Author: 我不是Hacker(查看原文) 阅读量:6 收藏

cckuailong

读完需要

分钟

速读仅需 2 分钟

转载自

https://twitter.com/fi56622380/status/1659848462060630016
https://twitter.com/rpnickson/status/1659308609660936193

P.S. Twitter 大佬@fi56622380 的分享很值得学习

为什么 LLM/生成式 AI 重新为 AR/VR 打开了想象空间，AR/VR 复兴浪潮新时代的割据格局会如何？

上一轮 AR/VR 兴起是因为对下一代人机交互界面有期待，衰落很大程度上因为有两点没有达到预期

1. 交互方式并不方便，输入和理解 context 比较麻烦，仪式感比较厚重

2. 内容不够丰富，生态发展有限，场景搭建成本高

那么 LLM 可以为 AR/VR 带来什么，如何解决 AR/VR 这两个瓶颈？

先说说交互，上一轮 AR 的操作输入方面其实一直是不太顺畅的，一指禅慢慢点，键位也有限

而 LLM 最大的优势正好在这个地方，作为一个超级通用接口，用做语音交互界面作为输入，甚至不需要语音，多模态解决交互方式，能准确即时的明白用户此时此刻的状态，让设备能随时明白用户的想法和当前场景 context，不用每件事情都详细描述，迅速精确理解用户的意图

Meta 之前发布的多模态模型，无疑是给 AR/VR 的发展奠定了一块厚重的基石，让声音不再只是被翻译成文字，让手势不再是毫无触觉温感

具体的说，眼球追踪，明白用户现在的注意力在哪里，用户直接说帮我解释一下这个，就能明白用户的意图。再加上多模态手势识别，交互速度也会提升不少通过温度，语音的语气，语言，脸部表情体察用户的情绪，作为输入的反馈(不必手动点赞或者点踩)，明白自己该罗嗦还是简洁，明白自己该如何交互

多模态在环境输入方面也有帮助，一个点亮想象力的地方，是当 AR 借助 Meta 的分割一切技术，多模态能轻松解读环境，而不只是以前单纯的解读有限的物体，想象一下这是 AR 眼镜历史上第一次能真正意义上深刻理解你周边的环境。比如可以作为生活辅助，随时告诉你到了什么场景该做什么，再比如看书的时候，可以随时让 AR 内置的 LLM 大脑给你总结这一面需要注意的重点，AR 加教学也是有场景的

但只有当 AR 的人机交互效率超过键盘和屏幕时，才是进军生产力的时刻，在此之前都是不着边际的虚幻，这也是为什么上一轮 AR/VR 无论吹的多么天花乱坠，跟生产力相关的场景仍然很难搭边的原因（这一轮可能也很难）

另外一个更重要的方面，是整个 AR/VR 的内容丰富程度会因为 Generative AI 有巨大提升，这是更大的决定性因素

生成式 AI 把内容制造的成本降低了太多太多，可以预见内容生产的效率大大提升之后，解决内容不足的问题是水到渠成的事情，可以根据你的用户习惯，口味，生成定制化的身临其境的 3D 场景，甚至是现场根据你说的话来渲染场景，制造任意道具

上帝说，要有光，便有了光，这种感觉会非常奇妙，而且不会只是一时尝鲜新奇，因为每一次都会生成不一样的惊喜，就好像变身了一个哆啦 A 梦，说一句话就能生成自己想要的东西，穿越到想去的场景

这里的场景生成，也包括生成和你交互的所有 NPC，每个人都会有自己的背景和个性，都有讲一天都讲不完的有趣故事，可以指定语料，图片，视频，定制生成一个，甚至是一群你想要的人，ta 们会像真人一样和你交互，都是非常有意思的人，这种开放式世界的诱惑力将是巨大的

你将能在 AR 里体验三体里罗辑想象庄颜的样子并带进现实生活的情节，也可以进入一个根据小说生成的复刻版哈利波特的魔法世界，和所有 AI 生成的人物对话互动，完成历险

游戏将会重新定义，完全改写，不仅是因为 AR/VR 带来的浸入式，最关键的原因是游戏内容丰富了一百倍，包括任务/场景生成，NPC 和玩家真实互动，因为成本降低了一百倍，枯燥的部分将大大减少，以后回头来看现在的游戏，就像现在看当年的游戏机的俄罗斯方块一样

连社交可能也会出现不一样的模式，比如 AR 内置 chatGPT，和别人聊天时候相当于眼里有个提词器，再也不怕冷场了，随时告诉你接下来该说什么，情绪价值满分，社恐瞬间变成社牛

社交网络 AR/VR 更可以有新玩法，我可以根据自己的语料，生成一个自己去代表我在 AR/VR 空间里和别人交互，以后每个人甚至是不需要 Facebook 页面的，每个人的页面就是这个人自己的虚拟人，你可以和 ta 语音聊天，ta 可以根据你们之间的关系来决定怎么回答你的问题，脸上的表情都可以生成。之后这个 chatbot 还可以向我汇报今天哪些人和我聊过天，都有一些什么有趣的故事，他们的反应是什么样的，这里能生成的有趣交互方式还会有非常多空间去探索

再延伸想象一下，我可以让我的虚拟人代替我和其他人的虚拟人社交，虚拟人会保持我们自己的交互方式，会明白我最近想要知道什么信息，那么这种社交，基本上会让人和人的距离拉近了太多太多，人和人之间的信息交流也方便了很多，不需要有破冰，不需要有酒局。这可能会再次大幅提速信息流通的效率，第一次打破人与人之间的物理隔阂带来的信息孤岛

电商营销也许会被重新定义，比如买衣服可以直接用 AR/VR 试穿(直接生成自己穿上的样子，通过虚拟镜子看)，导购员在 AR 里现场讲解和通过生成演示，买东西可以直接用 AR 放在家里看效果，这些事情可能大家已经当成理所当然，不会有什么新鲜感了

这些在七八年前上一轮 AR/VR 热潮里夸大宣传当成概念片科幻片的东西，在 LLM 的出现后，终于变得不再遥不可及

社交，游戏，电商等，会以新的形式重新探索组合形式和表现形式，就像互联网时代，移动互联网人机交互改变时一样，AR/VR 时代也会有新的组合形式

AR/VR 本质上代表了一种新兴的人机交互模式，本身的复兴高度依赖于使用场景和生态/内容的繁荣，而这一块的短板，LLM 会有极大的助力，让 AR 的内容丰富了太多，可以说重新定义了 AR 里的内容如何生成

有了 LLM 和没有 LLM 的 AR/VR，是两种完全不同的事物。虽然这个进程还需要很久。生成 NPC 人物，根据语料克隆自己，场景识别解读，这些是已经可以实现的。还有不少仍然需要时间的部分，比如 VR/AR 高分辨率场景和道具的生成，多模态精确识别输入，但起码都在现有技术的展望讨论范围内了，毕竟十年软硬件加速六个数量级还是能带来一些东西的

即便 AR/VR 这一波没有真正走到像 iphone 那样的人机交互革命，也是大大的走进了一波。如果说 AI 1.0 激活了自动驾驶的想象力，那么 AI 2.0 则激活了 AR/VR 的想象力

一个用 wisper 和 chatGPT 做的 AR/VR 社交应用

在观众面前练习演讲，练习社交，面试，或是模拟艰难谈话

以后是真人陪玩剧本 cosplay 体验了，比如开演唱会当歌星，当皇帝享受山呼万岁，进玄幻爽文当主人公/霸道总裁

文章来源: http://mp.weixin.qq.com/s?__biz=MzkwNDI1NDUwMQ==&mid=2247486539&idx=1&sn=6f4aaa26fb5252385eea2f25f4e841e3&chksm=c0888901f7ff00170664ac40fcf14ca068f3ae07efc6521703f02efce87fb0f213beb31f410d#rd
如有侵权请联系:admin#unsafe.sh