3:30-4:00 PM 签到入场
4:00-4:10 PM 欢迎致辞
冯佳时,字节跳动豆包大模型视觉基础研究团队负责人
4:10-4:30 PM
刘子纬(Ziwei Liu),南洋理工大学计算与数据科学学院助理教授
演讲摘要
4:30-5:00 PM
Depth Anything: 单目深度估计的基础模型
Bingyi Kang, TikTok 研究科学家
演讲摘要
5:00-5:30 PM
Magic-Boost: 通过多视图条件扩散提升 3D 生成
张健锋,字节跳动研究科学家
演讲摘要
5:30-6:40 PM 晚餐 & 交流
6:40-7:10 PM
多模态视频理解与生成
寿政(Mike Shou Zheng),新加坡国立大学助理教授
演讲摘要
在这次演讲中,我将介绍我们在视频理解和生成方面的最新研究,并分享我对未来发展的思考。在理解方面,我将介绍多智能体系统 AssistGUI,它通过学习教学视频就可以在桌面上自动化完成复杂的图形用户界面(GUI)任务。为了构建以视觉为中心的多模态大型语言模型(MLLMs),我们开发了 VisInContext,它将文本标记转换为视觉标记,显著增加了 MLLMs 的上下文长度和效率。对于视频生成的逆问题,我将介绍我们在长视频生成方面的工作 MagicAnimate,MagicAnimate 在人类图像动画方面表现出色,具有改进的时间一致性和保真度。
7:10-7:40 PM
连续高动态的长视频生成方案探索
周大权,字节跳动研究科学家
演讲摘要
生成真实、连续、大幅度的长视频目前仍为业界存在的挑战性问题。本报告从数据集生成,视频生成模型算法设计以及计算开销三个角度,探讨如何设计高效,时序连续并且具备完整故事表达能力的视频生成架构。
7:40-8:10 PM
InstaDrag: 从视频数据中学习快且精准的拖拽式编辑
廖俊豪(Liew Jun Hao),字节跳动研究科学家
演讲摘要
近年来,基于生成模型的图像编辑方法收到了广泛的关注。然而,大多现有方法缺乏进行精细空间控制的能力。本报告提出 InstaDrag,一种能在~1 秒内完成高质量拖拽式编辑的图像编辑方案,并探讨如何利用自然视频中丰富的运动信息去学习拖拽式编辑。
8:10-8:30 PM 合影 + 交流
点击下方【预约】,获取开播提示