北京智源推出通用视觉分割模型 SegGPT

文章
皮肤

Wilson (42865)发表于 2023年05月29日 14时20分星期一
来自三个太阳

北京智源人工智能研究院推出通用分割模型 SegGPT（Segment Everything In Contex），这是一个利用视觉提示（prompt）完成任意分割任务的通用视觉模型。相关代码发布在 GitHub 上，论文发表在预印本平台 arXiv 上。SegGPT 是智源通用视觉模型 Painter 的衍生模型，针对分割一切物体的目标做出优化。SegGPT 具备上下文推理能力，训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等。它的灵活推理能力支持任意数量的视觉提示。自动视频分割和追踪能力以第一帧图像和对应的物体掩码作为上下文示例，SegGPT 能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的ID，实现自动追踪。

https://arxiv.org/abs/2304.03284
https://github.com/baaivision/Painter
https://www.thepaper.cn/newsDetail_forward_23265031

一个人能够洋洋得意地随著军乐队在四列纵队里行进，单凭这一点就足以使我对他轻视。他所以长了一个大脑，只是出于误会；单单一根脊髓就可满足他的全部需要了。文明国家的这种罪恶的渊薮，应当尽快加以消灭。由命令而产生的勇敢行为，毫无意义的暴行，以及在爱国主义名义下一切可恶的胡闹，所有这些都使我深恶痛绝。——爱因斯坦