Firefox 130(目前稳定版是 v126)将为使用屏幕阅读器的视觉障碍者提供一项辅助功能:利用运行在本地的机器学习模型为图像自动生成文本描述。该功能将首先作为 PDF 编辑器的一部分提供,之后将扩大范围,作为常规浏览的一部分提供给使用屏幕阅读器的用户。它使用的机器学习模型是基于 Transformer,通过 COCO(Common Object In Context)或 Flickr30k 等数据集训练去识别图像中的不同对象,使用前需要一次性下载不到 200MB 大小的文件,虽然性能比不上知名大模型如 GPT-4 Turbo with Vision 或 LLaVA,但对于描述图像足够正确,对硬件需求也很低。
https://hacks.mozilla.org/2024/05/experimenting-with-local-alt-text-generation-in-firefox-nightly/