资源丰富且实用的工具包

rochona · Post by **rochona** » Sat Jul 12, 2025 3:52 am

任务模型数据集
图文预训练 ALBEF，BLIP COCO、视觉基因组、SBU 标题、概念标题（3M、12M）、LAION
图像文本检索阿尔贝夫，闪电。剪辑 COCO，Flickr30k
视觉问答 ALBEF，BLIP VQAv2、OKVQA、A-OKVQA
图像字幕 BLIP COCO 标题，无大写
图像分类夹子图像网
自然语言视觉推理（NLVR2） ALBEF，BLIP NLVR2
视觉蕴涵阿尔贝夫 SNLIVE
视觉对话 BLIP 维斯迪尔
视频到文本检索 ALPRO、BLIP MSRVTT，DiDeMo
视频问答 ALPRO、BLIP MSRVTT-QA、MSVD-QA
视频对话 BLIP 房室间隔缺损
模块化和可扩展的设计
下图展示了 LAVIS 的整体架构。我们的核心设计原则是提供一个简单统一的库，以便于 (i) 训练和评估模型；(ii) 访问支持的模型和数据集；(iii) 扩展新的模型、任务和数据集。

该库中的关键组件采用模块化设计。这使得开发人员能够直接访问各个组件，快速开发，并轻松集成新的或外部组件。模块化设计还简化了模型推理，例如多模态特征提取。

建筑.png

除了核心库功能外，我们还提供实用资源，进一步降低语言视觉研究的学习门槛。这些资源包括：自动数据集下载工具（用于帮助准备支持的数据集）；图形用户界面数据集浏览器（用于预览已下载的数据集）；以及数据集卡片（用于记录数据集来源、支持的任务、常用指标和排行榜）。

预训练和微调的模型检查点。我们在库中包含预训练和微调的模型检查点。这有助于轻松复制我们的实验结果，并将预训练模型重新用于其他应用。加载模型时，模型检查点会自动下载。

Web 演示：如下图所示，我们开发了一个基于 GUI 的 Web 演示，该演示具有用户友好的手机号数据库列表界面，可用于探索各种多模式功能。目前，该演示支持以下功能：

图像字幕：用自然语言生成字幕来描述输入图像
视觉问答：回答有关输入图像的自然语言问题
多模式搜索：根据文本查询在图库中搜索图像
文本可视化：给定输入图像和文本标题，为图像上的每个文本标记生成 GradCam
零样本多模态分类：将输入图像分类为文本中的一组输入标签
得益于 LAVIS 的模块化设计，可以轻松地使用新功能（例如文本到图像生成）扩展演示。

自动数据集下载和浏览：准备用于预训练和微调的语言视觉数据集会产生大量重复工作。为了解决这个问题，LAVIS 提供了自动下载和组织公共数据集的工具，以便用户更轻松、更快速地访问常用数据集。此外，我们还开发了一个 GUI 数据集浏览器（如下图所示），帮助用户快速直观地了解他们所使用的数据。

社会效益和负责任的使用
我们相信，LAVIS 的巨大影响将是积极的。