资源丰富且实用的工具包

Unite professionals to advance email dataset knowledge globally.
Post Reply
rochona
Posts: 49
Joined: Thu May 22, 2025 5:35 am

资源丰富且实用的工具包

Post by rochona »

任务 模型 数据集
图文预训练 ALBEF,BLIP COCO、视觉基因组、SBU 标题、概念标题(3M、12M)、LAION
图像文本检索 阿尔贝夫,闪电。剪辑 COCO,Flickr30k
视觉问答 ALBEF,BLIP VQAv2、OKVQA、A-OKVQA
图像字幕 BLIP COCO 标题,无大写
图像分类 夹子 图像网
自然语言视觉推理(NLVR2) ALBEF,BLIP NLVR2
视觉蕴涵 阿尔贝夫 SNLIVE
视觉对话 BLIP 维斯迪尔
视频到文本检索 ALPRO、BLIP MSRVTT,DiDeMo
视频问答 ALPRO、BLIP MSRVTT-QA、MSVD-QA
视频对话 BLIP 房室间隔缺损
模块化和可扩展的设计
下图展示了 LAVIS 的整体架构。我们的核心设计原则是提供一个简单统一的库,以便于 (i) 训练和评估模型;(ii) 访问支持的模型和数据集;(iii) 扩展新的模型、任务和数据集。

该库中的关键组件采用模块化设计。这使得开发人员能够直接访问各个组件,快速开发,并轻松集成新的或外部组件。模块化设计还简化了模型推理,例如多模态特征提取。

建筑.png

除了核心库功能外,我们还提供实用资源,进一步降低语言视觉研究的学习门槛。这些资源包括:自动数据集下载工具(用于帮助准备支持的数据集);图形用户界面数据集浏览器(用于预览已下载的数据集);以及数据集卡片(用于记录数据集来源、支持的任务、常用指标和排行榜)。

预训练和微调的模型检查点。我们在库中包含预训练和微调的模型检查点。这有助于轻松复制我们的实验结果,并将预训练模型重新用于其他应用。加载模型时,模型检查点会自动下载。

Web 演示:如下图所示,我们开发了一个基于 GUI 的 Web 演示,该演示具有用户友好的 手机号数据库列表 界面,可用于探索各种多模式功能。目前,该演示支持以下功能:

图像字幕:用自然语言生成字幕来描述输入图像
视觉问答:回答有关输入图像的自然语言问题
多模式搜索:根据文本查询在图库中搜索图像
文本可视化:给定输入图像和文本标题,为图像上的每个文本标记生成 GradCam
零样本多模态分类:将输入图像分类为文本中的一组输入标签
得益于 LAVIS 的模块化设计,可以轻松地使用新功能(例如文本到图像生成)扩展演示。

自动数据集下载和浏览:准备用于预训练和微调的语言视觉数据集会产生大量重复工作。为了解决这个问题,LAVIS 提供了自动下载和组织公共数据集的工具,以便用户更轻松、更快速地访问常用数据集。此外,我们还开发了一个 GUI 数据集浏览器(如下图所示),帮助用户快速直观地了解他们所使用的数据。


社会效益和负责任的使用
我们相信,LAVIS 的巨大影响将是积极的。
Post Reply