多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突

时间：2023-12-30 13:34:18

来源：hao86下载

区块链

【#区块链# #多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突#】

文章来源：量子位

图片来源：由无界 AI生成

微调，能让通用大模型更加适配具体的行业应用。

但现在，研究人员们却发现：

对多模态大模型做“多任务指令微调”，大模型可能会“学得多错得多”，因为不同任务之间的冲突，导致泛化能力下降。

△多模态指令微调存在任务冲突

举个例子，多模态问答任务可能要求回复尽可能简洁准确，文档理解任务却会反过来要求大模型尽可能详细地做出描述。

不同下游任务指令微调数据分布差异较大，导致一个大模型难以在多个下游任务中均达到最优性能。

如何解决这个问题？

来自香港科技大学、南方科技大学和华为诺亚方舟实验室的联合研究团队，受MoE（混合专家模型）开源大模型Mixtral-8×7B的启发，提出利用稀疏专家模型，打造下游任务泛化性能更好、理解能力更强的多模态大模型。

具体细节，一起来看。

多模态指令微调存在任务冲突

为了验证多模态指令微调中不同类型任务数据对模型性能的影响，研究人员将数据进行如下划分：

VQA（视觉问答）：VQAv2、OKVQA、A-OKVQA、OCRVQA，
Captioning（图像描述）：COCO Caption、Web CapFilt、TextCaps，
Full(所有数据)：VQA、Captioning、LLaVA-150k、VQG（视觉问题生成，基于VQA数据）。

基于以上数据，研究人员采用LoRA对InstructBLIP进行微调，获得3个专家模型，并在其他数据（Flickr30k-图像描述、GQA/SciQA/IconQA/TextVQA等不同类型视觉问答、HM/VSR等多模态分类或推理任务）上进行零样本测试和评估。

从上图（右）中可以看出，在指令微调中，并非采用全量数据会取得最好效果，相反，只有三个下游任务（GQA，VSR，TextVQA）在全量数据专家下表现最好。

这说明，对于大部分任务来说，在指令微调过程中引入其他任务的数据，反而会降低模型性能，多模态指令微调存在任务冲突。

另一方面，实验中观察到，VQA和Captioning两个专家模型，在各自任务中取得了相较于全量专家更好的表现。这样的方法看似解决了任务冲突的问题，但存在以下局限：

不同训练任务的知识无法在任务专家之间共享；
训练的数据需要人为地划分，当训练数据种类较多时难以进行；
新任务来临时，需要人为判断使用哪一个任务专家。

为了解决以上局限，研究团队提出，可以利用稀疏专家模型（MoE），不同的专家处理不同的任务，并设计一种数据划分的方法，把相似的任务交给同一个专家处理。

基于指令聚类的稀疏专家多模态大模型

通过指令聚类划分数据

在大型视觉-语言模型（LVLM）中，该文定义指令为所有的文本输入，如上图（左）C1-C4的文本。

这些指令描述了任务的意图、要求。因此，作者使用Kmeans将所有的指令聚为64类。

如上图（右）所示，指令的聚类信息可以有效表示数据的任务类型。这样做省去了人力划分数据的成本。

基于指令聚类信息进行混合LoRA专家路由

和前面的任务专家相似，模型在该层的输出同样由冻结的LLM线性层以及微调的LoRA产生。

不同的是，这里利用数据的指令聚类信息来对混合LoRA进行路由。具体而言，对于的模型的输入，可以按照如下方式计算它的路由信息：

其中，topk()（考虑k=1的情况）保持前k个最大项不变，并将其他的设置为0，C是可学习的类别的嵌入表征，C[xi]表示xi对应指令的聚类表征，Wgate是路由的线性参数。

通用专家提升模型泛化性

实验发现，上述的指令聚类LoRA专家的确缓解了任务冲突的问题，但由于一个专家可能只见过一部分任务，整个模型对下游任务的泛化性降低了。

因此，该研究团队提出用通用专家来从所有数据中学习指令泛化能力。

与MoE不同，除了通过top1选择的任务专家，该方法还固定地激活一个通用专家，使得这个专家从所有的指令数据中学习。

因此，模型在该层输出为LLM原始冻结参数W，任务专家We和通用专家Wu的加权和。

在这样的设计下，任务专家和通用专家的协同既提升了模型在和训练集相似任务的表现，又保障了模型对新任务的泛化能力。

实验效果

该论文遵循InstructBLIP的实验场景（数据使用、评估标准、训练细节），在13个训练数据集（包括VQA、Captioning、VQG等）上进行指令微调并在11个测试数据集上评估（训练数据集和测试数据集没有重叠）。

由上表所示，引入该文章提出的方法（MoCLE）后，InstructBLIP相较于基线模型在所有下游任务上都有提升，其中，在VSR，IconQA，TextVQA和MSVD-QA的提升尤为明显。

上图可视化了LLM某一层混合LoRA专家在不同数据下的路由结果，虚线上下方分别是训练和测试数据。(a)和(b)分别显示了使用指令聚类信息和指令token平均表征作为路由的结果。

可以看到，使用指令聚类信息路由时，数据在专家中出现了分化。例如专家0主要负责VQA相关任务，专家2主要负责Captioning相关任务，有效实现专家的差异化。另一方面，使用指令token平均表征作为条件时，不同任务对专家的激活是相似的，没有出现分化。

研究团队认为，稀疏专家多模态大模型+通用专家模块的组合，缓解了任务之间的冲突，还保证了稀疏模型对任务的泛化能力，使得多模态大模型能够更有效地适配不同的下游行业应用。

这是首个在多模态大模型指令微调中结合LoRA和稀疏专家模型（MoE）来缓解任务冲突并保持模型泛化能力的工作。
该工作证实了其应对复杂下游任务的有效性，并未多模态大模型的应用和发展开辟了新途径。

论文链接：
https://arxiv.org/abs/2312.12379

小编推荐下载

有为多学学习工具
杂智通讯交友
杂咖购物优惠
杂鲜学习工具
模型大师益智休闲
通用商城购物优惠
通用快递生活实用
火柴人下降益智休闲

相关推荐

更多>>

多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突 12-30

文章来源：量子位图片来源：由无界AI生成微调，能让通用大模型更加适配具体的行业应用。但现在，研究人员们却发现：对多模态大模型做“多任务指令微调”，大模型可能会“学得多错得多”，因为不同任务之间的冲突，导致泛化能力下降。 △多模态指令微调存在任务冲突举个例子，多模态问答任务可能要求回复尽可能简洁准确，文档理解任务却会反过来要求大模型尽可能详细...

大模型内卷升级，国产大模型力争多模态高地 01-26

文章来源：大模型之家随着1月23日，多模态AI概念股午后拉升,昆仑万维涨超10%,三六零、拓尔思、云从科技、汤姆猫等跟涨。到了24日，多模态AI概念股整体上涨0.81%，主力资金流出7.98亿元。图源：网络根据2024年的表现来看，在多模态大模型领域，风险远高于机会。多数投资者更愿意在股票价格上涨时卖出，以锁定利润，同时也有可能会因担忧未来的不确定性...

评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？ 01-01

文章来源：FounderPark 图片来源：由无界AI生成混合专家模型（MoE）成为最近关注的热点。先是Reddit上一篇关于GPT-4结构的猜测帖，暗示了GPT-4可能是由16个子模块组成的专家模型（MoE）的混合体。据说，这16个子模块中的每一个MoE都有1110亿个参数（作为参考，GPT-3有1750亿个参数）。尽管不能100%确定，但GPT-4...

可将任意大模型实现多模态，苹果开源4M 12-19

原文来源：AIGC开放社区图片来源：由无界AI生成随着ChatGPT等模型被广泛应用，用户对功能的需求也呈多模态发展，例如，在单一模型上既能生成文本也可以生成图片等。但现有视觉模型通常仅针对单一模态和任务进行优化,缺乏能够处理多种模态和任务的通用能力。为了解决这一难题，苹果的研究人员和全球著名公立大学EPFL（瑞士洛桑联邦理工学院）联合开发了4M框...

世界顶尖多模态大模型开源！又是零一万物，又是李开复 01-23

原文来源：量子位图片来源：由无界AI生成领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷！距离其首款开源大模型Yi-34B和Yi-6B的发布，仅间隔不到三个月的时间。模型名为YiVisionLanguage（Yi-VL），现已正式面向全球开源。同属Yi系列，同样具有两个版本： Yi-VL-34B和Yi-VL-6B。先来看两个例子，感...

字节多模态大模型PixelLM：高效像素级推理，无需依赖SAM 12-28

原文来源：量子位图片来源：由无界AI‌生成多模态大模型爆发，准备好进入图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用了吗？目前大多数模型的能力还是局限于生成对整体图像或特定区域的文本描述，在像素级理解方面的能力（例如物体分割）相对有限。针对这个问题，一些工作开始探索借助多模态大模型来处理用户的分割指令（例如，“请分割出图片中富含维生素C的水果...

谷歌研究：大语言模型（LLMs）能否识别并自我纠正错误？ 01-18

谷歌推出BIG-BenchMistake数据集，可帮助大语言模型提升自我纠错能力。图片来源：由无界AI生成随着人工智能技术快速发展，作为基础技术之一的大语言模型（LLMs）在推理任务中也越来越受欢迎，例如多回合问答（QA）、任务完成、代码生成或数学领域。但是，LLMs在第一次尝试时未必能够正确解决问题，尤其是在它们没有接受过训练的任务中。对此，谷歌...

crimaster犯罪大师用户名冲突如何解决 02-18

crimaster犯罪大师用户名冲突如何解决?春节档电影中最为好看的可以说是《唐人街探案3》，相信很多小伙伴也是看了这部电影去下载了crimaster犯罪大师，但是在游戏中遇到了一些问题不知道怎么处理，那么今天小编就来给大家介绍介绍crimaster犯罪大师用户名冲突如何解决。crimaster犯罪大师用户名冲突如何解决1、打开手机APP点击左上角“三条杠”...