首页 > 区块链 > 智源的压轴模型：370亿参数“开源版Gemini”，能理解乱序图文输入，还能生成视频

智源的压轴模型：370亿参数“开源版Gemini”，能理解乱序图文输入，还能生成视频

时间：2023-12-29 17:03:00

来源：hao86下载

区块链

【#区块链# #智源的压轴模型：370亿参数“开源版Gemini”，能理解乱序图文输入，还能生成视频#】

原文来源：GenAI新世界

作者｜油醋

图片来源：由无界 AI‌生成

从OpenAI的GPT-4V到谷歌的Gemini，逼着AI写诗的人少了，多模态大模型（MLLM）成了新的香饽饽。一篇关于多模态大模型的综述很好的概括了其相比于LLM的优越：

MLLM更符合人类感知世界的方式。作者人类自然地接受多感官输入，这些输入往往是互补和合作的。因此，多模态信息有望使MLLM更加智能；
MLLM提供了一个更用户友好的界面。得益于多模态输入的支持，用户可以以更灵活的方式与智能助手进行交互和交流；
MLLM是一个更全面的任务解决者。虽然LLM通常可以执行NLP任务，但MLLM通常可以支持更大范围的任务。

于是相比于纯粹的Coding能力，人们更期待AI能直接把一个白板上的数学公式变成代码，能拆解一张复杂的电路图并且变成一份组装说明，甚至能自己给一段足球视频配上解说。

近日，智源研究院发布了新一代的多模态基础模型——Emu2。

以智源人工智能研究院的总工程师林咏华的话来说，这个瞩目的开源项目是智源视觉大模型团队的“年度压轴”。

今年8月，智源研究院提出了一种新的多模态大模型训练范式，发布并开源了首个打通从多模态输入到多模态输出的统一多模态预训练模型Emu。Emu发布4个月，在GitHub上积累了720颗星，而此次Emu2发布不到一周就收获了300颗星，这个项目现在的星标已经过千。

图源：GitHub

相较2023年7月发布（8月开源）的第一代「多模态to多模态」Emu模型，Emu2使用了更简单的建模框架，训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。

值得一提的是，Emu2是目前最大参数的开源生成式多模态模型。

它在大规模多模态序列上延续采用大量图、文、视频的序列，进行了统一的自回归目标训练，将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。从模型表现上来看，Emu2展示了强大的多模态上下文学习能力，甚至能够解决需要即时推理的任务，如视觉提示和基于对象的生成。在少样本设置下，Emu2在多个多模态理解任务中创造了新的记录。

图源：智源研究院

智源研究院的测试结果显示，Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型，在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

而当根据特定指令进行调整时，Emu2在大型多模态模型的问题回答基准测试和开放式主题驱动生成等具有挑战性的任务上进一步实现了新的最佳状态。

基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen可接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。

这些成就表明Emu2可以作为基础模型和通用接口，服务于广泛的多模态任务。代码和模型已公开，以促进未来的研究。目前Emu2的模型、代码均已开源，并提供Demo试用。

强势的理解和生成能力

通过对多模态理解和生成能力的定量评测，Emu2在包括少样本理解、视觉问答、主体驱动图像生成在内的多个任务上取得最优性能。在少样本评测上，Emu2在各个场景下显著超过Flamingo-80B，例如在16-shot TextVQA上较Flamingo-80B 超过12.7个点。

图源：智源研究院

经过指令微调的Emu2可以对图像和视频输入进行自由问答，以统一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余个图像和视频问答评测集上取得最优性能。

图源：智源研究院

在零样本的DreamBench主体驱动图像生成测试上，Emu2在较此前方法取得显著提升，在视觉上更接近于真实图像，以及在主题和风格上的多样性和创造性。例如比Salesforce的BLIP-Diffusion的CLIP-I分数高7.1%, 比微软的Kosmos-G的DINO分数高7.2%。

DreamBench是一个用于评估文本到图像生成模型的基准测试，它包含了多种类型的图像编辑任务，如重新上下文化、风格化、修改、区域可控生成和多实体组合等。

Emu2-Gen在DreamBench上展示了其在零样本设置下的多模态生成能力。它能够接受文本、位置和图像的混合输入，并在上下文中生成图像。Emu2-Gen在DreamBench上的表现表明了其在多模态生成任务中的优越性能，比如它能够根据单一图像输入重建主体，并在零样本设置下通过强大的视觉解码能力展示出色的主体忠实度。

主体忠实度（subject fidelity）是一个衡量图像生成模型在生成图像时保持输入图像中主体特征准确性的指标。在图像编辑或生成任务中，如果模型能够准确地保留或重现输入图像中的主体元素，如人物、动物、物体等，那么就可以认为模型具有高主体忠实度。

图源：智源研究院