hao86下载站：值得大家信赖的游戏下载站！

手机版
设为首页
网站导航

热门推荐

学习教育

占卜抽签

查看更多

首页手游下载软件下载行业资讯软件教程专题合集区块链

首页 > 区块链 > 文本生成精准图像字幕，谷歌等开源PixelLLM

文本生成精准图像字幕，谷歌等开源PixelLLM

时间：2023-12-20 09:43:17

来源：hao86下载

区块链

【#区块链# #文本生成精准图像字幕，谷歌等开源PixelLLM#】

原文来源：AIGC开放社区

图片来源：由无界 AI生成

传统的大语言模型可以描述、回答与图像相关的问题，甚至进行复杂的图像推理。但使用大型语言模型进行文本定位，或用图像指代准确坐标却不太行。

为了进行该技术的探索，谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。

PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时，模型可以根据位置生成与指定对象或区域相关的描述文本。

当生成位置作为输出时，模型可以为每个输出词语生成像素坐标，实现密集的词语定位。

项目地址：https://jerryxu.net/PixelLLM/‌

论文地址：https://arxiv.org/abs/2312.09237‌

PixelLLM的核心技术原理是，通过在大语言模型的单词特征之上添加一个小型多层感知机（MLP），来回归每个输出单词的像素坐标，从而实现对文本的密集定位。而语言模型的权重可以保持冻结，也可以通过低秩微调（LoRA）进行更新。

PixelLLM的整体架构包括图像编码器、提示编码器/特征提取器和大语言模型组成。

支持图像以及位置或文本的任意组合作为输入,并生成字幕以及每个词的像素定位作为输出。

图像编码器

图像编码器使用了Vision Transformer为输入图像生成表征，可以把图片转换成计算机可以理解的格式。
图像编码器使用了两种并行的主干:一种是从SAM模型初始化的ViT-H,用于获取强大的定位特征;

另一种是从EVA02初始化的ViT-L,用于学习语义特征。两种主干的输出在通道维上拼接,作为整体的图像表征。

提示编码/提取器

提示编码器将位置或文本等非图像输入编码为与图像表征相匹配的特征空间。对于位置输入,使用正弦余弦位置编码和线性层编码边界框坐标或点序列。对于文本输入,将词嵌入与图像表征拼接作为语言模型的前缀特征。

提示特征提取器用于接收来自提示编码器的特征,以及来自图像编码器的整幅图像表征。它的作用是从整幅图像中提取出与提示相关的区域特征。

提示特征提取器使用了基于学习性查询词的“双向变压”结构。其中提示特征和查询词作为“询问”；图像表征作为关键字和结果，并进行自注意力聚焦。

大语言模型

PixelLLM使用了谷歌曾发布的T5-XL作为基础语言模型，并将大部分参数进行了冻结, 只有提问和结果的投影层通过LoRA进行了低秩适配。

主要用于接收来自提示特征提取器的区域特定特征,以及可选的文本特征,并自动回归地生成字幕。

此外,在映射到词典空间的线性层之前,应用了多层感知器为每个词预测坐标。这样语言解码和定位预测可以并行地进行。

训练方法和实验数据

PixelLLM使用了谷歌的Localized Narrative数据集进行预训练。该数据集包含了人类对图像进行叙述的注释，以及注释者在叙述过程中的鼠标轨迹。这些注释提供了叙述中每个词语的同步位置信息。

在训练过程中，研究人员通过最小化生成的描述与实际注释之间的差异来优化PixelLLM模型。语言模型的权重可以保持固定，也可以使用低秩微调（LoRA）进行更新。

为了评估PixelLLM的性能，研究人员在RefCOCO、Visual Genome等下游数据集上进行了微调，根据具体任务的要求，微调模型的参数，并在相应的任务上进行性能评估。

结果显示，PixelLLM在多个视觉-语言任务上取得了最先进的性能。例如，在RefCOCO的指代定位任务上达到了89.8。在Visual Genome的基于位置的描述生成任务上达到了19.9。

小编推荐下载

图像恶作剧拍照摄影
滚动字幕音乐视频
绘影字幕音乐视频
元本生鲜学习工具
宝宝图像认识学习工具
文本小记办公效率
乐字幕音乐视频
LED字幕娱乐消遣

相关推荐

相关文章

更多>>

文本生成精准图像字幕，谷歌等开源PixelLLM 12-20

原文来源：AIGC开放社区图片来源：由无界AI生成传统的大语言模型可以描述、回答与图像相关的问题，甚至进行复杂的图像推理。但使用大型语言模型进行文本定位，或用图像指代准确坐标却不太行。为了进行该技术的探索，谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。 PixelLLM可以将图像位置信息作为输入或输出。当将位置作为...

可在图像中生成任意精准文本，支持中文！阿里开源AnyText 01-08

来源：AIGC开放社区图片来源：由无界AI生成随着Midjourney、StableDifusion等产品的出现，文生图像领域获得了巨大突破。但是想在图像中生成/嵌入精准的文本却比较困难。经常会出现模糊、莫名其妙或错误的文本，尤其是对中文支持非常差，例如，生成一张印有“2024龙年吉祥”的春联图像，就连著名的文生图模型都很难精准生成。由著名文生图...

Midjourney 计划引入文本生成视频模型 01-06

文章来源：AI猿图片来源：由无界AI生成在人工智能内容创作领域的重大演变中，Midjourney（创新图像生成的代名词）现在将目光投向视频领域。这一战略转变标志着该公司的一个关键时刻，该公司以其在Discord服务器内运行的令人印象深刻的人工智能驱动的图像创建工具而闻名。Midjourney向视频生成领域的扩张不仅标志着公司本身的发展，还反映了人工智能...

文本生成超逼真语音，ElevenLabs获8000万美元融资 01-23

原文来源：AIGC开放社区图片来源：由无界AI生成 1月23日，文本生成语音平台ElevenLabs在官网宣布，获得8000万美元（约5.7亿元）B轮融资。本次由AndreessenHorowitz、NatFriedman领投，红杉资本、SVAngel等跟投。用户通过文本和语音的方式在ElevenLabs平台，就能生成中文、英文、日文、韩文等29种语言...

清华、斯坦福、加大开源，图片生成高精准3D模型 12-27

原文来源：AIGC开放社区图片来源：由无界AI生成随着ChatGPT的出现以及广泛应用，通过文本生成文本、视频、音频等内容，成为实现技术民主化的关键手段。在3D模型领域通过文本生成并不成熟，多数方法是通过图片。而该方法存在生成时间长、缺乏细节、难以匹配图像等缺点。加州大学、清华大学、斯坦福大学共同开发了全新模型“One-2-3-45++”并将其开源...

专访｜VideoPoet核心作者：揭秘谷歌革命性视频生成技术 01-05

原文来源：深思SenseAI 图片来源：由无界AI生成在全球新一代AI独角兽的竞赛中，视频生成技术作为最具潜力的领域之一备受关注。最近，Google推出了名为VideoPoet的大型语言模型，它不仅能够从文本和图像生成视频，还具备风格迁移、视频声音频等功能，其动作生成的丰富性和流畅度令人印象深刻，被广泛认为是革命性的zero-shot视频生成工具。本期专...

生成超清分辨率视频，南洋理工开源Upscale-A-Video 12-25

原文来源：AIGC开放社区图片来源：由无界AI生成大模型在生成高质量图像方面表现出色,但在生成视频任务中，经常会面临视频不连贯、图像模糊、掉帧等问题。这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯性。为了解决这些难题，新加坡南洋理工大学的研究人员开...

智源的压轴模型：370亿参数“开源版Gemini”，能理解乱序图文输入，还能生成视频 12-29

原文来源：GenAI新世界作者｜油醋图片来源：由无界AI‌生成从OpenAI的GPT-4V到谷歌的Gemini，逼着AI写诗的人少了，多模态大模型（MLLM）成了新的香饽饽。一篇关于多模态大模型的综述很好的概括了其相比于LLM的优越： MLLM更符合人类感知世界的方式。作者人类自然地接受多感官输入，这些输入往往是互补和合作的。因此，多模态信息有望使...

资讯排行

同类软件下载

字幕生成器学习工具
图像水印拍照摄影
爱字幕滚动字幕音乐视频
彩色文本学习工具
开源漫画购物优惠
开源小说购物优惠
指间字幕音乐视频
微字幕拍照摄影
净文本办公效率
图像匹配益智休闲

热门标签

热门软件推荐

热门游戏推荐

回顶部

好86下载 - 手机版 - 网站首页 - 最新更新

好86下载为玩家提供最新手游，热门软件下载，最全游戏攻略，最新行业资讯，尽在好86下载！

免责说明：本站内容全部由好86下载从互联网搜集编辑整理而成，版权归原作者所有，如有侵权，请联系我们删除。

Copyright © 2005 - 2021 hao86.com All rights reserved. 好86 版权所有.湘ICP备2021020172号-1