首页 > 区块链 > 效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴上VR眼镜

效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴上VR眼镜

时间：2024-01-11 13:27:11

来源：hao86下载

区块链

【#区块链# #效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴上VR眼镜#】

原文来源：量子位

图片来源：由无界 AI生成

一句话，就让绿巨人戴上VR眼镜。

4K画质那种。

熊猫的奇幻漂流~

这是字节最新的AI视频生成模型MagicVideo-V2，各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率，轻松hold各种绘图风格。

△从左往右：油画风、赛博风、设计风

测评效果超过Gen-2、Pika以及现有AI视频生成工具。

结果上线不到24小时就引发众人围观，比如一条推文就有近20万浏览量。

不少网友惊讶其效果，甚至直言：比runway和pika还要好。

“比runway和pika还要好”

研究人员也的确进行了实际的效果比较。选手分别为：MagicVideo-V2、StabilityAI的SVD-XT，新潜力玩家Pika1.0，以及Runway的Gen-2。

第一轮：光影效果。

夕阳西下，旅行者独自行走在迷雾森林中。

（从左到右依次是：MagicVideo-V2、SVD-XT，右上Pika，右下Gen-2，下同）

可以看到，MagicVideo-V2、Gen-2和Pika都有明显的光影。不过Pika看不出是为旅行者，MagicVideo-V2的色调更为丰富。

第二轮：情境剧情的表达。

1910 年代的情景喜剧，讲述社会中的日常生活和琐事

这一轮明显也是MagicVideo-V2、Gen-2更胜一筹。SVD-XT呈现的中景构图，虽然年代体现出来了，但表达不够。

第三轮：写实。

小男孩在公园的小路上骑着自行车，车轮踩在碎石上发出嘎吱嘎吱的声音.

这次对比就更为明显了。MagicVideo-V2和SVD-XT是完整体现出句子意思的，不过MagicVideo-V2可以看到小孩明显脚在动的细节。

除此之外，研究人员还将MagicVideo-V2与当下最先方法进行一对一的人类评估。

结果显示，相较于其他方法，人们认为MagicVideo-V2的效果更好。

（绿色、灰色和粉色条分别代表 MagicVideo-V2 被评价为更好、相当或较差的试验效果。）

如何实现？

简单来说，MagicVideo-V2是一条视频生成流水线，集成了文本到图像模型、视频运动生成器、参考图像嵌入模块、插值模块。

首先是有T2I模块首先根据文字生成1024×1024图像，随后I2V模块对该静态图像进行动画处理，生成600×600×32的帧序列，然后再用V2V模块增强，并完善视频内容，最后再用插值模块将序列扩展到94个帧。

这样一来，既保证了高保真，时间上也有连续性。

不过早在2022年11月字节曾推出了MagicVideo V1版。

不过，当时更强调的是高效性，它能在单个GPU卡上生成256x256分辨率的视频。

参考链接：
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
项目链接：
https://magicvideov2.github.io/
论文链接：
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018

小编推荐下载

英语一天一句学习工具
苏州话900句学习工具
和平精英绿巨人辅助娱乐消遣
组合模型2 动作冒险
素描效果生成编辑拍照摄影
上海话3000句生活实用
广东话3000句生活实用
华为VR视频音乐视频

相关推荐

更多>>

效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴上VR眼镜 01-11

原文来源：量子位图片来源：由无界AI生成一句话，就让绿巨人戴上VR眼镜。 4K画质那种。熊猫的奇幻漂流~ 这是字节最新的AI视频生成模型MagicVideo-V2，各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率，轻松hold各种绘图风格。 △从左往右：油画风、赛博风、设计风测评效果超过Gen-2、Pika以及现有AI视频生成工...

微信拍了拍后面加一句话怎么设置 02-05

微信拍了拍后面加一句话怎么设置?微信是一款大众都在使用的社交聊天软件，微信的功能十分的强大，不过很多小伙伴不知道微信拍了拍后面加一句话怎么设置，下面小编就给大家来介绍一下微信拍了拍后面加一句话怎么设置的方法，快来看看吧!微信拍了拍后面加一句话怎么设置1、第一步在手机中打开微信app,点击右下角的“我”按钮。2、随后点击上方的“个人头像”。3、接着点击“拍一拍...

Midjourney 计划引入文本生成视频模型 01-06

文章来源：AI猿图片来源：由无界AI生成在人工智能内容创作领域的重大演变中，Midjourney（创新图像生成的代名词）现在将目光投向视频领域。这一战略转变标志着该公司的一个关键时刻，该公司以其在Discord服务器内运行的令人印象深刻的人工智能驱动的图像创建工具而闻名。Midjourney向视频生成领域的扩张不仅标志着公司本身的发展，还反映了人工智能...

专访｜VideoPoet核心作者：揭秘谷歌革命性视频生成技术 01-05

原文来源：深思SenseAI 图片来源：由无界AI生成在全球新一代AI独角兽的竞赛中，视频生成技术作为最具潜力的领域之一备受关注。最近，Google推出了名为VideoPoet的大型语言模型，它不仅能够从文本和图像生成视频，还具备风格迁移、视频声音频等功能，其动作生成的丰富性和流畅度令人印象深刻，被广泛认为是革命性的zero-shot视频生成工具。本期专...

文生视频下一站，Meta已经开始视频生视频了 01-02

文章来源：机器之心图片来源：由无界AI生成文本指导的视频到视频（V2V）合成在各个领域具有广泛的应用，例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像（I2I）的合成方式，但在视频到视频（V2V）合成方面面临维持视频帧间时间一致性的挑战。在视频上应用I2I模型通常会在帧之间产生像素闪烁。为了解决这个问题，来自得州大学奥斯汀分校、Met...

只需一张图片、一句动作指令，Animate124轻松生成3D视频 12-21

Animate124，轻松将单张图片变成3D视频。原文来源：机器之心图片来源：由无界AI生成近一年来，DreamFusion引领了一个新潮流，即3D静态物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了3D静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步，逐渐融入单视角图像，进而发展到整合多种控制信号。 ...

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了 01-16

原文来源：机器之心图片来源：由无界AI生成又有新的开源模型可以用了。从Llama、Llama2到Mixtral8x7B，开源模型的性能记录一直在被刷新。由于Mistral8x7B在大多数基准测试中都优于Llama270B和GPT-3.5，因此它也被认为是一种「非常接近GPT-4」的开源选项。在前段时间的一篇论文中，该模型背后的公司MistralAI...

智源的压轴模型：370亿参数“开源版Gemini”，能理解乱序图文输入，还能生成视频 12-29

原文来源：GenAI新世界作者｜油醋图片来源：由无界AI‌生成从OpenAI的GPT-4V到谷歌的Gemini，逼着AI写诗的人少了，多模态大模型（MLLM）成了新的香饽饽。一篇关于多模态大模型的综述很好的概括了其相比于LLM的优越： MLLM更符合人类感知世界的方式。作者人类自然地接受多感官输入，这些输入往往是互补和合作的。因此，多模态信息有望使...

资讯排行