Wan 2.1 & WanX 2.1 & Wan AI

什么是Wan 2.1 by Wan AI?

Wan AI是由阿里巴巴集团的通义实验室开发的一种先进且强大的视觉生成模型。它可以基于文本、图像和其他控制信号生成视频。Wan 2.1系列模型现已全面开源。探索示例

Wan AI概述

👍

领先的性能

Wan 2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。

🚀

支持消费级GPU

T2V-1.3B模型仅需8.19 GB显存,几乎兼容所有消费级GPU。它可以在RTX 4090上大约4分钟内生成一段5秒的480P视频(不包括量化等优化技术)。其性能甚至可以与一些闭源模型媲美。

🎉

多任务支持

Wan 2.1在文本到视频、图像到视频、视频编辑、文本到图像和视频到音频等任务中表现出色,推动了视频生成领域的发展。

🔮

视觉文本生成

Wan 2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成能力,增强了其实际应用价值。

💪

Wan AI的强大视频VAE

Wan-VAE在编码和解码1080P视频时表现出色,能够保留时间信息,是视频和图像生成的理想基础。

Wan AI的特点

复杂动作

擅长生成包含大量身体动作、复杂旋转、动态场景转换和流畅镜头移动的真实视频。

物理模拟

生成的视频能够准确模拟现实世界的物理效果和真实的物体交互。

电影级画质

提供丰富的质感和多种风格化效果的电影级视觉效果。

可控编辑

使用图像或视频作为参考进行精确编辑的通用编辑模型。

视觉文本生成

直接从文本提示中在视频中创建文本和动态文本效果。

8位赛车

提示:一段复古8位风格的赛车开场动画。像素风格的肌肉车,每辆车都有独特的颜色和设计,排列在辽阔的像素沙漠赛道的起跑线上。大块的像素文字“WANX RACING”在赛车上方以霓虹色闪烁,令人联想到经典街机游戏的标题。镜头扫过场景,突出了复古的美感和文字。背景是简单的像素沙漠风景,有一个方块的日落投射出温暖的金色光芒。整个环境都沐浴在鲜艳的像素霓虹色中,增强了怀旧感。

圣诞快乐

提示:现实主义,装饰精美的圣诞派对场景,圣诞树上挂满了五彩斑斓的灯光和礼物,壁炉里的火焰跳动,戴着圣诞帽的姜饼人围着树跳舞,桌子上摆满了烤火鸡和其他美食。屏幕上弹出精美的文字效果:“圣诞快乐!”画面精致、简洁、优雅。

疯狂赛车

提示:一部虚构的70年代风格动作电影的片头序列。手绘、风格化的文字“WANX”动态地出现在屏幕上,叠加在高速的赛车追逐、爆炸和惊险特技镜头上。文字粗犷、略带失真,反映了70年代动作电影的风格。蒙太奇镜头带有复古的底片效果,色调温暖、怀旧。场景沐浴在金色夕阳的光芒中,增强了怀旧感。

音效与音乐

生成与视觉内容和节奏完美契合的音效和背景音乐。

水獭入水

提示:镜头从远到近快速移动,俯拍角度,站在一根圆木上。远景中,一只白色水獭突然出现,玩耍着圆木并跳入水中,然后游出水面,探出头来。此时,镜头推近,特写白色水獭。几棵浆果树旁边被水花溅湿,地面上覆盖着苔藓和雪,水面上漂浮着绿色的落叶。背景是白桦树。

Wan AI的音乐会

提示:一群人在维也纳大厅演奏交响乐。

冰块掉落

提示:一群人在维也纳大厅演奏交响乐。

产品特点

通过我们的产品,您可以无缝地利用我们的模型,享受用户友好的体验,访问激动人心的视频内容。

Wan AI开源

在这个仓库中,我们发布了Wan2.1的代码和权重,这是一套全面且开放的视频基础模型,旨在推动视频生成的界限。

Wan2.1-I2V-14B

I2V-14B模型在所有现有的开源模型和闭源模型中表现最佳,达到了SOTA性能。它能够基于输入的文本和图像生成包含复杂视觉场景和运动模式的视频,包括480P和720P分辨率的模型。

Wan2.1-T2V-14B

😊480-720P

T2V-14B模型在开源和闭源模型中都达到了新的SOTA性能,展示了其生成高质量视觉效果和显著运动动态的能力。它也是唯一能够生成中英文文本的视频模型,支持480P和720P分辨率的视频生成。

Wan2.1-T2V-1.3B

😊480P

T2V-1.3B模型支持在几乎所有消费级GPU上进行视频生成,仅需8.19 GB的BRAM即可生成一段5秒的480P视频,在RTX 4090 GPU上的输出时间仅为4分钟。通过预训练和蒸馏过程,它超越了更大的开源模型,甚至在性能上可以与一些先进的闭源模型媲美。

技术报告

敬请期待即将发布的详细技术报告。

基于主流扩散变压器范式,Wan 2.1通过一系列创新,包括我们的新型时空变分自编码器(VAE)、可扩展的预训练策略、大规模数据构建和自动化评估指标,在生成能力上取得了显著进展。这些贡献共同提升了模型的性能和多样性。

常见问题

1

什么是Wan 2.1 by Wan AI,它是如何工作的?

Wan 2.1 by Wan AI是阿里巴巴云的最新视频生成模型,能够将文本描述转化为令人惊叹的高质量视频。通过使用变分自编码器(VAE)和扩散变压器(DiT)等先进技术,它确保了真实的视觉效果、平滑的过渡和准确的物理效果,带来了真正沉浸式的体验。

2

使用Wan 2.1 by Wan AI需要技术专长吗?

Wan 2.1 by Wan AI设计简单易用。其直观的界面使任何人都能轻松创建专业质量的视频,即使没有高级技术技能。无论您是初学者还是专业人士,都会发现该平台易于导航和使用。

3

我可以用Wan 2.1 by Wan AI创建哪些类型的视频?

Wan 2.1 by Wan AI功能多样,能够生成各种视频内容。从动态场景如舞蹈和体育运动,到教育教程和历史视频修复,它能够帮助您实现创意。

4

生成视频需要多长时间?

视频生成时间取决于项目的复杂性和长度。对于更快的结果,专业版提供加速处理速度,非常适合时间敏感的任务。

5

我可以自定义视频输出吗?

当然可以!Wan 2.1 by Wan AI提供广泛的自定义选项,允许您调整分辨率、帧率、运动复杂性等。根据您的具体需求和偏好定制视频。

6

Wan 2.1 by Wan AI支持哪些输入格式进行视频生成?

Wan 2.1 by Wan AI主要支持文本描述作为视频生成的输入。您可以提供详细的文本提示,描述场景、动作和所需的视觉效果。此外,它可能在未来的更新中支持图像输入以增强上下文。

7

Wan 2.1 by Wan AI可以生成多种语言的视频吗?

是的,Wan 2.1 by Wan AI支持多种语言的文本输入,允许您根据各种语言的描述生成视频。不过,输出质量可能因语言和描述的复杂性而异。

8

Wan 2.1 by Wan AI生成的视频长度有限制吗?

视频长度取决于订阅计划。免费版本可能对视频时长有限制,而专业版支持更长和更复杂的视频生成。具体限制可以在平台的文档中找到。

9

Wan 2.1 by Wan AI如何确保生成视频的质量?

Wan 2.1 by Wan AI利用变分自编码器(VAE)和扩散变压器(DiT)等先进技术,确保高质量的输出。这些技术使得视觉效果真实、过渡平滑、物理模拟准确。

10

Wan 2.1 by Wan AI如何处理包含多个角色的复杂场景?

Wan 2.1 by Wan AI通过分析文本输入中描述的角色关系和互动,来处理包含多个角色的复杂场景。它使用先进的算法确保角色的定位、动作和互动真实。