Wan 2.1 & WanX 2.1 & Wan AI
Wan 2.1 by Wan AIとは?
Wan AIは、アリババグループの通義研究所によって開発された先進かつ強力な視覚生成モデルです。テキスト、画像、その他の制御信号からビデオを生成することができます。Wan 2.1シリーズモデルは現在完全オープンソースです。サンプルを探索
Wan AIの概要
最先端のパフォーマンス
Wan 2.1は、複数のベンチマークで一貫して既存のオープンソースモデルおよび最先端の商用ソリューションを上回ります。
消費者向けGPUのサポート
T2V-1.3Bモデルは、わずか8.19 GBのVRAMで動作し、ほとんどすべての消費者向けGPUと互換性があります。RTX 4090では、量子化などの最適化技術を使用せずに約4分で480Pの5秒間のビデオを生成できます。そのパフォーマンスは、一部のクローズドソースモデルとも匹敵します。
複数のタスク
Wan 2.1は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオからオーディオの生成において優れたパフォーマンスを発揮し、ビデオ生成の分野を進化させます。
視覚的なテキスト生成
Wan 2.1は、中英文のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
Wan AIの強力なビデオVAE
Wan-VAEは、1080Pビデオのエンコードとデコードにおいて優れたパフォーマンスを発揮し、時間情報を保持します。ビデオおよび画像生成の理想的な基盤となります。
Wan AIの特徴
複雑な動き
広範な体の動き、複雑な回転、ダイナミックなシーン遷移、滑らかなカメラ動きを含むリアルなビデオの生成に優れています。
物理シミュレーション
生成されたビデオは、現実の物理効果とリアルなオブジェクトの相互作用を正確にシミュレートします。
シネマチックな品質
豊かなテクスチャと多様なスタイリッシュな効果を備えた映画のような視覚効果を提供します。
制御可能な編集
画像またはビデオを参考にして正確な編集を行うためのユニバーサルな編集モデルを備えています。
視覚的なテキスト生成
テキストプロンプトからビデオ内でテキストとダイナミックなテキスト効果を直接生成します。
8ビットレース
プロンプト:レトロな8ビットスタイルのカーレースのイントロアニメーション。ピクセルアートのマッスルカーが、それぞれ異なる色とデザインで荒涼としたピクセル砂漠のスタートラインに並んでいます。カーの上には、クラシックなアーケードゲームのタイトルを思い起させる鮮やかなネオンカラーで「WANX RACING」という大きなピクセル文字が点滅しています。カメラはシーンをパンし、レトロな美学とテキストを強調します。背景は単純なピクセル砂漠の風景で、ブロック状の日没が暖かい金色の光を投げかけています。環境全体が鮮やかなピクセルネオンカラーに包まれ、懐古的な雰囲気を高めています。
メリークリスマス
プロンプト:リアルな、美しく装飾されたクリスマスパーティーのシーン。クリスマスツリーにはカラフルなライトとプレゼントが飾られ、暖炉では炎が踊り、クリスマス帽をかぶったジンジャーブレッドマンがツリーの周りで踊っています。テーブルには焼き鳥やその他のごちそうが並んでいます。画面には「メリークリスマス!」という精巧なテキスト効果が表示されます。画面は精巧でシンプル、そしてエレガントです。
狂ったレース
プロンプト:架空の70年代風アクション映画のオープニングシーケンス。手書き風のスタイリッシュな「WANX」のテキストが画面にダイナミックに表示され、高速のカーチェイス、爆発、惜しみないスタントのクリップに重なっています。テキストは大胆で少し歪んでおり、70年代のアクション映画の美学を反映しています。モンタージュのシーンにはレトロなフィルムグレイン効果があり、温かいビンテージカラーで表示されます。シーン全体が黄昏の光に包まれ、懐古的な雰囲気を高めています。
音声効果と音楽
視覚コンテンツとリズムに完全に一致する音声効果と背景音楽を生成します。
イタチが水に入る
プロンプト:カメラは遠くから近くへと素早く移動し、低い角度から丸太の上に立っています。遠景では、突然白いイタチが現れ、丸太と遊びながら水に飛び込み、その後水から出てきて頭を出します。この瞬間、カメラは白いイタチのクローズアップを撮影します。いくつかのベリーツリーの近くには水しぶきがかかり、地面は苔と雪に覆われ、水面には緑の落ち葉が浮かんでいます。背景は白樺です。
Wan AIのコンサート
プロンプト:一団の人々がウィーンホールで交響曲を演奏しています。
氷が落ちる
プロンプト:一団の人々がウィーンホールで交響曲を演奏しています。
製品の特徴
当社の製品を通じて、モデルをシームレスに活用し、ユーザーフレンドリーな体験を提供し、インスピレーションに満ちたビデオコンテンツにアクセスできます。
Wan AIのオープンソース
このリポジトリでは、Wan2.1のコードと重みを公開しています。これは、ビデオ生成の限界を押し広げるための包括的でオープンなビデオ基盤モデルのスイートです。
I2V-14Bモデルは、既存のオープンソースモデルおよびクローズドソースモデルを上回り、SOTAパフォーマンスを達成します。テキストと画像の入力に基づいて、複雑な視覚シーンと動きのパターンを持つビデオを生成できます。480Pおよび720P解像度のモデルがあります。
Wan2.1-T2V-14B
😊480-720PT2V-14Bモデルは、オープンソースおよびクローズドソースモデルの中で新たなSOTAパフォーマンスを達成し、高品質なビジュアルと大きな動きのダイナミクスを生成する能力を示しています。中英文のテキストを生成できる唯一のビデオモデルであり、480Pおよび720P解像度のビデオ生成をサポートしています。
Wan2.1-T2V-1.3B
😊480PT2V-1.3Bモデルは、ほとんどすべての消費者向けGPUでビデオ生成をサポートしており、480Pビデオを生成するのにわずか8.19 GBのBRAMしか必要ありません。RTX 4090 GPUでの出力時間はわずか4分です。プレトレーニングと蒸留プロセスを通じて、より大きなオープンソースモデルを上回り、一部の先進的なクローズドソースモデルとも匹敵するパフォーマンスを発揮します。
Wan2.1-FLF2V-14B-720P
Wan 2.1 First-Last-Frame-to-Video (FLF2V)は、与えられた開始フレームと終了フレーム間の中間フレームを合成してスムーズな動画を生成するAIベースの動画生成技術です。14Bパラメータモデルを活用し、マルチGPU加速推論をサポートし、インタラクティブなテスト用のGradioデモを備えた事前学習済みチェックポイントを提供します。ビデオインペインティング、アニメーション制作などに応用可能です。
技術レポート
詳細な技術報告書の発表をお楽しみに。
主流の拡散トランスフォーマーパラダイムに基づき、Wan 2.1は一連の革新により生成能力を大幅に向上させました。新しい時空変分オートエンコーダ(VAE)、スケーラブルなプレトレーニング戦略、大規模データ構築、自動化評価指標などの貢献により、モデルのパフォーマンスと多様性が向上しました。
なぜWan AIを選ぶのか?
業界をリードする技術と比類のない機能で、AIビデオ生成の未来を体験してください。
超高品質な出力
リアルな細部と正確な物理シミュレーションを備えた映画品質の動画を生成。
高度なモーション制御
複雑な動き、回転、自然な体の動きをシームレスに処理。
グローバル言語サポート
世界中の視聴者向けに多言語テキストエフェクトを備えた動画を作成。
超高速処理
次世代3D因果VAEを搭載し、無制限の1080P動画生成を実現。
手頃な価格での卓越性
従来のコストのわずかな fraction で実現するプロフェッショナルグレードの動画制作。
よくある質問
Wan 2.1 by Wan AIとは何ですか?どのように動作しますか?
Wan 2.1 by Wan AIは、アリババクラウドの最新のビデオ生成モデルで、驚異的な高品質ビデオをテキストの説明から生成します。変分オートエンコーダ(VAE)と拡散トランスフォーマー(DiT)などの先進技術を使用して、リアルな視覚効果、スムーズな遷移、正確な物理効果を確保し、真に没入感のある体験を提供します。
Wan 2.1 by Wan AIを使用するために技術的な知識が必要ですか?
Wan 2.1 by Wan AIはシンプルな設計で、誰でも簡単にプロフェッショナルな品質のビデオを作成できます。直感的なインターフェースにより、初心者でもプロでも、簡単にナビゲートして使用できます。
Wan 2.1 by Wan AIでどのような種類のビデオを作成できますか?
Wan 2.1 by Wan AIは多才で、ダイナミックなシーンからダンスやスポーツまで、教育チュートリアルや歴史的なビデオ修復まで、さまざまなビデオコンテンツを生成できます。
ビデオの生成にはどのくらいの時間がかかりますか?
ビデオの生成時間は、プロジェクトの複雑さと長さに依存します。プロ版では、処理速度が加速され、時間に敏感なタスクに最適です。
ビデオの出力をカスタマイズできますか?
もちろんです!Wan 2.1 by Wan AIは、解像度、フレームレート、動きの複雑さなど、広範なカスタマイズオプションを提供しています。あなたの具体的なニーズと好みに合わせてビデオをカスタマイズしてください。
Wan 2.1 by Wan AIはビデオ生成のためにどの入力形式をサポートしていますか?
Wan 2.1 by Wan AIは主にテキストの説明をビデオ生成の入力としてサポートしています。詳細なテキストプロンプトを提供して、シーン、アクション、望む視覚効果を説明します。今後のアップデートでは、コンテキストを強化するための画像入力もサポートする予定です。
Wan 2.1 by Wan AIは複数の言語でビデオを生成できますか?
はい、Wan 2.1 by Wan AIは複数の言語のテキスト入力をサポートしており、さまざまな言語の説明に基づいてビデオを生成できます。ただし、出力の品質は言語や説明の複雑さによって異なる場合があります。
Wan 2.1 by Wan AIで生成できるビデオの長さに制限はありますか?
ビデオの長さはサブスクリプションプランに依存します。無料版ではビデオの長さに制限がある場合がありますが、プロ版ではより長くて複雑なビデオ生成をサポートしています。具体的な制限については、プラットフォームのドキュメントを参照してください。
Wan 2.1 by Wan AIは生成されたビデオの品質をどのようにして確保していますか?
Wan 2.1 by Wan AIは、変分オートエンコーダ(VAE)と拡散トランスフォーマー(DiT)などの先進技術を使用して、高品質の出力を確保しています。これらの技術により、視覚効果がリアルで、遷移がスムーズで、物理シミュレーションが正確になります。
Wan 2.1 by Wan AIは複数のキャラクターが含まれる複雑なシーンをどのように処理しますか?
Wan 2.1 by Wan AIは、テキスト入力で説明されたキャラクターの関係と相互作用を分析することで、複数のキャラクターが含まれる複雑なシーンを処理します。先進のアルゴリズムを使用して、キャラクターの配置、動き、相互作用がリアルになるようにします。