テキストからビデオへのモデル
テキストからビデオへのモデルは、自然言語の記述を入力として使用し、入力テキストに関連するビデオを生成する生成人工知能の一種です。 [ 1 ] 2020年代における高品質のテキスト条件付きビデオの生成の進歩は、主にビデオ拡散モデルの開発によって推進されてきました。[ 2 ]
モデル
オープンソースモデルなど、様々なモデルがあります。中国語入力[ 3 ] CogVideoは、94億のパラメータを持つ最も初期のテキスト動画変換モデルであり、オープンソースコードのデモ版が2022年に初めてGitHubで公開されました。 [ 4 ]その年、Meta Platformsは「Make-A-Video」と呼ばれる部分的なテキスト動画変換モデルをリリースし、[ 5 ] [ 6 ] [ 7 ] GoogleのBrain(後のGoogle DeepMind )は、3D U-Netを使用したテキスト動画変換モデルであるImagen Videoを発表しました。[ 8 ] [ 6 ] [ 9 ] [ 10 ] [ 11 ]
2023年2月、RunwayはGen-1とGen-2をリリースしました。これらは、Webインターフェースを通じて一般に公開された、商用利用可能な最初のテキストからビデオへの変換モデルとビデオからビデオへの変換モデルの1つです。当初、ビデオからビデオへの変換モデルとしてリリースされたGen-1では、ユーザーはテキストまたは画像のプロンプトを使用して既存のビデオ映像を変換できました。[ 12 ] 2023年3月に導入され、2023年6月に一般公開されたGen-2では、テキストからビデオへの変換機能が追加され、ユーザーはテキストプロンプトのみからビデオを生成できるようになりました。[ 13 ]
2023年3月には、「VideoFusion:高品質ビデオ生成のための分解拡散モデル」と題された研究論文が発表され、ビデオ生成への新しいアプローチが提示されました。[ 14 ] VideoFusionモデルは、拡散プロセスをベースノイズと残差ノイズの2つの要素に分解し、これらをフレーム間で共有することで時間的な一貫性を確保します。事前学習済みの画像拡散モデルをベースジェネレーターとして利用することで、このモデルは高品質で一貫性のあるビデオを効率的に生成しました。事前学習済みモデルをビデオデータで微調整することで、画像とビデオデータ間のドメインギャップに対処し、リアルで一貫性のあるビデオシーケンスを生成するモデルの能力を向上させました。[ 15 ]同月、AdobeはFirefly AIを機能の一部として導入しました。[ 16 ]
2024年1月、GoogleはLumiereというテキスト動画変換モデルの開発を発表した。これは高度な動画編集機能を統合すると予想される。[ 17 ] AI企業SynthesiaのMatthias NiessnerとLourdes Agapitoは、アバターの制御可能な動画合成のために、形状、外観、動きの2Dおよび3Dニューラルレンダリング技術を使用してリアルな動画を合成できる3Dニューラルレンダリング技術の開発に取り組んでいる。[ 18 ] 2024年6月、Luma LabsはDream Machine動画ツールをリリースした。[ 19 ] [ 20 ]同月、[ 21 ] KuaishouはKling AIテキスト動画変換モデルを国際ユーザーに拡大した。2024年7月、TikTokの所有者であるByteDanceは、子会社のFaceu Technologyを通じて中国でJimeng AIをリリースした。[ 22 ] 2024年9月までに、中国のAI企業MiniMaxはvideo-01モデルを発表し、Zhipu AI、Baichuan、Moonshot AIなどの既存のAIモデル企業に加わり、中国のAI技術への関与に貢献しました。[ 23 ] 2024年12月、LightricksはオープンソースモデルとしてLTX Videoを立ち上げました。[ 24 ]
テキストを動画に変換するモデルに対する代替アプローチとしては、[ 25 ] GoogleのPhenaki、Hour One、Colossyan、[ 3 ] RunwayのGen-3 Alpha、[ 26 ] [ 27 ] OpenAIの Sora、[ 28 ] [ 29 ]などがある。さらにPlug-and-Play、Text2LIVE、TuneAVideoなど、いくつかのテキストを動画に変換するモデルが登場している。[ 30 ] FLUX.1の開発元であるBlack Forest Labsは、テキストを動画に変換するモデルSOTAを発表した。[ 31 ] Googleは2025年にYouTube Shorts向けのVeoという動画生成ツールをリリースする準備をしていた。[ 32 ] 2025年5月、GoogleはこのモデルのVeo 3イテレーションをリリースした。これは、以前のテキストを動画に変換するモデルの制約であった、優れたオーディオ生成機能で注目された。[ 33 ] 2025年7月、Lightricksは60秒までのクリップを生成できるLTX Videoのアップデートをリリースし、[ 34 ] [ 35 ]、2025年10月にはオーディオ機能を内蔵したLTX-2をリリースした。[ 36 ]
アーキテクチャとトレーニング
テキストから動画への変換モデルの作成には、いくつかのアーキテクチャが用いられてきました。テキストから画像への変換モデルと同様に、これらのモデルは、長短期記憶(LSTM)ネットワークなどのリカレントニューラルネットワーク(RNN)を用いて学習できます。LSTMネットワークは、ピクセル変換モデルや確率的動画生成モデルに利用されており、それぞれ一貫性とリアリティの向上に貢献しています。[ 37 ]これらの代替として、トランスフォーマーモデルがあります。敵対的生成ネットワーク(GAN)、変分オートエンコーダ(VAE)(人間の動きの予測に有効[ 38 ])、拡散モデルなども、モデルの画像生成機能の開発に利用されています。[ 39 ]
モデルのトレーニングに使用されるテキストビデオデータセットには、WebVid-10M、HDVILA-100M、CCV、ActivityNet、Panda-70Mなどが含まれますが、これらに限定されるわけではありません。[ 40 ] [ 41 ]これらのデータセットには、モデルの精度をトレーニングするのに役立つ数百万の興味深いオリジナルビデオ、生成されたビデオ、キャプション付きビデオ、テキスト情報が含まれています。モデルのトレーニングに使用されるテキストビデオデータセットには、PromptSource、DiffusionDB、VidProMなどが含まれますが、これらに限定されるわけではありません。[ 40 ] [ 41 ]これらのデータセットは、さまざまなテキストプロンプトを解釈する方法をモデルに教えるために必要なさまざまなテキスト入力を提供します。
動画生成プロセスでは、テキスト入力と動画フレームを同期させ、シーケンス全体の位置合わせと一貫性を確保します。この予測プロセスは、リソースの制限により、動画の長さが長くなるにつれて品質が低下する可能性があります。[ 41 ]ウィル・スミスのスパゲッティを食べるテストは、モデルのベンチマークとなっています。[ 42 ]
制限事項
テキストから動画への変換モデルの性能は急速に進化しているが、その主な制限として、計算量が非常に多いため、高品質で長い出力を提供する能力が制限されている。[ 43 ] [ 44 ]さらに、これらのモデルは、高品質で一貫性のある出力を生成するために大量の特定のトレーニングデータを必要とし、アクセシビリティの問題を引き起こす。[ 44 ] [ 43 ]
さらに、モデルがテキストプロンプトを誤って解釈し、意図した意味とは異なる動画出力を生成する可能性があります。これは、テキストに埋め込まれた意味的コンテキストを捉える際の限界によって発生する可能性があり、生成された動画をユーザーの意図したメッセージと整合させるモデル能力に影響を与えます。[ 44 ] [ 41 ] Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA、NUWAなど、様々なモデルが現在テストと改良を進めており、テキストから動画への生成における整合能力と全体的なパフォーマンスの向上が図られています。[ 44 ]
出力に関するもう一つの問題は、AI生成動画内のテキストや細部が文字化けしてしまうことです。これは、安定拡散モデルでも解決が難しい問題です。例えば、手形が歪んだり、テキストが判読不能になったりします。
倫理
テキストから動画への変換モデルの導入は、コンテンツ生成に関する倫理的な問題を提起する。これらのモデルは、不適切なコンテンツや無許可のコンテンツ、例えば露骨な内容、暴力描写、誤情報、実在の人物の肖像を同意なしに作成する可能性がある。[ 40 ] AI生成コンテンツが安全かつ倫理的な利用に関する確立された基準に準拠していることを保証することは不可欠である。なぜなら、これらのモデルによって生成されたコンテンツは、必ずしも有害または誤解を招くと容易に識別できるとは限らないからである。AIがNSFWコンテンツや著作権で保護されたコンテンツを認識してフィルタリングする能力は、依然として課題であり、制作者と視聴者の両方に影響を与える。[ 40 ]
影響と応用
テキストから動画への変換モデルは、教育、プロモーション、クリエイティブ産業など、様々な分野にメリットをもたらす幅広いアプリケーションを提供します。これらのモデルは、トレーニングビデオ、映画の予告編、ゲームアセット、視覚化などのコンテンツ作成を効率化し、コンテンツ生成を容易にします。[ 45 ]
露露戦争中、ウクライナに対するプロパガンダ戦の一環として、人工知能(AI)を用いて偽の動画が作成され、ソーシャルメディアで共有されました。これらの動画には、ウクライナ軍の子供たちの描写、子供たちをターゲットにしてウクライナ政府批判者を非難するよう促す偽広告、ウクライナのウォロディミル・ゼレンスキー大統領によるウクライナ降伏に関する虚偽の発言などが含まれていました。[ 46 ] [ 47 ] [ 48 ] [ 49 ] [ 50 ] [ 51 ]
映画
『Kaur vs Kore』は、 AIキャラクターのサニー・レオーネが二役を演じる、生成AIを使用して制作された初のインド長編映画で、2026年に公開予定です。[ 52 ] [ 53 ] [ 54 ]
『チランジーヴィ・ハヌマーン - 永遠』は、ヴィジャイ・スブラマニアムが開発した生成AIのみを使用して制作されたインド映画で、2026年に劇場公開が予定されています。この映画は、AIに完全に依存しているとしてボリウッド業界の映画製作者から広く批判され、AIの使用は彼らのキャリアに対する実存的な脅威と見なされました。[ 55 ] [ 56 ] [ 57 ]
シリーズ
『マハーバーラタ:エク・ダルマユド』は、2025年10月にリリースされ、 JioHotstarで配信されたインド神話のOTTシリーズです。映像とキャラクターアニメーションの生成に人工知能のみを使用して制作された最初のシリーズとして知られており、全100話で構成されています。[ 58 ] [ 59 ] [ 60 ]
モデルの比較
| モデル/製品 | 会社 | 公開年 | 状態 | 主な特徴 | 機能 | 価格 | ビデオの長さ | サポートされている言語 |
|---|---|---|---|---|---|---|---|---|
| シンセシア | シンセシア | 2019 | リリース | AIアバター、60以上の言語に対応した多言語サポート、カスタマイズオプション[ 61 ] | 企業研修やマーケティングのためのリアルなAIアバターに特化[ 61 ] | サブスクリプションベース、月額約30ドルから | サブスクリプションによって異なります | 60歳以上 |
| ベクスブ | ベクスブ | 2023 | リリース | プロンプトからのテキストからビデオへの変換、ソーシャルメディア向けのTikTokとYouTubeのストーリーテリング形式に焦点を当てる[ 62 ] | テキストプロンプトからAIビデオ(1~15分)を生成し、編集機能と音声機能を備えています[ 62 ] | サブスクリプションベース、さまざまなプランあり | 最大約15分 | 70歳以上 |
| インビデオAI | ビデオ内 | 2021 | リリース | AIを活用したビデオ作成、大規模なストックライブラリ、AIが話すアバター[ 61 ] | プラットフォーム固有のテンプレートを使用してソーシャルメディアコンテンツに合わせてカスタマイズ[ 61 ] | 無料プランあり、有料プランは月額16ドルから | コンテンツの種類によって異なります | 複数(指定なし) |
| フリキ | フリキAI | 2022 | リリース | AIアバターと音声によるテキストビデオ、幅広い言語と音声のサポート[ 61 ] | 65以上のAIアバターと70言語の2,000以上の音声をサポート[ 61 ] | 無料プランあり、有料プランは月額30ドルから | サブスクリプションによって異なります | 70歳以上 |
| 滑走路 Gen-2 | 滑走路AI | 2023 | リリース | テキスト、画像、ビデオからのマルチモーダルビデオ生成[ 63 ] | 高品質のビジュアル、様式化やストーリーボードなどのさまざまなモード[ 63 ] | 無料トライアル、有料プラン(詳細は未定) | 最大16秒 | 複数(指定なし) |
| ピカラボ | ピカラボ | 2024 | ベータ | 動的ビデオ生成、カメラとモーションのカスタマイズ[ 64 ] | ユーザーフレンドリーで自然なダイナミック生成に重点を置いている[ 64 ] | 現在ベータ版は無料 | 柔軟性が高く、フレーム継続による長いビデオをサポート | 複数(指定なし) |
| 滑走路 Gen-3アルファ | 滑走路AI | 2024 | アルファ | 強化された視覚的忠実度、写真のようにリアルな人間、きめ細かな時間制御[ 65 ] | 正確なキーフレームと業界レベルのカスタマイズによる超リアルなビデオ生成[ 65 ] | 無料トライアルあり、企業向けにカスタム価格設定あり | クリップごとに最大10秒、延長可能 | 複数(指定なし) |
| Google Veo | グーグル | 2024 | リリース | Google Geminiの音声ガイド、音声、効果音、BGM。映画のようなリアルな動画。[ 66 ] | 非常にリアルで詳細なキャラクターモデル/シーン/クリップを生成でき、それに合わせて音声、環境音、BGMも調整可能です。クリップを連続的に拡張することも可能です。[ 67 ] | 異なります(250 ドルの Google Pro/Ultra AI サブスクリプションと追加の AI クレジット トップアップ) | 個々のクリップは8秒です(ただし、クリップは個別のクリップとして継続/拡張できます) | 50歳以上 |
| OpenAI ソラ | オープンAI | 2024 | アルファ | 深い言語理解、高品質の映画のような映像、マルチショットビデオ[ 68 ] | 詳細でダイナミック、感情表現豊かな動画を作成可能。安全対策については現在開発中[ 68 ] | 価格はまだ明らかにされていない | より長いビデオが生成される予定です。長さの詳細は未定です。 | 複数(指定なし) |
| 滑走路 Gen-4 | 滑走路 | 2025 | リリース | シーン全体でのキャラクターの一貫性、[ 69 ]世界の一貫性、[ 70 ]カメラ制御、物理シミュレーション | 複数のショットにわたって一貫したキャラクター、オブジェクト、環境を含む5~10秒のクリップを生成します[ 71 ] | クレジットベースのサブスクリプション(有料プランの一部) | 5~10秒 | 複数(指定なし) |
| クリング | 快手 | 2024 | ||||||
| シーダンス | バイトダンスシード | 2025 | ||||||
| フラックスコンテキスト | ブラックフォレストラボ(BFL) | 2024 | ||||||
| ミニマックス | ミニマックス | 2024 |
参照
参考文献
- ^人工知能指数レポート2023 (PDF) (レポート). スタンフォード人間中心人工知能研究所. p. 98.
2022年には、複数の高品質なテキスト動画変換モデル(プロンプトテキストから動画クリップを生成できるAIシステム)がリリースされました。
- ^メルニック、アンドリュー;リュブリャナク、ミハル。ルー、コン。ヤン、チー。レン、ウェイミン。リッター、ヘルゲ(2024年5月6日)。 「ビデオ普及モデル: 調査」。arXiv : 2405.03150 [ cs.CV ]。
- ^ a b Wodecki, Ben (2023年8月11日). 「Text-to-Video Generative AI Models: The Definitive List」 . AI Business . Informa . 2024年11月18日閲覧。
- ^ CogVideo、THUDM、2022年10月12日、 2022年10月12日閲覧
- ^ Davies, Teli (2022年9月29日). 「Make-A-Video: Meta AIによるテキストからビデオへの生成のための新モデル」 . Weights & Biases . 2022年10月12日閲覧。
- ^ a b Monge, Jim Clyde (2022年8月3日). 「このAIはテキストプロンプトから動画を作成できる」 . Medium . 2022年10月12日閲覧。
- ^ 「MetaのMake-A-Video AIがテキストから動画を作成」 www.fonearena.com 2022年10月12日閲覧。
- ^ 「Google:GoogleがMetaに対抗、独自の動画生成AIを導入」 The Economic Times . 2022年10月6日. 2022年10月12日閲覧。
- ^ 「いやいや、Meta、テキストから動画へのAIもできるとGoogleは言っています」 The Register . 2022年10月12日閲覧。
- ^ 「Papers with Code - 見て、計画して、予測する:ビデオ予測による言語誘導型認知プランニング」 paperswithcode.com . 2022年10月12日閲覧。
- ^ 「Papers with Code - テキスト駆動型動画予測」paperswithcode.com . 2022年10月12日閲覧。
- ^ページ、Will Douglas Heavenarchive。「Stable Diffusionの創業者がビデオ生成AIを発表」 MIT Technology Review 。 2025年10月17日閲覧。
- ^ Wiggers, Kyle (2023年6月9日). 「RunwayのGen-2は、今日のテキストから動画への技術の限界を示している」 . TechCrunch . 2025年10月17日閲覧。
- ^羅、正雄;チェン、ダヨウ。張、英雅。黄、燕。王、梁。シェン、ユジュン。趙、デリ。周、ジンレン。タン、ティエニウ (2023)。 「VideoFusion: 高品質ビデオ生成のための分解拡散モデル」。arXiv : 2303.08320 [ cs.CV ]。
- ^羅、正雄;チェン、ダヨウ。張、英雅。黄、燕。王、梁。シェン、ユジュン。趙、デリ。周、ジンレン。タン、ティエニウ (2023)。 「VideoFusion: 高品質ビデオ生成のための分解拡散モデル」。arXiv : 2303.08320 [ cs.CV ]。
- ^ 「Adobe、Firefly Videoモデルを発表、画像、ベクター、デザインモデルを強化。Adobe Newsroom」 Adobe Inc. 2024年10月10日2024年11月18日閲覧。
- ^ Yirka, Bob (2024年1月26日). 「Google、AIベースの次世代テキスト動画生成ツール「Lumiere」の開発を発表」 . Tech Xplore . 2024年11月18日閲覧。
- ^ 「動画のテキスト読み上げ」 Synthesia.io 2023年10月17日閲覧。
- ^ Nuñez, Michael (2024年6月12日). 「Luma AI、リアルな動画生成を実現する『Dream Machine』を発表、AIメディア競争が激化」 . VentureBeat . 2024年11月18日閲覧。
- ^フィンク、チャーリー。「AppleがIntelligenceを発表、Mistralが6億ドルを調達、AIによる動画合成技術が新たに登場」 Forbes 。2024年11月18日閲覧。
- ^ Franzen, Carl (2024年6月12日). 「クリエイターを魅了する、SoraのライバルAI動画生成ツールKlingについて知っておくべきこと」 . VentureBeat . 2024年11月18日閲覧。
- ^ 「ByteDance、AI動画アプリのリリースでOpenAIのSoraライバルに加わる」ロイター通信、2024年8月6日。 2024年11月18日閲覧。
- ^ 「中国のAI『Tiger』Minimax、OpenAIのSoraに匹敵するテキストから動画を生成するモデルを発表」 Yahoo!ファイナンス、2024年9月2日。 2024年11月18日閲覧。
- ^ Requiroso, Kelvene (2024年12月15日). 「LightricksのLTXVモデルが速度記録を更新、5秒間のAI動画クリップを4秒で生成」 . eWEEK . 2025年7月24日閲覧。
- ^ Text2Video-Zero、Picsart AI Research(PAIR)、2023年8月12日、 2023年8月12日閲覧。
- ^ Kemper, Jonathan (2024年7月1日). 「RunwayのSoraの競合機Gen-3 Alphaが発売開始」 . THE DECODER . 2024年11月18日閲覧。
- ^ 「ジェネレーティブAIの次のフロンティアはビデオ」 Bloomberg.com 、 2023年3月20日。 2024年11月18日閲覧。
- ^ 「OpenAI、テキストから動画を生成する新AIモデル『Sora』を初公開」 NBCニュース、2024年2月15日。 2024年11月18日閲覧。
- ^ Kelly, Chris (2024年6月25日). 「Toys R Us、OpenAIのテキスト動画変換ツールを活用した初のブランドフィルムを制作」 . Marketing Dive . Informa . 2024年11月18日閲覧。
- ^ Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong (2023年8月4日). 「テキストからビデオへ:拡散モデルと再構成ネットワークを用いたビデオ生成の強化」. 2023 第2回国際コンピューティング・コミュニケーション・知覚・量子技術会議 (CCPQT) . IEEE. pp. 108– 114. doi : 10.1109/CCPQT60491.2023.00024 . ISBN 979-8-3503-4269-7。
- ^ 「Black Forest Labsの発表」 Black Forest Labs、2024年8月1日。 2024年11月18日閲覧。
- ^ Forlini, Emily Dreibelbis (2024年9月18日). 「Googleのveoテキスト動画AIジェネレーターがYouTubeショート動画に登場」 . PC Magazine . 2024年11月18日閲覧。
- ^ Subin, Jennifer Elias, Samantha (2025年5月20日). 「Google、音声機能搭載のAI動画ジェネレーター「Veo 3」をリリース」 . CNBC . 2025年5月22日閲覧。
{{cite web}}: CS1 maint: 複数の名前: 著者リスト (リンク) - ^フィンク、チャーリー。「LTXビデオが60秒の壁を突破、AIビデオを長編メディアとして再定義」 Forbes 。2025年7月24日閲覧。
- ^ 「Lightricksの最新リリースにより、クリエイターはAIが生成した長編動画をリアルタイムで監督できるようになる」 SiliconANGLE 、 2025年7月16日。 2025年7月24日閲覧。
- ^ Shahaf, Tal (2025年10月23日). 「Lightricks、OpenAIとGoogleに挑戦する強力なAIビデオモデルを発表」 Ynetglobal . 2025年10月25日閲覧。
- ^バグワトカル、リシカ;バチュ、サケト。フィッター、クルシェド。クルカルニ、アクシャイ。チダルワール、シタール(2020年12月17日)。 「ビデオ生成アプローチのレビュー」。2020 年電力、計測、制御、およびコンピューティングに関する国際会議 (PICC)。 IEEE。 pp. 1–5 . doi : 10.1109/PICC51425.2020.9362485。ISBN 978-1-7281-7590-4。
- ^ Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo (2024年1月3日). 「明示的なカメラ制御による人間の動きを考慮したテキスト・ビデオ生成」. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) . IEEE. pp. 5069– 5078. doi : 10.1109/WACV57701.2024.00500 . ISBN 979-8-3503-1892-0。
- ^ Singh, Aditi (2023年5月9日). 「AIテキスト画像変換およびAIテキスト動画変換ジェネレータの調査」. 2023年第4回人工知能・ロボティクス・制御国際会議 (AIRC) . IEEE. pp. 32– 36. arXiv : 2311.06329 . doi : 10.1109/AIRC57904.2023.10303174 . ISBN 979-8-3503-4824-8。
- ^ a b c dミャオ族、宜博。朱、イーファン。ドン、インペン。ユウ、リジア。朱、潤。ガオ、シャオシャン(2024年9月8日)。 「T2VSafetyBench: テキストからビデオへの生成モデルの安全性の評価」。arXiv : 2407.05965 [ cs.CV ]。
- ^ a b c d Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping (2018年8月). 「テキストからビデオへ:大規模ビデオ分類のための中間レベルセマンティクスの活用」. 2018 第24回国際パターン認識会議 (ICPR) . IEEE. pp. 1695– 1700. doi : 10.1109/ICPR.2018.8545513 . ISBN 978-1-5386-3788-3。
- ^ Placido, Dani Di. 「GoogleのAIが『ウィル・スミスがスパゲッティを食べる』テストに合格」 Forbes . 2025年6月3日時点のオリジナルよりアーカイブ。 2025年6月1日閲覧。
- ^ a bバグワトカール、リシカ;バチュ、サケト。フィッター、クルシェド。クルカルニ、アクシャイ。チダルワール、シタール(2020年12月17日)。 「ビデオ生成アプローチのレビュー」。2020 年電力、計測、制御、およびコンピューティングに関する国際会議 (PICC)。 IEEE。 pp. 1–5 . doi : 10.1109/PICC51425.2020.9362485。ISBN 978-1-7281-7590-4。
- ^ a b c d Singh, Aditi (2023年5月9日). 「AIテキスト画像変換およびAIテキスト動画変換ジェネレータの調査」. 2023年第4回人工知能・ロボティクス・制御国際会議 (AIRC) . IEEE. pp. 32– 36. arXiv : 2311.06329 . doi : 10.1109/AIRC57904.2023.10303174 . ISBN 979-8-3503-4824-8。
- ^ Singh, Aditi (2023年5月9日). 「AIテキスト画像変換およびAIテキスト動画変換ジェネレータの調査」. 2023年第4回人工知能・ロボティクス・制御国際会議 (AIRC) . IEEE. pp. 32– 36. arXiv : 2311.06329 . doi : 10.1109/AIRC57904.2023.10303174 . ISBN 979-8-3503-4824-8。
- ^ ქურასბედიანი、ალექსი (2025 年 6 月 9 日)。「AI が生成した軍服を着たウクライナの子供たちの写真がオンラインで出回った | Mythdetector.com」。2025 年6 月 16 日に取得。
- ^ 「偽ウクライナ広告、子供たちにロシア音楽を楽しんでいる親戚を報告するよう促す」ユーロニュース、2025年3月28日。 2025年6月16日閲覧。
- ^ 「人工知能が生成したウクライナの子供たちの写真」 behindthenews.ua 、 2024年6月26日。 2025年6月16日閲覧。
- ^ 「偽のウクライナのテレビ広告が、ロシアの音楽を聴いている親戚を通報するよう子供たちに促す」。
- ^ 「ゼレンスキー大統領のディープフェイク動画は情報戦争における『氷山の一角』かもしれないと専門家が警告」 NPR 2022年3月16日. 2025年6月16日閲覧。
- ^ 「ウクライナ戦争:ゼレンスキー大統領がウクライナ国民に『武器を捨てよ』と告げるディープフェイク動画、虚偽が判明」スカイニュース。 2025年6月16日閲覧。
- ^ "「『Kaur vs KORE』:サニー・レオーネがAI駆動の長編映画で二役を演じる準備が整う - レポート」。The Times of India。2025年9月24日。ISSN 0971-8257 。 2025年10月26日閲覧。
- ^ Farzeen, Sana (2025年9月24日). 「独占:サニー・レオーネ、AI駆動の長編映画『Kaur vs KORE』でトレンドを牽引」「 . India Today . 2025年10月26日閲覧。
- ^ 「サニー・レオーネが『Kaur vs KORE』で人間とAIアバターの二役を演じる」" . @mathrubhumi。2025 年 9 月 24 日。2025年10 月 26 日閲覧。
- ^ Sharma, Manoj (2025年10月26日). 「マハーバーラタからハヌマーンへ:コレクティブ・アーティスト・ネットワークのヴィジェイ・スブラマニアム氏が語る、AIがインドのエンターテインメントの未来を形作る」 . Fortune India . 2025年10月26日閲覧。
- ^ PTI (2025年8月20日). 「アヌラーグ・カシヤップ、AI生成映画『チランジーヴィ・ハヌマーン』でプロデューサーのヴィジャイ・スブラマニアムを非難」「 .ザ・ヒンドゥー. ISSN 0971-751X . 2025年10月26日閲覧。
- ^ 「AI生成映画チランジーヴィ・ハヌマーン監督が発表、ヴィクラマディティヤ・モトワネはこれに不満:「それで始まる」「ヒンドゥスタン・タイムズ」 2025年8月19日。 2025年10月26日閲覧。
- ^ 「マハーバーラタ:エク・ダルマユド OTT リリース:インド初のAI搭載神話シリーズを視聴できる時期と場所」エコノミック・タイムズ2025年10月23日ISSN 0013-0389 。 2025年10月26日閲覧。
- ^ "「AIマハーバーラタでは、視聴者は同じ物語を新しい方法で体験することができます」「 . The Times of India . 2025年10月18日. ISSN 0971-8257 . 2025年10月26日閲覧。
- ^ラマチャンドラン、ナマン (2025年10月10日). 「AI搭載『マハーバーラト』予告編、インドでのデビューに先駆けて公開(独占記事)」Variety . 2025年10月26日閲覧。
- ^ a b c d e f「2024年のトップAIビデオ生成モデル」Deepgram。2024年8月30日閲覧。
- ^ a b「Vexub – テキストから動画へのAIジェネレーター」 Vexub . 2025年6月25日閲覧。
- ^ a b「Runway Research | Gen-2: テキスト、画像、またはビデオクリップを使用して新しいビデオを生成する」 runwayml.com . 2024年8月30日閲覧。
- ^ a b Sharma, Shubham (2023年12月26日). 「Pika Labsのテキスト動画AIプラットフォームが一般公開:使い方はこちら」 . VentureBeat . 2024年8月30日閲覧。
- ^ a b「Runway Research | Gen-3 Alphaの紹介:ビデオ生成の新たなフロンティア」 runwayml.com . 2024年8月30日閲覧。
- ^ 「AIを活用した映画制作、Veo 3でFlowを体験」blogs.google.com 2025年5月20日2025年7月6日閲覧。
- ^ 「Google Veo DeepMind」 . google.com . 2025年7月6日閲覧。
- ^ a b "Sora | OpenAI" . openai.com . 2024年8月30日閲覧。
- ^ Nuñez, Michael (2025年3月31日). 「Runway Gen-4がAIビデオの最大の課題:シーン間のキャラクターの一貫性を解決」 VentureBeat . 2025年7月21日時点のオリジナルよりアーカイブ。 2025年10月17日閲覧。
- ^ 「Runwayの新しい第4世代AIシステムは、これまでで最も予測可能なメディア制作を約束 | No Film School」 nofilmschool.com 2025年10月17日閲覧。
- ^ Wiggers, Kyle (2025年3月31日). 「Runway、優れた動画生成AIモデルをリリース」 . TechCrunch . 2025年10月17日閲覧。