芸大 – 人工知能と創作 2025

動画生成AIを使ってみる

October 30, 2025

スライド資料

本日の内容

生成AIによる動画生成の簡単な歴史
生成AIによる動画の生成に挑戦
様々な動画生成AIサービスを紹介
実際に使用してみる
フリーの動画編集アプリの紹介

生成AIによる動画生成の簡単な歴史

生成AI動画の歴史的変遷

AI動画生成技術は、数十年にわたる研究の積み重ねによって進化

基礎の時代 (1960s-2000s): ルールベースの創造的アルゴリズムが登場し、AI研究の土台を築いた
GAN革命 (2014-2019): 「敵対的生成ネットワーク（GAN）」が登場し、リアルなメディア生成能力が飛躍的に向上しました
新アーキテクチャの台頭 (2015-現在):
- 拡散モデル: ノイズを除去することで高品質な画像を生成するアプローチです
- Transformer: 「自己注意機構」により、データの文脈を深く理解する能力を獲得しました
- この二つの融合が、現在の爆発的な進化の原動力となっている

黎明期の生成AI動画

Google Deap Dream

た畳み込みニューラルネットワーク（CNN）を逆方向に利用。AIが学習したパターンを元の画像から見つけ出し、それを過剰に強調・増幅させる。https://github.com/google/deepdream

GAN (敵対的生成ネットワーク) の登場

GAN (敵対的生成ネットワーク) を活用した映像作品例

biggan take your brain to another dimension

Sarah Meyohas, Infinite Petals

核心技術：拡散モデルとTransformer

最先端モデルは、2つの強力な技術を組み合わせている

拡散モデル（Diffusion Model）:
- 仕組み: 元画像にノイズを加え、それを元に戻す（デノイズ）プロセスを学習
- 生成: ランダムなノイズから、テキストプロンプトをガイドに新しい画像を「彫り出し」ます
Transformer:
- 仕組み: 「自己注意機構」により、データ内の要素間の関連性を理解し、文脈を捉えます
- 応用: 動画データを「時空間パッチ」というトークンに変換し、言語のように扱うことで、動画全体の構造を理解します

拡散モデル

DALL·E: Creating images from text (OpenAI)

最先端モデルの例

2024-2025年にかけて、各社から高性能なモデルが登場

OpenAI Sora 2:
- 特徴: 「ワールドシミュレータ」として、物理法則に準拠した最大1分間の一貫した動画と同期した音声の生成を目指します
Google Veo 3.1:
- 特徴: 「シネマティック・ストーリーテラー」として、映画的な表現言語の解釈に優れ、高度な編集機能（参照画像、シーン延長）を備えています

クリエイター向けのツールも進化を続けている

Luma AI Dream Machine:
- 特徴: スピードと使いやすさを重視し、ラピッドプロトタイピングやSNSコンテンツ制作に適している
Runway Gen-3 Alpha:
- 特徴: 映画制作者やVFXアーティスト向けに、カメラの動き等を細かく制御できるプロ向けの統合ツール群を提供
Pika Labs (Pika Pro):
- 特徴: SNSクリエイターに特化し、豊富なクリエイティブエフェクトと簡単な操作性で、魅力的な短尺動画の制作を支援

生成AIによる動画の生成に挑戦!

現状での動画生成AIの注意点

画像生成AIと同様、様々なサービスが公開されている
無料で利用できるサービスもあるが、本格的に使用するには課金が必要
日々進化しているので、今回の情報も来年には古くなっている可能性大

Sora AI の衝撃!

Sora AI: OpenAIが開発した動画生成AIモデル、2024年2月発表
テキストプロンプトから高品質な動画を生成
ディフュージョンモデルを活用し、連続性と詳細な映像を実現
現在はさらに発展させたSora 2が公開

Sora 2で生成された短編映画

主要AI動画生成モデルの比較

モデル (開発元)	コア技術	最大動画長	最大解像度	特徴
Sora 2 (OpenAI)	Diffusion Transformer	1分	1080p+	物理シミュレーション、ネイティブ音声生成
Veo 3.1 (Google)	Latent Diffusion Transformer	1分+	1080p+	映画的言語の理解、高度な編集機能
Kling 2.5 (Kuaishou)	Diffusion Transformer with 3D VAE	2分	1080p	動画長、リアルな物理演算
Dream Machine (Luma AI)	Ray Video Models	約30秒	1080p	高速生成、使いやすさ、テキストによる編集
Gen-3 Alpha (Runway)	Gen-3 Model Family	40秒	720p+	統合されたプロ向けツール群、高度な制御性
Pika Pro (Pika Labs)	Pika Model Series	5秒+	1080p	豊富なクリエイティブエフェクト、簡易な操作性

実習: 動画生成AIを使ってみる

2.1 OpenAI Sora

URL: https://sora.com
サービス概要: OpenAIが開発したフラッグシップText-to-Videoモデル。物語の一貫性、物理世界のシミュレーション能力において業界のベンチマークを設定している。2025年後半には最新版のSora 2がリリースされた。
特徴: 最大1〜2分の高品質な動画を生成可能。複雑なプロンプトを深く理解し、複数のキャラクターや特定の動きを含むシーンを忠実に再現する能力を持つ。また、生成した動画の前後を自然に延長するシーン拡張機能など、強力な編集機能も備える。
料金体系: 既存のOpenAIサブスクリプション（ChatGPT Plus: 月額20ドル、Business: 月額25ドル）にバンドルされており、追加料金なしで利用できる。この戦略的なバンドルは、他社に対する大きな競争優位性となっている。

2.2 Google Veo & Flow

URL: https://labs.google/flow
サービス概要: GoogleがSoraに対抗して投入した主要な基盤モデルが「Veo」であり、その能力を最大限に引き出すために設計されたクリエイター向けのAIフィルムメイキングツールが「Flow」である。Veoは超現実的な映像品質とGoogle AIエコシステムとの連携を特徴とし、Flowは物語構築のための直感的なインターフェースを提供する。
特徴:
Veo (モデル): プロンプト入力から完成までを一気通貫で生成するエンドツーエンドの能力と、卓越したリアリズムを誇る。ネイティブでの音声生成や、キャラクターの口の動きとセリフを同期させるリップシンク機能は他を圧倒する。滑らかなカメラワークやキャラクターの繊細な感情表現にも定評がある。
Flow (ツール): Veoを基盤とし、物語性のある映像制作を支援する多彩な機能を搭載。複数のクリップを繋ぎ合わせて一貫性のあるシーケンスを作成する「Scene Builder」、カメラアングルや動きを直接制御する「Camera Controls」、キャラクターやオブジェクトの一貫性を保つための「Asset Management (Ingredients)」など、プロのクリエイティブワークフローを念頭に置いた設計となっている。

2.3 Runway

URL: https://runwayml.com
サービス概要: クリエイティブプロフェッショナル向けの包括的な「AIマジックツールスイート」。単なるText-to-Videoにとどまらない、多岐にわたる生成・編集ツールを提供する。最新モデルはGen-4およびAleph。
特徴: カメラパスのキーフレーム制御、特定の部分だけを動かすモーションブラシツール、参照画像を用いた人物やスタイルの一貫性維持機能など、高度なクリエイティブコントロールが最大の強み 25。迅速な試作を可能にする低コストのターボモードも提供する。
料金体系: 複雑なクレジットベースのサブスクリプションモデルを採用。
Free: 125クレジット（初回のみ）、ウォーターマークあり。
Standard: 月額12ドル（年払い時）、毎月625クレジット、ウォーターマーク除去。
Pro: 月額28ドル（年払い時）、毎月2,250クレジット。
Unlimited: 月額76ドル（年払い時）、2,250高速クレジットに加え、「リラックスレート」での無制限生成が可能。ただし、ユーザーからは速度制限（スロットリング）の報告もある。
商用利用: Freeプランを含む全てのプランで許可されている点が特徴的である。
料金体系: Flowには月100クレジットの無料枠が存在するが、本格的な利用にはGoogle AIの有料プランへの加入が必要 49。
Google AI Pro: 月額19.99ドル。Flow用のクレジット（例：1,000クレジット/月）が付与され、Veo 3.1 Fastモデルが利用可能 49。生成された動画にはウォーターマークが付く 56。
Google AI Ultra: 月額249.99ドル。より多くのクレジット（例：25,000クレジット/月）が付与され、Veo 3.1の全機能にアクセス可能 57。ウォーターマークは付かない 56

Luma AI Dream Machine

URL: https://lumalabs.ai
サービス概要: 高品質な動きの表現、滑らかな物理演算、そして映画的な質感で高い評価を得ているプラットフォーム。
特徴: 静止画をリアルな動きのある動画に変換する能力に長けている。品質とクレジットコストが異なる複数のモデル（Ray1.6, Ray2, Ray3）を提供し、ユーザーが目的に応じて選択できる。4Kへのアップスケーリング、HDR対応、リフレーミングといった高度な機能も備える。
料金体系: 詳細なクレジットベースのサブスクリプションモデル。
Free: 毎月8本のドラフト動画生成、ウォーターマークあり、非商用利用のみ。
Lite: 月額7.99ドル（年払い時）、3,200クレジット、ウォーターマークあり、非商用利用。
Plus: 月額23.99ドル（年払い時）、10,000クレジット、ウォーターマークなし、商用利用可。
Unlimited: 月額75.99ドル（年払い時）、10,000高速クレジットに加え、リラックスモードでの無制限生成。
クレジット消費量は変動が大きく、例えば10秒の1080p解像度Ray2動画は340クレジットを消費する。

Pika

URL: https://pika.art
サービス概要: 高品質でありながら、クリエイティブで様式化されたエフェクトに重点を置いており、ソーシャルメディアコンテンツやユニークな視覚表現で人気を博している。最新バージョンはPika 2.2。
特徴: 「Pikaffects」と呼ばれる独自のエフェクト群（例：膨張、溶解、爆発）が最大の特徴。動画内のオブジェクト操作や、動画全体のスタイルをアニメ調などに変換する機能に優れる。
料金体系: クレジットベースのサブスクリプション。
Free (Basic): 毎月80クレジット、ウォーターマークあり。
Standard: 月額8ドル（年払い時）、700クレジット、ウォーターマークなし、商用利用可。
Pro: 月額28ドル（年払い時）、2,300クレジット。
クレジット消費量はモデルや機能によって大きく異なり、ユーザーからは「クレジットが数分でなくなる」との声も上がっている。例えば、Model 2.2を使用した10秒の1080p動画は45クレジットを消費する。

Kling

URL: https://klingai.com
サービス概要: 中国のショート動画プラットフォームKuaishouが開発。高品質な出力、リアルな物理表現、そして競争力のある価格設定で、主要プレイヤーの一角を占めている。
特徴: 高品質な動画を最大1080p（上位プランでは4K）で生成し、最大3分までの動画拡張機能を備える。より高いクレジットを消費して高品質な出力を得る「プロフェッショナルモード」が用意されている。
料金体系: クレジットベースのサブスクリプション。
Free: 毎月166クレジット（または毎日66クレジット）、最大720p、最大10秒、ウォーターマークあり。
Standard: 月額約10ドル、660クレジット、1080p、最大30秒、ウォーターマーク除去。
Pro: 月額約37ドル、3,000クレジット、4K、最大60秒。
プロフェッショナルモードで10秒の動画を生成するには70クレジットが必要。

参考: Runwayによる動画生成のテクニック

height:460
Masterclass: AI film Directing in Runway Gen 3 – Create Stunning Cinematic Shots!

参考: フリーの動画編集アプリの紹介

生成した動画素材をどうやって編集するか?

Adobe CC加入している人 → Adobe Premiere Pro

しかし無料でとても高機能の動画編集アプリもあります

DaVinci Resolve

フリーで利用可能な動画編集アプリ
Ultra HD 4K (3840×2160) までの解像度に対志
高度なカラーグレーディング機能

次回までの課題

制作課題：「幻覚 – バッド・トリップ」

課題：

現代の生成AI技術がもたらす映像生成の可能性を探りながら、「幻覚 – バッド・トリップ」というテーマを動画で表現してください。不安や混乱、非現実的な体験をもたらすような映像作品を制作してください。視覚的な歪みや感覚の揺らぎといった要素を取り入れ、現実と幻覚の境界が曖昧になるような演出を試みてください。

映像の長さ: 5秒〜1分程度
動画生成AIを使用した映像を素材にすること
生成した動画を素材にして映像編集アプリで編集しても良い
次回の演習で提出と発表をしていただきます!

アンケート

本日のアンケート