芸大 - 人工知能と創作 2024
最終課題制作のヒント1 – 生成コレクション
本日の内容
今回からこの講義の最終課題のヒントになるような内容を紹介していきます。初回の本日は、難易度的には易しい制作例を紹介します。作品の制作例は「生成コレクション」と名付けました。制作にはDALL-Eなどの画像生成AIを使用します。生成AIの特徴である一つのプロンプトから大量のバリエーションのインスタンスを生成できるという性質を利用して、特定のテーマで生成した画像をコレクションして展示します。最初に参考となる作品例を紹介した後で、具体的な制作方法について解説していきます。
生成コレクション
「生成コレクション」概要
画像生成AIの魅力のひとつは、単一のプロンプト (画像の生成を指示する文章) から大量のバリエーションの画像を生成できる点です。この性質を利用して、パッケージデザインやカーデザイン、建築のイメージスケッチなど様々な分野で活用が始まっています。今回の課題は、この画像生成AIの大量に類似画像を生成できるという点に着目して、何かのテーマによって収集された架空のコレクションを作成して作品として展示を行います。
- 画像生成AIを用いて「架空のコレクション」を作成する
- 題材は自由だが、テーマの「架空のコレクション」を想起させるものとする
- 展示を前提に、グリッド状に生成された「標本」画像を陳列して展示する (フォーマットは別途提供)
- 全てのコレクションを収集し編集した映像も作成する予定 (オープンキャンパスでの展示に活用)
- 使用する画像生成AIは好みのサービスを各自選択する
参考作品
Gene Kogan, A Book from the Sky 天书 (2015)
https://genekogan.com/works/a-book-from-the-sky
これらの画像は、手書きの中国語文字のデータベースでトレーニングされた深層畳み込み生成敵対的ネットワーク(DCGAN) によって作成されました。このネットワークは、2015 年 11 月にRadford、Luke Metz、Soumith Chintalaが発表した論文に基づいてAlec Radfordがコードを作成して作成しました。
タイトルは、宋代と明代の伝統的な北京語版画のスタイルで何千もの架空の象形文字を作成した 徐兵が1988 年に出版した本に由来しています。
DCGANは、画像コレクションの抽象表現を学習できる畳み込みニューラル ネットワーク の一種です。これは、偽の画像を作成する「ジェネレータ」と、ジェネレータの画像が本物かどうかを判別しようとする「ディスクリミネータ」との競争によって実現されます (詳細)。トレーニング後、ジェネレータを使用して、オリジナルを彷彿とさせるサンプルを説得力を持って生成できます。
Sarah Meyohas, Infinite Petals (2017)
https://sarahmeyohas.com/infinite-petals
Infinite Petalsでは、サラ・メヨハスが 10 万枚のバラの花びらのデータセットを使って GAN をトレーニングし、無限に新しくユニークな花びらを生成しました。データセットは、アーティストの前プロジェクトCloud of Petalsでまとめられたもので、当時 16 人の男性労働者がニュージャージー州の旧ベル研究所の敷地に集まり、花びらを 1 枚 1 枚撮影しました。ベル研究所は、トランジスタ、シリコン太陽電池、数多くのプログラミング言語などの革新が重要な開発を遂げた場所です。メヨハスは、人間の手で花を 1 枚 1 枚開いて花びらを摘み、レンズの下に置き、シャッターを押して、画像をサーバーにアップロードするという現実的なアルゴリズムを考案しました。これらの画像は、GAN (Generative Adversarial Network) のトレーニングに使用されました。GAN は 2017 年当時はまだ初期段階で、現代の人工知能ブームよりかなり前の技術でした。作業員たちはまた、最も美しいと思ったバラ1本につき花びらを1枚取ってプレス機にかけ、3,291枚の花びらを物理的な工芸品として保存した。
Anna Ridler, The Shell Record (2021)
https://annaridler.com/the-shell-record-2021
“The Shell Record” は、2021年初頭にこのアーティストがテムズ川の岸辺で収集した貝殻のデータセットと、この画像でトレーニングされたGANを使用して生成された動画作品の両方です。収集、価値、取引に関するアイデアを探求し、最も古い通貨の1つとして価値の保存手段として使用されてきた貝殻の歴史にリンクしています。
これはまた、この瞬間にブロックチェーンに永遠に書き込まれた、テムズ川の貝殻の記録でもある。最近の科学論文によると、最後の氷河期の終わりから川に存在していた貝殻は今では希少になっており、他の外来種に取って代わられており、地層の中で化石となることで、最終的には人新世のタイムマーカーとなるだろう。
https://dam.org/museum/artists_ui/artists/ridler-anna/the-shell-record
参考: GAN (Generative Adversarial Network) について
GAN(Generative Adversarial Network、敵対的生成ネットワーク)は、2014年にイアン・グッドフェローらによって提案された生成モデルの一種で、主に画像生成などに利用されています。GANは、生成器(Generator)と識別器(Discriminator)の2つのニューラルネットワークから構成されます。
生成器(Generator): ランダムなノイズベクトルを入力として受け取り、本物のデータに似たデータを生成します。例えば、ランダムな数値からリアルな画像を作り出すことが可能です。
識別器(Discriminator): 入力されたデータが本物か偽物かを判別します。本物のデータは実際のデータセットから取得され、偽物のデータは生成器が生成したものです。識別器はこれらのデータを区別するように訓練されます。
これら2つのネットワークは互いに競い合いながら学習を進めます。生成器は識別器を欺くようなデータを生成しようとし、識別器はそれを見破ろうとします。この競争的なプロセスを通じて、生成器はよりリアルなデータを生成する能力を獲得し、識別器もまた精度を高めていきます。
DCGAN(Deep Convolutional GAN): DCGANは、GANに畳み込みニューラルネットワーク(CNN)を組み合わせたモデルで、より高精度な画像生成を可能にします。生成器と識別器の両方にCNNを適用することで、画像の特徴を効果的に捉え、高品質な画像を生成することができます。
現在画像生成にGANを用いる必要があるのか?
現在では画像の生成にGANやDC GANを用いなくても生成する手段が存在します。過去の画像生成AI導入 の回で解説したDALL-EやStable Diffusionのような拡散モデルやTransformerの技術によってテキストのプロンプトやソースとなる画像からより高品質の画像が生成できるようになりました。
現在の画像生成において、GANやDCGANではなく、DALL-EやStable Diffusionといった技術を用いるべき理由は、生成品質と応用範囲の大幅な向上にあります。GANはリアルな画像生成が可能ですが、学習の不安定さや多様性の不足が課題です。一方、DALL-EやStable Diffusionは、拡散モデルやトランスフォーマーの技術を活用し、テキスト指示に基づく柔軟な画像生成を実現しています。これにより、単にリアルな画像を生成するだけでなく、複雑な条件に応じた生成が可能となり、デザインや広告、教育といった多様な分野で活用されています。また、拡散モデルは学習が安定しており、生成された画像の多様性も高いです。さらに、Stable Diffusionのように計算効率を改善した技術は、より広範な応用を可能にしています。
参考: 生成モデルまとめ (Qiita)
参考: 画像生成AIのサービス
- Microsoft Designer’s Image Creator (DALL-E)
- OpenAI’s DALL-E 3
- Imagen 3 in ImageFX
- Adobe Firefly
- Midjourney
- Leonardo AI
- Craiyon
- Stability AI’s DreamStudio
実習: Figmaを使用して「生成コレクション」を作成
Figma
- ブラウザベースのコラボレーション・ツール
- デスクトップ版やモバイル版もあり
- もともとはインターフェイス (UI) のデザインに特化していたが、グラフィクスデザインツールとしても使用可能
- コラボレーション機能
- 学生であれば無料で使用可能! (ただし資格認定を受ける必要あり)
「生成コレクション」制作用テンプレート
- 制作用のFigmaテンプレートを用意しました!
- 制作用テンプレート(4Kサイズ)
こんな感じで作成可能です!
アンケート
本日の講義に参加した方は以下のアンケートに回答してください。