芸大 – 人工知能と創作 2025
Transformer – ChatGPTへ至る30年の歴史 / 画像生成AI導入

本日の内容
ChatGPTなどの生成AIに至るまでには、約30年にわたるニューラルコンピューティングの歴史があります。今回は、その歴史を振り返る映像を視聴し、生成AIの基盤技術であるTransformerについて理解を深めます。さらに、Transformerの仕組みをより詳しく知りたい人のための参考資料も紹介します。後半では、様々な画像生成AIサービスを実際に試し、その特徴や使い方を学びます。最後に、次回までの課題として、画像生成AIを使って自画像を作成することに挑戦します。
ChatGPTに至る30年の歴史
ChatGPT: 30 Year History | How AI Learned to Talk
動画の要旨
- チャットGPTの登場: チャットGPTは一般人が会話できる最初のプログラムで、チューリングテストを打ち破った。
- 言語の複雑さ: 以前、多くの言語学者はコンピューターが人間の言語を理解することは不可能だと考えていたが、今はその多くが考えを改めている。
- 教師あり学習の説明: 過去のニューラルネットワーク研究は、固定された目標に対して一つのタスクを学習するものであったが、汎用的なシステムへの道筋は見えていなかった。
- 順序学習の初期研究: 1986年、ジョーダンは再帰型ニューラルネットワーク(RNN)を使ってシンボルの順序を予測させる実験を行い、ネットワークに記憶の概念を導入した。
- エルマンの研究: ジェフリー・エルマンは、言語における単語の境界をニューラルネットワークが自動的に学習することを発見した。
- Transformerの導入: 2017年、言語翻訳の問題に対応するためにTransformerアーキテクチャが開発され、これが現在の大規模言語モデル(LLM)の基盤となった。
- GPTシリーズの進化:
- GPT-1: Transformerアーキテクチャを使用し、次の単語予測問題に適用。
- GPT-2: ウェブから収集したデータを使用し、さらに大規模なネットワークで優れた言語生成を実現。
- GPT-3: 1750億のパラメーターを持つネットワークで、ゼロショット学習などの新しい機能を発揮。
- 哲学的な議論: AIが本当に「思考」しているのか、それとも思考をシミュレートしているだけなのかについて、研究者間で議論が続いている。
さらにTransformerの構造を深く知りたい人のために…

Transformerをインタラクティブに視覚化!

TransformerのアーキテクチャやAttention機構について図解で解説
GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

動画による詳細な解説
参考: ChatGPTを活用してWebページやYouTube動画の内容を要約
ChatGPT Summarize
とても便利なChrome拡張機能!!
画像生成AIを試してみる!
現在、様々な画像生成AIが公開されている。今回は以下の画像生成AIサービスを試してみましょう。
Nano Banana (Gemini 2.5 Flash Image)

- URL: gemini.google.com, aistudio.google.com
- 特徴: Google検索やレンズ等の既存エコシステムに深く統合。複数画像の融合、自然言語による対話的な編集、基盤LLM「Gemini」による「視覚的推論」など高度な機能
- 長所: Googleエコシステムに統合されており、多くのユーザーが普段のツール内で手軽に利用可能。専門知識なしで自然な言葉で直感的に画像を編集・生成できる
- 短所: デフォルトの出力解像度が低く、プロ品質にはアップスケーリングが必要な場合がある。生成画像にはウォーターマークが付与され、商用利用に制約あり
- 料金体系:
- 制限付きの無料アクセス
- Google AI Pro(月額2,900円または$19.99)
- 開発者向けAPI(画像1枚あたり約0.039ドル)
Google ImageFX

- URL: https://labs.google/fx/tools/image-fx
- 特徴: Googleの最新画像生成AIモデル「Imagen 3」を搭載し、高品質な画像を生成。プロンプトの候補を提示する「表現力チップ」や、画像の一部分を修正する機能で直感的な操作が可能。
- 長所: Googleアカウントがあれば誰でも完全に無料で利用可能。特に写真のようにリアルで高品質な画像の生成が得意で、初心者でも簡単に使える
- 短所: コンテンツに対する規約が厳しく、プロンプトによっては生成が拒否されることがある。サービスが新しいため、機能制限や軽微な不具合が見られる場合がある
- 料金体系:
- 無料(Googleアカウントが必要)
DALL-E 3

- URL: chatgpt.com
- 特徴: ChatGPTに統合されており、自然な会話を通じて画像を生成・編集。曖昧な指示でもChatGPTが意図を汲み取り、効果的なプロンプトを自動生成。
- 長所: ChatGPTとの対話形式で初心者でも非常に直感的。指示への忠実度が高く、特に画像内にテキストをきれいに描画する能力に優れる 。
- 短所: 芸術的で独特な雰囲気の画像の生成は比較的苦手。生成される画像のスタイルがCG風のタッチに偏ることがある 。
- 料金体系:
- ChatGPT無料プランで利用可能(制限あり)
- ChatGPT Plus(月額$20)でより多く生成可能
- 開発者向けAPI(1枚あたり$0.04〜$0.12)
Midjourney

- URL: www.midjourney.com
- 特徴: 芸術性が高く、極めてフォトリアルな画像生成能力。主なインターフェースはDiscordで、活発なコミュニティが特徴。
--cref
や--sref
といった、キャラクターやスタイルの一貫性を保つための高度なパラメータが充実 - 長所: 業界最高水準の芸術的な品質とフォトリアリズム。キャラクターやスタイルの一貫性を保つ機能が強力 。
- 短所: Discordでの操作に慣れが必要で、初心者にはハードルが高い場合がある。無料プランがない 。
- 料金体系:
- Basicプラン(月額$10)
- Standardプラン(月額$30)
- Proプラン(月額$60)
- Megaプラン(月額$120)
Stable Diffusion

- URL: stability.ai/stable-image
- 特徴:
オープンソースであり、自身のPC(ローカル環境)で無料で実行可能。コミュニティによるカスタムモデル、ControlNet、LoRAなどが豊富で、カスタマイズ性が非常に高い - 長所: ローカル環境では完全に無料で、生成枚数も無制限。カスタマイズの自由度が非常に高い。オフライン実行によりプライバシーも確保 。
- 短所: ローカルでの利用には高性能なPC(特にGPU)が必要。環境構築には専門知識が求められ、初心者にはハードルが高い 。
- 料金体系:
- 自身のPC(ローカル環境)での利用は完全に無料
- WebサービスやAPIは提供者により無料クレジット制、サブスクリプション制など多様
Adobe Firefly
- URL: firefly.adobe.com
- 特徴: Adobe Stockなど商業的に安全なデータで学習しており、著作権侵害のリスクが低い。Photoshopの「生成塗りつぶし」など、Adobe Creative Cloud製品に深く統合。
- 長所: 商用利用時の法的リスクが極めて低い。Photoshopなどプロが使い慣れたツールに統合されており、制作ワークフローの生産性を向上させる 。
- 短所: フォトリアルな画像の生成は他のトップモデルに比べて苦手な場合がある。ネガティブプロンプト機能がない 。
- 料金体系:
- 無料プラン(月25クレジット)
- Standardプラン(月額1,580円で2,000クレジット)
- Proプラン(月額3,180円で4,000クレジット)
- Creative Cloudの各プランにもクレジットが含まれる
まずはいろいろ試してみる!
- 画像生成AIをいろいろ試してみましょう!
- サービス、画像生成モデルによって個性がある
- 個人的なお勧め
- Imagen 3 in ImageFX (Googleアカウントがあれば)
- OpenAI’s DALL-E 3
実習、次回までの課題
課題: 「画像生成AIで自画像を作成」
- いくつかの画像生成AIを試してみる
- 様々な手法を試す (テキストから生成、イラストをアップロードなど)
- 気にいったサービスを1つ選択
- 自分自身の自画像を生成してみる
- 写実的、イラスト調、油彩調などスタイルは自由
- 自分に似せるにはどのようなプロンンプト(指示)が良いか?
- 次回、一番似ている人は誰かコンテスト