芸大 – 人工知能と創作 2025

Transformer – ChatGPTへ至る30年の歴史 / 画像生成AI導入

October 14, 2025

本日の内容

ChatGPTなどの生成AIに至るまでには、約30年にわたるニューラルコンピューティングの歴史があります。今回は、その歴史を振り返る映像を視聴し、生成AIの基盤技術であるTransformerについて理解を深めます。さらに、Transformerの仕組みをより詳しく知りたい人のための参考資料も紹介します。後半では、様々な画像生成AIサービスを実際に試し、その特徴や使い方を学びます。最後に、次回までの課題として、画像生成AIを使って自画像を作成することに挑戦します。

ChatGPTに至る30年の歴史

ChatGPT: 30 Year History | How AI Learned to Talk

動画の要旨

チャットGPTの登場: チャットGPTは一般人が会話できる最初のプログラムで、チューリングテストを打ち破った。
言語の複雑さ: 以前、多くの言語学者はコンピューターが人間の言語を理解することは不可能だと考えていたが、今はその多くが考えを改めている。
教師あり学習の説明: 過去のニューラルネットワーク研究は、固定された目標に対して一つのタスクを学習するものであったが、汎用的なシステムへの道筋は見えていなかった。
順序学習の初期研究: 1986年、ジョーダンは再帰型ニューラルネットワーク（RNN）を使ってシンボルの順序を予測させる実験を行い、ネットワークに記憶の概念を導入した。
エルマンの研究: ジェフリー・エルマンは、言語における単語の境界をニューラルネットワークが自動的に学習することを発見した。
Transformerの導入: 2017年、言語翻訳の問題に対応するためにTransformerアーキテクチャが開発され、これが現在の大規模言語モデル（LLM）の基盤となった。
GPTシリーズの進化:
- GPT-1: Transformerアーキテクチャを使用し、次の単語予測問題に適用。
- GPT-2: ウェブから収集したデータを使用し、さらに大規模なネットワークで優れた言語生成を実現。
- GPT-3: 1750億のパラメーターを持つネットワークで、ゼロショット学習などの新しい機能を発揮。
哲学的な議論: AIが本当に「思考」しているのか、それとも思考をシミュレートしているだけなのかについて、研究者間で議論が続いている。

LLM (大規模言語モデル) とTransformerのしくみ

LLMの仕組み（簡単バージョン） 3Blue1BrownJapan

とても分かりやすくLLMやTransformerの仕組みを解説した動画

動画の要旨

大規模言語モデル（LLM）の本質
- LLMは次に来る単語を予測する数学的関数。
- 一つの単語を断定せず、確率を割り当てて予測する。
応答生成のしくみ
- ユーザー入力を基に、AIが応答として言いそうな単語を順に生成。
- 確率の低い単語も選ぶことで、自然な文が生成されやすくなる。
訓練データとスケール
- GPT-3の訓練データを人間が読むには2600年以上かかる。
- 現在のモデルはさらに多くのデータで訓練されている。
パラメーターの調整
- 数千億個のパラメーターがモデルの振る舞いを決定。
- 最初はランダム、訓練により精度が向上。
学習プロセス（事前訓練）
- 入力と正解を比較し、誤差に基づきパラメーターを更新（バックプロパゲーション）。
- 繰り返し訓練することで未知の入力にも対応可能になる。
圧倒的な計算量
- 1秒に10億回計算しても、全体には1億年以上かかる規模。
強化学習（RLHF）
- 事前訓練後、ユーザーの好みに合わせて人間のフィードバックで再訓練。
- 有用な応答を優先するようモデルを微調整。
トランスフォーマーの登場
- かつてのモデルは1単語ずつ処理、トランスフォーマーは全体を並列処理。
- テキストを数値に変換し、文脈を考慮して意味を更新。
アテンション機構
- 各単語が他の単語と情報をやり取りし、文脈に合った意味へ変化。
- 例えば「バンク」が「川岸」になるなど。
フィードフォワード構造
- より多くの言語パターンを学習する補助機構。
- 複雑な演算を通じて、文の意味を豊かに符号化。
予測とその不確実性
- モデルの予測は確率分布として表現される。
- 設計された枠組みはあるが、具体的な振る舞いは訓練による。

さらにTransformerの構造を深く知りたい人のために…

TRANSFORMER EXPLAINER

Transformerをインタラクティブに視覚化!

The Illustrated Transformer

TransformerのアーキテクチャやAttention機構について図解で解説

GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

動画による詳細な解説

参考: ChatGPTを活用してWebページやYouTube動画の内容を要約

ChatGPT Summarize
とても便利なChrome拡張機能!!

画像生成AIを試してみる!

現在、様々な画像生成AIが公開されている。今回は以下の画像生成AIサービスを試してみましょう。

Nano Banana (Gemini 2.5 Flash Image)

URL: gemini.google.com, aistudio.google.com
特徴: Google検索やレンズ等の既存エコシステムに深く統合。複数画像の融合、自然言語による対話的な編集、基盤LLM「Gemini」による「視覚的推論」など高度な機能
長所: Googleエコシステムに統合されており、多くのユーザーが普段のツール内で手軽に利用可能。専門知識なしで自然な言葉で直感的に画像を編集・生成できる
短所: デフォルトの出力解像度が低く、プロ品質にはアップスケーリングが必要な場合がある。生成画像にはウォーターマークが付与され、商用利用に制約あり
料金体系:
- 制限付きの無料アクセス
- Google AI Pro（月額2,900円または$19.99）
- 開発者向けAPI（画像1枚あたり約0.039ドル）

Google ImageFX

URL: https://labs.google/fx/tools/image-fx
特徴: Googleの最新画像生成AIモデル「Imagen 3」を搭載し、高品質な画像を生成。プロンプトの候補を提示する「表現力チップ」や、画像の一部分を修正する機能で直感的な操作が可能。
長所: Googleアカウントがあれば誰でも完全に無料で利用可能。特に写真のようにリアルで高品質な画像の生成が得意で、初心者でも簡単に使える
短所: コンテンツに対する規約が厳しく、プロンプトによっては生成が拒否されることがある。サービスが新しいため、機能制限や軽微な不具合が見られる場合がある
料金体系:
無料（Googleアカウントが必要）

DALL-E 3

URL: chatgpt.com
特徴: ChatGPTに統合されており、自然な会話を通じて画像を生成・編集。曖昧な指示でもChatGPTが意図を汲み取り、効果的なプロンプトを自動生成。
長所: ChatGPTとの対話形式で初心者でも非常に直感的。指示への忠実度が高く、特に画像内にテキストをきれいに描画する能力に優れる。
短所: 芸術的で独特な雰囲気の画像の生成は比較的苦手。生成される画像のスタイルがCG風のタッチに偏ることがある。
料金体系:
- ChatGPT無料プランで利用可能（制限あり）
- ChatGPT Plus（月額$20）でより多く生成可能
- 開発者向けAPI（1枚あたり$0.04〜$0.12）

Midjourney

URL: www.midjourney.com
特徴: 芸術性が高く、極めてフォトリアルな画像生成能力。主なインターフェースはDiscordで、活発なコミュニティが特徴。--crefや--srefといった、キャラクターやスタイルの一貫性を保つための高度なパラメータが充実
長所: 業界最高水準の芸術的な品質とフォトリアリズム。キャラクターやスタイルの一貫性を保つ機能が強力。
短所: Discordでの操作に慣れが必要で、初心者にはハードルが高い場合がある。無料プランがない。
料金体系:
- Basicプラン（月額$10）
- Standardプラン（月額$30）
- Proプラン（月額$60）
- Megaプラン（月額$120）

Stable Diffusion

URL: stability.ai/stable-image
特徴:
オープンソースであり、自身のPC（ローカル環境）で無料で実行可能。コミュニティによるカスタムモデル、ControlNet、LoRAなどが豊富で、カスタマイズ性が非常に高い
長所: ローカル環境では完全に無料で、生成枚数も無制限。カスタマイズの自由度が非常に高い。オフライン実行によりプライバシーも確保。
短所: ローカルでの利用には高性能なPC（特にGPU）が必要。環境構築には専門知識が求められ、初心者にはハードルが高い。
料金体系:
- 自身のPC（ローカル環境）での利用は完全に無料
- WebサービスやAPIは提供者により無料クレジット制、サブスクリプション制など多様

Adobe Firefly

URL: firefly.adobe.com
特徴: Adobe Stockなど商業的に安全なデータで学習しており、著作権侵害のリスクが低い。Photoshopの「生成塗りつぶし」など、Adobe Creative Cloud製品に深く統合。
長所: 商用利用時の法的リスクが極めて低い。Photoshopなどプロが使い慣れたツールに統合されており、制作ワークフローの生産性を向上させる。
短所: フォトリアルな画像の生成は他のトップモデルに比べて苦手な場合がある。ネガティブプロンプト機能がない。
料金体系:
- 無料プラン（月25クレジット）
- Standardプラン（月額1,580円で2,000クレジット）
- Proプラン（月額3,180円で4,000クレジット）
- Creative Cloudの各プランにもクレジットが含まれる

まずはいろいろ試してみる!

画像生成AIをいろいろ試してみましょう!
サービス、画像生成モデルによって個性がある
個人的なお勧め
Imagen 3 in ImageFX (Googleアカウントがあれば)
OpenAI’s DALL-E 3

実習、次回までの課題

課題: 「画像生成AIで自画像を作成」

いくつかの画像生成AIを試してみる
様々な手法を試す (テキストから生成、イラストをアップロードなど)
気にいったサービスを1つ選択
自分自身の自画像を生成してみる
写実的、イラスト調、油彩調などスタイルは自由
自分に似せるにはどのようなプロンンプト(指示)が良いか?
次回、一番似ている人は誰かコンテスト