芸大 - 人工知能と創作 2024
人工知能と創作最終課題制作のヒント4 – Google関連のAIテクノロジーの紹介
本日の内容
生成AI関連のサービスは、ChatGPT、DALL-E、Soraなど主にOpenAIが提供するサービスが有名です。しかし、最近になってGoogleも生成AIの分野で新たな技術を投入し、多くのサービスや実験的なコンテンツを提供しています。本日は、Googleが提供するAI技術の中から、特に生成AIに関連する技術を紹介します。
ちなみに… 前回紹介したMediaPipeもGoogleが提供していました。
Gemini
- Googleの提供するAI系のサービスは「Gemini」というブランドで展開されている
- 12月11日にGemini 2.0として大幅に機能がアップデートされた
- Gemini (DeepMind)
まず概要を理解
Gemini 2.0基本機能
- OpenAIにおけるChatGPTに相当する機能
- 様々なモデルが提供されている
Gemini 1.5 Pro
- Gemini Advancedの加入者が利用可能。
- 100万トークンのコンテキストウィンドウを持ち、最大1500ページ分の情報を一度に処理可能。
- 論理的推論、コーディング、創造的なコラボレーションに優れた能力を発揮。
- 最新の検索スニペットにアクセスし、知識カットオフがない。
Gemini 1.5 Flash
- 高速応答に特化したバージョン。
Gemini 1.5 Pro Deep Research
- Gemini 1.5 Proの機能に加え、高度な推論と長文脈理解能力を持つ。
- 複雑なトピックを探索し、ユーザーに代わってレポートを作成する機能を搭載。
- Gemini Advancedの加入者が利用可能。
Gemini 2.0 Flash
- 開発者や信頼できるテスター向けにリリースされた早期レビュー版。
- Gemini 1.5 Flashを基に構築され、同等の高速応答時間を維持しながらパフォーマンスが向上。
- テキストと組み合わせた生成画像や、操作可能なテキスト読み上げ(TTS)による多言語音声など、マルチモーダル出力をサポート。
- 全てのGeminiユーザーが利用可能。
Gemini 2.0 Advanced
- Gemini 2.0の高度な機能を利用できるバージョン。
Geminiでコード生成
Gemini 2.0 Advancedでコード生成を試してみました…
生成されたキャラクター (かわいい!?)
Gemini 1.5 Pro Deep Research
- 強力な調査機能とレポート作成機能
- AIエージェントが人間に代わって調査レポートを作成
- プロンプトから複数のサイトにアクセスして情報を収集し、レポートを作成
- 現在は英語での出力のみ
生成されたレポートの例
- 「スペキュラティブデザインと生成AI: 未来への展望」というテーマで
- 生成されたレポート
Google Labs
- https://labs.google/
- Google Labsは、Googleが開発中の新技術やサービスをユーザーに試用してもらい、フィードバックを収集するためのプラットフォーム
- 特に、最新のAIツールや技術に焦点を当てている
- ユーザーはこれらの実験的なプロジェクトに早期アクセスできます
Google Labs Experiments
- まずは、Google Labsの実験的なプロジェクトをいろいろ試してみましょう
- 最終制作のヒントになりそうなクリエイティブな実験を中心に
- https://labs.google/experiments
ImageFX、MusicFX
- 以前紹介したImageFXやMusiFXもGoogle Labsのプロジェクト
- ImageFX (Google Labs)
- MusicFX (Google Labs)
VideoFX
- Soraのような動画生成AI
- ウェイティングリストへの登録が必要
- VideoFX (Google Labs)
GenChess
- 自分だけのオリジナルチェスセットを作成し、AIと対戦することができる!
- GenChess (Google Labs)
GenType
- Imagen を利用して、任意の物からアルファベットを生成
- GenType (Google Labs)
Food Mood
- 2つの異なる料理から要素を組み合わせて新しい料理のレシピ生成
- Food Mood (Google Arts and Culture)
Say What You See
- 提示される画像にできるだけ似た画像をプロンプトで生成するゲーム
- Say What You See (Google Arts and Culture)
TextFX
- 創造的な文章生成
- ラッパーであり「ラップ理論と実践」の講師でもあるLupe Fiascoとの共同制作
- TextFX (Google Labs)
Google AI Studio
Google AI Studio
- Googleが提供する生成AIを試験的に活用できる開発プラットフォーム
- 生成AIのプロトタイピングや開発を支援
まずは紹介ビデオで概要を理解
- AI Studioの機能
- サンプルメディアの使用、Google Driveからのデータアップロード、動画やPDFのリアルタイム分析
- デモ内容
- 動画分析:恐竜の名前とタイムスタンプを取得、楽しい情報付き
- コード実行機能:特定の日付の曜日計算やPythonコード実行
- 検索機能:外部情報をリアルタイムで取得
- API活用とモデル調整
- Gemini APIキー作成、チューニング可能なモデル作成、コードのエクスポート
AI Studio開発者向け情報
- 最新モデルの登場: Googleは最新のマルチモーダル大規模言語モデル「Gemini 2.0 Flash」を発表
- 多様な入力と出力: テキスト、画像、音声、動画を入力として受け付け、音声や画像の生成も可能
- 双方向ストリーミングAPI: 「Multimodal Live API」によりリアルタイムの音声・映像で自然な会話が可能
- 高度なツール利用: Google検索やコード実行機能を活用して、複雑なワークフローを実現
- 新たな生成能力: テキストと画像の組み合わせやマルチターン編集が可能で、デザインやブレインストーミングに最適
- ネイティブ音声生成: 複数言語・アクセントで自然な音声出力を実現、感情や抑揚の細かな調整も可能
- 性能向上: 1.5倍の速度で動作し、空間認識や物体キャプション性能も大幅に強化
- 開発者向けリソース: API、Google AI Studio、Vertex AIで試用可能。コード例
やチュートリアルも提供中
最終制作アンケート
引き続き調査中です!
アンケート
本日の講義に参加した方は以下のアンケートに回答してください。