芸大 - 人工知能と創作 2024

人工知能と創作最終課題制作のヒント4 – Google関連のAIテクノロジーの紹介

December 19, 2024

本日の内容

生成AI関連のサービスは、ChatGPT、DALL-E、Soraなど主にOpenAIが提供するサービスが有名です。しかし、最近になってGoogleも生成AIの分野で新たな技術を投入し、多くのサービスや実験的なコンテンツを提供しています。本日は、Googleが提供するAI技術の中から、特に生成AIに関連する技術を紹介します。

ちなみに… 前回紹介したMediaPipeもGoogleが提供していました。

MediaPipe Studio

Gemini

Googleの提供するAI系のサービスは「Gemini」というブランドで展開されている
12月11日にGemini 2.0として大幅に機能がアップデートされた
Gemini (DeepMind)

まず概要を理解

Introducing Gemini 2.0 | Our most capable AI model yet

Gemini 2.0基本機能

Gemini App

OpenAIにおけるChatGPTに相当する機能
様々なモデルが提供されている

Gemini 1.5 Pro

Gemini Advancedの加入者が利用可能。
100万トークンのコンテキストウィンドウを持ち、最大1500ページ分の情報を一度に処理可能。
論理的推論、コーディング、創造的なコラボレーションに優れた能力を発揮。
最新の検索スニペットにアクセスし、知識カットオフがない。

Gemini 1.5 Flash

高速応答に特化したバージョン。

Gemini 1.5 Pro Deep Research

Gemini 1.5 Proの機能に加え、高度な推論と長文脈理解能力を持つ。
複雑なトピックを探索し、ユーザーに代わってレポートを作成する機能を搭載。
Gemini Advancedの加入者が利用可能。

Gemini 2.0 Flash

開発者や信頼できるテスター向けにリリースされた早期レビュー版。
Gemini 1.5 Flashを基に構築され、同等の高速応答時間を維持しながらパフォーマンスが向上。
テキストと組み合わせた生成画像や、操作可能なテキスト読み上げ（TTS）による多言語音声など、マルチモーダル出力をサポート。
全てのGeminiユーザーが利用可能。

Gemini 2.0 Advanced

Gemini 2.0の高度な機能を利用できるバージョン。

Geminiでコード生成

Gemini 2.0 Advancedでコード生成を試してみました…

p5.jsでかわいいキャラクターを描くコードを生成してください。

生成されたキャラクター (かわいい!?)

https://editor.p5js.org/tadokoro/sketches/4MH_bnBTl

Gemini 1.5 Pro Deep Research

強力な調査機能とレポート作成機能
AIエージェントが人間に代わって調査レポートを作成
プロンプトから複数のサイトにアクセスして情報を収集し、レポートを作成
現在は英語での出力のみ

生成されたレポートの例

「スペキュラティブデザインと生成AI: 未来への展望」というテーマで
生成されたレポート

Google Labs

https://labs.google/
Google Labsは、Googleが開発中の新技術やサービスをユーザーに試用してもらい、フィードバックを収集するためのプラットフォーム
特に、最新のAIツールや技術に焦点を当てている
ユーザーはこれらの実験的なプロジェクトに早期アクセスできます

Google Labs Experiments

まずは、Google Labsの実験的なプロジェクトをいろいろ試してみましょう
最終制作のヒントになりそうなクリエイティブな実験を中心に
https://labs.google/experiments

ImageFX、MusicFX

以前紹介したImageFXやMusiFXもGoogle Labsのプロジェクト
ImageFX (Google Labs)
MusicFX (Google Labs)

VideoFX

Soraのような動画生成AI
ウェイティングリストへの登録が必要
VideoFX (Google Labs)

GenChess

自分だけのオリジナルチェスセットを作成し、AIと対戦することができる!
GenChess (Google Labs)

GenType

Imagen を利用して、任意の物からアルファベットを生成
GenType (Google Labs)

Food Mood

2つの異なる料理から要素を組み合わせて新しい料理のレシピ生成
Food Mood (Google Arts and Culture)

Say What You See

提示される画像にできるだけ似た画像をプロンプトで生成するゲーム
Say What You See (Google Arts and Culture)

TextFX

創造的な文章生成
ラッパーであり「ラップ理論と実践」の講師でもあるLupe Fiascoとの共同制作
TextFX (Google Labs)

Google AI Studio

Google AI Studio

Googleが提供する生成AIを試験的に活用できる開発プラットフォーム
生成AIのプロトタイピングや開発を支援

まずは紹介ビデオで概要を理解

Introduction to Gemini APIs and AI Studio

AI Studioの機能
- サンプルメディアの使用、Google Driveからのデータアップロード、動画やPDFのリアルタイム分析
デモ内容
- 動画分析：恐竜の名前とタイムスタンプを取得、楽しい情報付き
- コード実行機能：特定の日付の曜日計算やPythonコード実行
- 検索機能：外部情報をリアルタイムで取得
API活用とモデル調整
- Gemini APIキー作成、チューニング可能なモデル作成、コードのエクスポート

AI Studio開発者向け情報

Gemini 2.0 for developers

最新モデルの登場: Googleは最新のマルチモーダル大規模言語モデル「Gemini 2.0 Flash」を発表
多様な入力と出力: テキスト、画像、音声、動画を入力として受け付け、音声や画像の生成も可能
双方向ストリーミングAPI: 「Multimodal Live API」によりリアルタイムの音声・映像で自然な会話が可能
高度なツール利用: Google検索やコード実行機能を活用して、複雑なワークフローを実現

新たな生成能力: テキストと画像の組み合わせやマルチターン編集が可能で、デザインやブレインストーミングに最適
ネイティブ音声生成: 複数言語・アクセントで自然な音声出力を実現、感情や抑揚の細かな調整も可能
性能向上: 1.5倍の速度で動作し、空間認識や物体キャプション性能も大幅に強化
開発者向けリソース: API、Google AI Studio、Vertex AIで試用可能。コード例
やチュートリアルも提供中

最終制作アンケート

引き続き調査中です!

制作作品アンケート

アンケート

本日の講義に参加した方は以下のアンケートに回答してください。

本日の内容

Gemini

Gemini 2.0基本機能

Geminiでコード生成

Gemini 1.5 Pro Deep Research

Google Labs

Google Labs Experiments

ImageFX、MusicFX

VideoFX

GenChess

GenType

Food Mood

Say What You See

TextFX

Google AI Studio

AI Studio開発者向け情報

最終制作アンケート

アンケート

https://x.gd/bVpor

`https://x.gd/bVpor`