yoppa.org


芸大 - 人工知能と創作 2024

人工知能と創作最終課題制作のヒント4 – Google関連のAIテクノロジーの紹介

スライド資料

本日の内容

生成AI関連のサービスは、ChatGPT、DALL-E、Soraなど主にOpenAIが提供するサービスが有名です。しかし、最近になってGoogleも生成AIの分野で新たな技術を投入し、多くのサービスや実験的なコンテンツを提供しています。本日は、Googleが提供するAI技術の中から、特に生成AIに関連する技術を紹介します。

ちなみに… 前回紹介したMediaPipeもGoogleが提供していました。

Gemini

  • Googleの提供するAI系のサービスは「Gemini」というブランドで展開されている
  • 12月11日にGemini 2.0として大幅に機能がアップデートされた
  • Gemini (DeepMind)

まず概要を理解

Introducing Gemini 2.0 | Our most capable AI model yet

Gemini 2.0基本機能

Gemini App

  • OpenAIにおけるChatGPTに相当する機能
  • 様々なモデルが提供されている

Gemini 1.5 Pro

  • Gemini Advancedの加入者が利用可能。
  • 100万トークンのコンテキストウィンドウを持ち、最大1500ページ分の情報を一度に処理可能。
  • 論理的推論、コーディング、創造的なコラボレーションに優れた能力を発揮。
  • 最新の検索スニペットにアクセスし、知識カットオフがない。

Gemini 1.5 Flash

  • 高速応答に特化したバージョン。

Gemini 1.5 Pro Deep Research

  • Gemini 1.5 Proの機能に加え、高度な推論と長文脈理解能力を持つ。
  • 複雑なトピックを探索し、ユーザーに代わってレポートを作成する機能を搭載。
  • Gemini Advancedの加入者が利用可能。

Gemini 2.0 Flash

  • 開発者や信頼できるテスター向けにリリースされた早期レビュー版。
  • Gemini 1.5 Flashを基に構築され、同等の高速応答時間を維持しながらパフォーマンスが向上。
  • テキストと組み合わせた生成画像や、操作可能なテキスト読み上げ(TTS)による多言語音声など、マルチモーダル出力をサポート。
  • 全てのGeminiユーザーが利用可能。

Gemini 2.0 Advanced

  • Gemini 2.0の高度な機能を利用できるバージョン。

Geminiでコード生成

Gemini 2.0 Advancedでコード生成を試してみました…

生成されたキャラクター (かわいい!?)

Gemini 1.5 Pro Deep Research

  • 強力な調査機能とレポート作成機能
  • AIエージェントが人間に代わって調査レポートを作成
  • プロンプトから複数のサイトにアクセスして情報を収集し、レポートを作成
  • 現在は英語での出力のみ

生成されたレポートの例

Google Labs

  • https://labs.google/
  • Google Labsは、Googleが開発中の新技術やサービスをユーザーに試用してもらい、フィードバックを収集するためのプラットフォーム
  • 特に、最新のAIツールや技術に焦点を当てている
  • ユーザーはこれらの実験的なプロジェクトに早期アクセスできます

Google Labs Experiments

  • まずは、Google Labsの実験的なプロジェクトをいろいろ試してみましょう
  • 最終制作のヒントになりそうなクリエイティブな実験を中心に
  • https://labs.google/experiments

ImageFX、MusicFX

VideoFX

  • Soraのような動画生成AI
  • ウェイティングリストへの登録が必要
  • VideoFX (Google Labs)

GenChess

  • 自分だけのオリジナルチェスセットを作成し、AIと対戦することができる!
  • GenChess (Google Labs)

GenType

Food Mood

Say What You See

TextFX

  • 創造的な文章生成
  • ラッパーであり「ラップ理論と実践」の講師でもあるLupe Fiascoとの共同制作
  • TextFX (Google Labs)

Google AI Studio

Google AI Studio

  • Googleが提供する生成AIを試験的に活用できる開発プラットフォーム
  • 生成AIのプロトタイピングや開発を支援

まずは紹介ビデオで概要を理解

Introduction to Gemini APIs and AI Studio
  • AI Studioの機能
    • サンプルメディアの使用、Google Driveからのデータアップロード、動画やPDFのリアルタイム分析
  • デモ内容
    • 動画分析:恐竜の名前とタイムスタンプを取得、楽しい情報付き
    • コード実行機能:特定の日付の曜日計算やPythonコード実行
    • 検索機能:外部情報をリアルタイムで取得
  • API活用とモデル調整
    • Gemini APIキー作成、チューニング可能なモデル作成、コードのエクスポート

AI Studio開発者向け情報

Gemini 2.0 for developers
  • 最新モデルの登場: Googleは最新のマルチモーダル大規模言語モデル「Gemini 2.0 Flash」を発表
  • 多様な入力と出力: テキスト、画像、音声、動画を入力として受け付け、音声や画像の生成も可能
  • 双方向ストリーミングAPI: 「Multimodal Live API」によりリアルタイムの音声・映像で自然な会話が可能
  • 高度なツール利用: Google検索やコード実行機能を活用して、複雑なワークフローを実現
  • 新たな生成能力: テキストと画像の組み合わせやマルチターン編集が可能で、デザインやブレインストーミングに最適
  • ネイティブ音声生成: 複数言語・アクセントで自然な音声出力を実現、感情や抑揚の細かな調整も可能
  • 性能向上: 1.5倍の速度で動作し、空間認識や物体キャプション性能も大幅に強化
  • 開発者向けリソース: API、Google AI Studio、Vertex AIで試用可能。コード例
    やチュートリアルも提供中

最終制作アンケート

引き続き調査中です!

アンケート

本日の講義に参加した方は以下のアンケートに回答してください。

https://x.gd/bVpor