芸大 – 人工知能と創作 2025

最終課題制作のヒント3 – 機械学習ライブラリーを使ってみる MediaPipeとml5.js

December 16, 2025

本日の内容

今回はこの講義の最終課題制作のためのヒントの3回目として、最新の機械学習のライブラリーとその活用方法について紹介します。

今回は2つのライブラリーを紹介します。

MediaPipe: Googleが提供するオープンソースの機械学習ライブラリー
- ml5.js: 一般的な機械学習モデルを簡単に利用できるJavaScriptライブラリー

今回はソースコードの詳細な解説までは行いませんが、それぞれのライブラリーを活用してどのような作品が制作できるかを紹介していきます。

コンピュータビジョン（Computer Vision）とは、デジタル画像や動画からコンピュータが有益な情報を抽出し、周囲の状況を「理解」させるためのAI（人工知能）の一分野です。人間が目で見ている世界を脳で処理するように、コンピュータに視覚的な認識能力を持たせることを目的としています。

コンピュータは、画像や動画をピクセル（画素）の集合体として捉えます。現在は、ディープラーニング（深層学習）、特にCNN（畳み込みニューラルネットワーク）などの技術を用いることで、物体、顔、文字、色のパターンを極めて高い精度で識別できるようになりました。

このように、コンピュータビジョンは単なる「画像の記録」を超え、視覚データに基づいた高度な判断や予測を可能にする、現代社会に不可欠な技術となっています。

OpenCV（Open Source Computer Vision Library）は、画像処理やコンピュータビジョンのための機能を豊富に備えたオープンソースのライブラリです。1999年にインテルによって開発が開始され、現在は世界中で標準的なツールとして広く普及しています。

OpenCVは、画像の編集や変換といった基礎的な処理から、高度な解析までをカバーしています。

画像処理： リサイズ、色空間の変換、フィルタリング、エッジ検出。
物体検出： 顔、歩行者、特定のオブジェクトの認識。
動画解析： 物体の追跡（トラッキング）や背景差分による動体検知。
マルチプラットフォーム： C++、Python、Javaといった言語に対応し、Windows、macOS、Linux、さらにはモバイルOS上でも動作します。

最大の特徴は、最適化されたアルゴリズムが提供されている点です。開発者は複雑な数学的処理を一から記述することなく、関数を呼び出すだけで高度な機能を実装できます。また、BSDライセンスで公開されているため、学術研究だけでなく商用利用も容易です。

現在では、ディープラーニング（深層学習）フレームワークとの連携も強化されており、AIを用いた画像認識システムの構築において欠かせない存在となっています。

MediaPipeは、Googleが提供するオープンソースの機械学習ライブラリで、リアルタイムな画像や動画処理を効率的に行うためのツールです。

多機能なビジョンタスク対応: 顔検出、手のランドマーク推定、ポーズ推定、物体検出など、さまざまなビジョンタスクをサポートしています。
リアルタイム処理: 軽量設計により、リアルタイムでのデータ処理が可能で、インタラクティブなアプリケーションの開発に適しています。
マルチプラットフォーム対応: Windows、Linux、macOSなどのデスクトップ環境だけでなく、AndroidやiOSなどのモバイルプラットフォーム、さらにはWebブラウザ上でも動作します。

複数言語サポート: Python、C++、JavaScriptなど、さまざまなプログラミング言語で利用可能で、開発者は自身のプロジェクトに適した言語を選択できます。
モジュール化された設計: 各機能がモジュール化されており、必要な機能を組み合わせて柔軟にパイプラインを構築できます。
オープンソース: ソースコードが公開されており、コミュニティによる改善やカスタマイズが可能です。