Tips 2021.09.02

MoveNet : 動きの激しい動画向け骨格検出モデル

ailia SDKで使用できる機械学習モデルである「MoveNet」のご紹介です。エッジ向け推論フレームワークであるailia SDKとailia MODELSに公開されている機械学習モデルを使用することで、簡単にAIの機能をアプリケーションに実装することができます。

MoveNetの概要

MoveNetは2021年5月17日にGoogleが公開した骨格検出モデルです。従来の骨格検出技術と比べて、動きの激しい動画での検出精度を改善しています。ライブフィットネスやスポーツのアプリに最適です。

Next-Generation Pose Detection with MoveNet and TensorFlow.js

MoveNetのアーキテクチャ

MoveNetは17個の2次元のキーポイントを高速かつ高精度に検出します。LightnigとThunderの二つのモデルがあり、Lightningが速度が要求されるアプリ、Thunderが精度が要求されるアプリに使用可能です。LightningもThunderもデスクトップPC、ノートPC、スマートフォンで30FPS以上で動作します。

アーキテクチャはCenterNetに近いものとなっています。FeatureExtractorはMobileNetV2にFeature Pyramid Network（FPN）を付加したものになっています。output strideを4に設定することで、高解像度を扱うことができるようになっています。

AIモデルの出力は、Person center heatmap、Keypoint regression field、Person keypoint heatmap、2D per-keypoint offset fieldとなります。

学習にはCOCOデータセットと、Googleの社内用データセットの両方を使用しています。COCOデータセットは、ポーズが大幅に変わったり、モーションブラーがかかっているような厳しい環境のデータは含まれておらず、フィットネスやダンスのアプリには向いていないという問題があります。Googleの社内用データセットでは、YouTubeのyoga、fitness、danceのビデオにアノテーションして使用しています。各動画は3フレームしか使用せず、データセットの多様性を確保しています。

MoveNetの使用方法

MoveNetを使用するには下記のコマンドを使用します。Webカメラから認識が可能です。

$ python3 movenet.py -v 0

実行例です。

ailia-models/pose_estimation/movenet at master · axinc-ai/ailia-models

ax株式会社はAIを実用化する会社として、クロスプラットフォームでGPUを使用した高速な推論を行うことができるailia SDKを開発しています。ax株式会社ではコンサルティングからモデル作成、SDKの提供、AIを利用したアプリ・システム開発、サポートまで、 AIに関するトータルソリューションを提供していますのでお気軽にお問い合わせください。