« 激安パカケー「ZTE Libero Flip」を購入 | トップページ | 激安パカケー「ZTE Libero Flip」を使ってみてのレビュー »

2024年12月23日 (月)

どこに視線を向けているかを可視化してくれる物体検出器

PINTOさんの投稿を見ていると、時々、面白いものが出てきますね。
先日出てきたのは、こちら。

PINTO_model_zoo/462_Gaze-LLE at main · PINTO0309/PINTO_model_zoo · GitHub

この方、人体のみならず、手足や目、口などを検出する学習器をせっせと作っているお方ですが、今度のは「視線」です。
人がどこを見ているのか、そのデータって意外と有用です。
例えば、運転や機械操作などでどこを注視しているかを知ることは、事故防止や使いやすさにもつながります。また、陳列した商品でどのあたりが注目されているのか、それを知ることも可能となれば商品の並べ方を工夫することもできます。
まさに、今どきのAIらしい使われ方です。

ということで、こいつを動かすようにするんですが、まずは上のリンクの「demo」にある「demo_yolov9_onnx_gazelle.py」をダウンロードしておきます。
仮に、これを「C:¥ml¥gaza-lle」という名前のフォルダに入れたとします。

次にやるのは、モデルのダウンロード。
人体の検出と視線の推定のため、2つのモデルが必要です。
以下のリンク先から、2つの圧縮ファイルをダウンロードしてください。

1.https://s3.ap-northeast-2.wasabisys.com/pinto-model-zoo/462_Gaze-LLE/resources.tar.gz
2.https://s3.ap-northeast-2.wasabisys.com/pinto-model-zoo/459_YOLOv9-Wholebody25/resources_e_withpost.tar.gz

どちらもたくさんのモデルが入っているんですが、1.のファイルからは「gazelle_dinov2_vitb14_inout_1x3x448x448_1xNx4.onnx」を、2.のファイルからは「yolov9_e_wholebody25_post_0100_1x3x480x640.onnx」のみを取り出します。

※ 7-Zipを使うか、あるいは最近のWindows 11ならtar.gzの中身を直接覗けるので、上の指定ファイルを取り出してください。

なお、必要なPythonのライブラリは、onnx 1.16.1以上、onnxruntime-gpuなどです。ライブラリについては、先のリンクを参照願います。

ちなみにうちではなぜかGPUではなく、CPUでしか動きませんでした。CUDAやライブラリのバージョンの組み合わせはシビアみたいですね。

実行方法ですが、Windows PowerShellやコマンドプロンプトを開いて、プログラムのあるフォルダに移動します。

cd C:¥ml¥gaza-lle

その後に、

python demo_yolov9_onnx_gazelle.py -v 0 -gm gazelle_dinov2_vitb14_inout_1x3x448x448_1xNx4.onnx -dvw

と入力してエンターキー。
(なお、最後の「-dvw」を抜くと、動画ファイルとして残せます)

こんな感じの画像が出てくるはず。

20241217-152739

スマホをガン見してるところですが、ちゃんと「注視」している場所を当ててますね。
なお、1枚当たり1131msもかかってますが、これは単にGPU処理がうまく動かなかっただけです。
実用性がありそうなら、頑張って環境構築の見直しをしたいところです。

最近は世の中、生成AIが主流になりつつありますが。そうはいっても、物体検出や画像認識系の手法もまだまだ活用すべき領域がたくさん残されています。
この辺を使って、何か実用的なものを考えだしたいところです。


ゼロから作るDeep Learning ?Pythonで学ぶディープラーニングの理論と実装

« 激安パカケー「ZTE Libero Flip」を購入 | トップページ | 激安パカケー「ZTE Libero Flip」を使ってみてのレビュー »

数値解析系」カテゴリの記事

コメント

これは良い目からビームですね(違

> mokekyoさん
キャリーパミュパミュですね。いや、マジンガーZか?
ただこれ、時々、背面方向に目線がいくんですよ。さすがにでてくる色は薄くなりますが、完全とは言えないです。が、そういうものだと思って使えば利用価値はありそうです。

私としてはX-MENのサイクロプスを推したいです。

後ろに視線が行くのは目や鼻、耳をパーツと
して認識して顔の方向を決めていると考えると
表裏が計算上反転する事はありそうですね
(実際には裏にある目が見えるなんて事、あり得ないんですが)

こういうのがリアルタイムにARに反映させる
技術になったりするんでしょうね。楽しいです

コメントを書く

(ウェブ上には掲載しません)

« 激安パカケー「ZTE Libero Flip」を購入 | トップページ | 激安パカケー「ZTE Libero Flip」を使ってみてのレビュー »

無料ブログはココログ

スポンサード リンク

ブログ村