広角映像の歪みに頑健な注目点検出手法の開発と人物動作解析への応用
公開日:
カテゴリ: 第16回
広角映像の歪みに頑健な注目点検出手法の開発と 人物動作解析への応用
Development of Robust Keypoint Detector for Distorted Wide-Angle Images and Application to Human Motion Analysis
東京大学,都産技研
三木 大輔
DaisukeMIKI
Member
都産技研
阿部 真也
ShinyaAbe
Non-member
東京大学
陳 実
ShiCHEN
Student Menber
東京大学
出町 和之
KazuyukiDemachi
Member
Abstract
Tracking human motion from video sequences is a notable technique that is used to detect anomalies in individual human behavior. Several commercially available motion capture devices are based on the use of depth cameras. However, there are a couple of problems with the use of a depth camera. Firstly, a complicated camera system is required, and secondly, the optical field of view is limited. To overcome these problems, we need a technique that can recognize human motion from wide-angle images. In this study, we will devise a method for tracking human motion that is robust toward the distortion of wide-angle images. The main contribution of this study is the development of a methodology that can automatically estimate the transformation parameters that are required to improve the accuracy of human motion recognition. We propose a new architecture of a multi-layered convolutional neural network that can estimate the location of human joints in images and transformation parameters simultaneously. We confirmed its applicability to human motion analysis by comparing the results of the application for both natural and unnatural human motion data.
Keywords: Human motion recognition, Wide-angle image, Convolutional neural network, Worker Safety, Video surveillance
はじめに
近年 多くの保全作業現場において安全衛生管理体制の 立が られている 生 働 の [1] は 働災害による死傷者数は年間約 900 人に上り その多くが ? 事 は れ? れ事 などによるもの ある そのような事 の発生を低減するた に作業員に対して過去の事 事例などについて注意喚起を行い 再発防止を図る取組みが行われている し し作業員の従事する業務や環境は多岐に渡るた このような受動 対策は必ずしも有効とは限らない 一方 事
を に防 た の 動 対策として 作業現場に
を し 取り くことが有効 ある 体 には 人物の な動作や 通常動作 らの逸脱を検出?
評価し 働環境を改善する取り組みが考えられる このような人物の動作解析に有効な方法の一つにモーションキャプチャ機器の利用が挙げられる 現在 市場に広く しているモーションキャプチャ機器は RGB-D メラなどによって撮像 れた距離画像を解析[2]すること
人物の動作を する し し RGB-D メラに用いられるステレオ メラや赤外線 メラなどを利用した方法は 特殊な撮像機器を必要とすることや 画角が狭く限られるといった課題があった 特に画角が狭く限られることは広範囲 たは近距離に存在する人物の姿勢を
する上 不利 あり 作業現場の監視等の用途には
な った そこ 研 は 保全作業現場 の働者安全を とした広角 メラ 像 らの人物動作の解析手法を開発する
提案手法 は ず広角 メラ 像内の人物の関節位置を多層の畳み みニューラルオットワーク
(Convolutional Neural Network, CNN)を用いて する ここ 広角画像の歪みに頑健とするた CNN の構造を工夫し 像の補正に必要なパラメータを推定する画像補正量推定器を設けた らに 得られた画像中の注 点情 を利用し 実空間上 の人物の 3 次元 な姿勢および位置を推定すること 人物動作の特徴を抽出した
稿 は 注 点の検出および画像補正量推定のた
層に るようにした
CNN の学習のた 学習用データとしてMPII Human pose dataset [xxx]を利用した データセットに含 れるラベルをもとに j番 の関節位置を示す 信度マップを
IIP- X*II2
S* = exp -j (1)
jJ
の CNN の構造およびそのパラメータの最 化方法につ
いて説明した後 得られた注 点情 を利用して人物の
j
動作を解析する方法およびそれらの評価実験と結果について述べる
画像の歪みに頑健な注目点検出
研 提案する画像の歪みに頑健な注 点検出手法
とした ここ X*は人物の関節位置が存在する座標の真値を示し Pは 信度マップにおける各画素の座標 ある パラメータの最 化 は 注 点検出器 推定 れた CNN の出力 Sj(P)および真値 S*(P)との間における誤差
の概要を図1に示す 提案手法 は画像中の注 点位置
j
?1 = こIISj(P) - S*(P)II
(2)
j2
を推定する注 点位置推定器と 画像の歪みに頑健とすj
るた の画像補正量推定器 ら成る
注目点検出器
画像中の人物における注 点位置の推定のた のCNN には 広角画像(256X256 px)を入力し 画像の畳みみおよび プーリングを繰り返すこと 出力層 は注
点位置を示す 信度マップ(32X32 px)を回帰する構造とした ここ 畳み み層をより多層とすることが
度の 上のた に効果 あるが 畳み み層をある程度以上に多層とすると 誤差逆伝搬が上手く行われずに パラメータの学習が停滞すること(勾配消失)[3] が 題となる そこ オットワーク中 に誤差の を行うような構造[4]を 用すること CNN を多
を最小化するようにオットワークを最 化した
画像補正量推定器
画像補正量推定器は 注 点推定器 得られた 信度マップを入力とし 広角 メラの焦点距離 f び水平方
の回 量 師 垂直方 の回 量 v 画像の原点を中心とした画像平面内 の回 量 師の 4 次元の値を出力する構造とした 画像補正量推定器の学習 は ず図2に示すような人物の画像と同様に 3 次元コンピュータグラフィックス(3D computer graphics, 3DCG)によって 焦点距離 f および を中心に水平方 - 師 垂直方 -
r 画像の原点を中心とした画像平面内
-3 r 3 の範囲 変形 せた画像を 1 万枚用意した 次に 先の注 点位置推定器にこれらの画像を入力し 出力として 信度マップを得た らにこの 信度マップを入力とし 画像の変形に利用したパラメータを推定すべ 真値 T*とした 最後に 画像補正量推定器における CNN の出力 Tおよび真値 T*を用いた損失関数
?2 = llT- T*ll2(3)
を最小化するように CNN のパラメータの最 化を行った
人物動作解析への応用
人物姿勢情報の再構築
注 点情 ら人物の 3 次元姿勢の推定 は ず
あら じ 用意 れた 1 万通りの 3 次元姿勢モデルに対してt-SNE による次元削減を行った後 EM アルゴリズムによるクラスタリングを行い 平均姿勢 Y*および正規直交行列 eを た 次に 平均姿勢 Y*を 2 次元平面への射影
n
n
Yn(a) = ll(T)(Y* +a ? e)(4)
n
を た ここ ll(T)は画像の歪みを考慮した射影行列 ある らに注 点検出器によって推定 れた人物の画像中 の2 次元姿勢 yを用いて得られる損失
関数
E(y, Yn(a)) = こlly - Yn(a)ll2 + llJ ? all2(5)
22
nEN
を最小化する正規直交行列 aを 対応する3 次元
の人物姿勢
Y = sll(T)(Y* +a ? e)(6)
n
を得た ここ sはスケーリング係数 ある
人物位置の推定
図3に人物位置の推定手法を示す 先の注 点検出器によって推定 れた画像中における注 点を入力とし
メラ空間上 の人物の位置を推定する全結合ニューラルオットワーク(neural network, NN)へと入力する この NN は メラ ら人物の距離を推定し この距離情
と広角 メラ 像の射影方式を利用して実空間上の 3
次元位置を推定する これにより得られた 2 次元姿勢と人物位置を利用して 人物の3 次元姿勢が推定 れる距離推定NN の学習 は メラ空間上の位置 P*に投 影 れた 3DCG 人物モデル画像を生成し 学習用画像とした 注 点推定CNN および距離推定NN を用いて2 次元人物姿勢と人物位置を推定した後 人物位置 Pを推定
し P*および Pに関する損失関数
?3 = llP - P*ll2(7)
を最小化するように距離推定NN の学習を行った
実験および考察
実験方法
各 CNN の学習および評価実験には GPU(Geforce GTX1070)を搭載したPC(Intel core i7-6700, 3.4GHz)を利用した 注 点位置推定CNN の学習 は 7 万回のパラメータの更新を行った 同様に画像補正量推定CNN および距離推定 NN の学習 はそれぞれ 1 万回のパラメータの更新を行った
評価 は 3DCG を用いて人物が歩行する広角 像を生成し 人物の姿勢および位置に関する真値と推定値の比較を行った 3DCG データには様々な体型をシミュレート る人物の3DCG モデル[6]を使用し モーションキャプチャデータとしてCMU Mocap データ[7]を利用した特に3 次元動作の のた CMU Mocap データ ら自 な歩行動作(Subject 91, trial 2)および不自 な歩行動作(Subject 91, trial 18)の人物姿勢の およびそれら
ら得られる体の 視線方 移動速度の推定を行い 真値と比較した
実験結果
推定 れた注 点情 ら 3 次元姿勢の復元および人物位置の推定を行い 人物動作の特徴を抽出した結果を図4 5 6に示す 自 な歩行動作および 不自 な歩行動作に関する特徴をそれぞれ可視化することが可
あり 真値と比較して良好な 度が れた特に不自 な歩行動作において体の や視線方 の変動 移動速度の変動に対して特徴 な傾 を するこ
とが可 あり 真値に対して良好な 度 が可
あることが た
CMU Mocap Dataset Subject 91, trial 2
CMU Mocap Dataset Subject 91, trial 18
図4 人物の体の向きの推定結果
CMU Mocap Dataset Subject 91, trial 2
CMU Mocap Dataset Subject 91, trial 18
図5 視線方向の推定結果
CMU Mocap Dataset Subject 91, trial 2
CMU Mocap Dataset Subject 91, trial 18
図6 移動速度の推定結果
まとめ
研 は 広角 メラ 像の歪みに頑健な注 点の検出手法およびそれらを利用した人物動作の解析技術を開発した 注 点検出器および 画像補正量推定器をCNN
実装し 組み合わせること 画像の歪みに頑健な注点の検出が可 あることを した た 推定 れた 2 次元の注 点位置情 を利用すること 人物の 3 次元 な姿勢および位置の推定が可 あった 3DCG を利用した動作解析に関する実験 は 広角 の人物姿勢 が可 あり 人物の自 および不自 な歩行動作に関する特徴を抽出することが可 あることをした 手法を応用し 保全作業に従事する作業員の
な動作や 通常動作 らの逸脱を検出 れば 働災害の事前防止につながる可 性がある 今後はCNN および NN の構造を改善すること 度の 上や 動作データ らの異常検知 行動 等に 用 るように改良を行う
参考文献
生 働 働災害発生状況
https://www.mhlw.go.jp/bunya/roudoukijun/anzeneisei11/r ousai-hassei/index.html
J. Shotton, R. Girshick, A. Fitzgibbon, T. Sharp, M. Cook,
M. Finocchio, R. Moore, P. Kohli, A. Criminisi, A. Kipman, and A. Blake, "Efficient human pose estimation from single depth images" IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(12), 2821?2840,
2013
Y. Bengio, P. Simard, and P. Frasconi, "Learning long-term dependencies with gradient descent is difficult" IEEE Transactions on Neural Networks 5, 2, 157?166, 1994.
S. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh, "Convolutional pose machines", IEEE Conference on Computer Vision and Pattern Recognition, 4724?4732, 2016
[4] M. Andriluka, L. Pishchulin1, P. Gehler, B. Schiele "2D Human Pose Estimation: New Benchmark and State of the Art Analysis", IEEE Conference on Computer Vision and Pattern Recognition, 2014
https://www.adobe.com/jp/products/fuse.html
http://mocap.cs.cmu.edu/